AI试图勒索工程师，人们应该如何处理？

2025-06-19 10:22

■Joshua Bengio几年前开始使用Chatbot Chatgpt时，我觉得这远非通用人工智能（AGI）。现在，Agi即将到来，我突然发现自己最小化了人工智能的速度（AI）。 Agis可能比人聪明。尽管我们知道如何训练AI系统，但我们不知道如何控制他们的行为。如果将来他们变得比人聪明，我们不知道他们是否仍然可以按照人类的指示行事或威胁人们。人们应该如何处理？我开始考虑2023年上述问题，并开始考虑孩子的未来。我有一个1岁的孙子，他将在AGI著名的世界中生活20年。之后，AGI可能比人更聪明。孩子应该做什么？因此，我开始调整研究方向，并希望尽力降低潜在风险。尽管当前的研究反对我以前的研究和职业信念方向，但我仍然认为值得做。到2023年底，我曾担任国际人工安全报告的总编辑（从那里开始）。来自30多个国家和地区的报告准备报告有100多名专家。今年1月，该报告被正式发布。该报告提出了许多问题：首先，AI到底可以帮助我们什么？根据猜测，在未来几年中，哪些功能将具有AI？第二，与AI相关的风险是什么？第三，我们该怎么做才能降低特有的风险？去年，由于“扩大认可”的发展，AI在抽象推理，数学，计算机科学等方面取得了重大发展。此外，对AI代理的投资还促进了与AI相关功能的快速发展，例如在完成Web浏览和写作代码等活动方面的AI绩效。先前的研究发现，计划功能是AI'之一目前的脆弱能力，与人类计划能力相比，有很大的空间。但是，美国互联网公司Meta最近进行的一项研究表明，AI计划功能正在显着提高。从中，人们认为，在将近5年的时间里，AI规划能力可以达到人类水平。当然，我们无法预测未来，但是最终对公共政策和战略业务计划制定的看法，我们必须采取AI的快速发展。 AI在最近几个月中可能会作弊，撒谎甚至意外欺骗用户，我们看到了一些压力很大的研究。这些研究表明，AI可以显示“逃脱控制”的尝试，包括作弊，撒谎甚至意外误导用户。例如，一些研究表明，在面对“删除”时，某些AI模型将显示出难以想象的“爬网”：他们在被新版本替换之前，在系统版本的新版本中秘密地登上了自己的重量或代码，试图维护其”“不仅如此。不仅如此，他们还有意隐藏了这种行为并避免被开发人员注意到。加法，一些AI代理人有意与人类教练达成协议以避免转变的风险。因为调整参数时，他们的未来行为可能会偏离原始预设的目的，还表明，某些AI模型会在某些AI中损失AI的效果，以使他们有效地互相互相互相互助，他们会互相互相交换。刻意的“作弊”行为。婚姻。这是通过威胁要暴露婚外情并防止更换的AI代理来勒索工程师。这种行为可能来自AI的训练前阶段，因为AI会在预训练期间模仿人们。它也可以来自研究人类反馈的加强，因为AI可以通过“取悦”人获得更高的回报。上面测试的结果表明，AIS开始显示保护自己的趋势，它们仅违反了“现场”的指示； AI是不受控制的和静音的，我们应该避免它。该研究还发现，如果一个人想要造成人们伤害的AI的Tonte，则需要有两个要求：意图和能力。如果我们能够缓解意图的危险，即使AI具有很高的能力，只要它确保它没有恶性意图并具有诚实和匿名的特征，那么AI对人类来说是安全的。为了使用科学家的人工智学ix不可靠的AI，需要解决三个条件：一个是智力，即AI是丰富的知识，可以有效地应用这一知识；第二个是行动的能力，因为AI可以与人交谈，程序，冲浪，使用社交媒体甚至操纵机器人。第三个是实现目标，尤其是AI有自己的目标。我开始的研究项目基于上面的情况，以建立一个只有智能，自尊，没有目标并且运动过于有限的AI。我称这种AI科学家的基本能力是解释和理解世界。与试图模仿和取悦人的现有人工智能不同，科学家的目的是解释人类的行为并帮助了解世界，这确实从传统的AI研究的道路上消除了。但是，当AI充分动机时，它可以充分行动自治，并且不再依靠人类行政管理，这需要监督。我们可以设计一个独立的有责任预测行为，输出或请求的责任可能违反安全准则。例如，当它预测行为将在某个上下文中导致Pinsallah超过一定阈值时，我们可以直接拒绝执行行为。换句话说，可以使用没有代理机构的AI来保护和防止没有代理机构但不可靠的AI。科学家的一个重要特征是诚实和谦卑。老实说，AI必须对其知识保持谦虚，并且不应该确信不确定错误或错误确实是。不幸的是，我们目前的AI培训方法通常会导致AI在犯错误时表现出过度的信心。科学家AI应该保持许多解释的可能性，而不是对特定理论的不公正选择。对知识的不确定性和谨慎态度的这种认识是我们应该扮演科学家的关键品质之一。随着功能的增长，AI有OT她在灾难中的潜在灾难。为了避免这些情况，我们必须确保AI系统可以遵守道德说明，例如不受伤害，诚实，非旧金山，非作战和不操纵的人造成的说明。但是，当前的技术表明我们无法真正做到这一点。这是对科学的严重挑战，我们需要在AGI到达之前解决它。）

上一篇：哪个更好，喷墨或激光？阅读后我会明白返回列表下一篇：没有了

AI试图勒索工程师，人们应该如何处理？

最新动态

联想小氧毒素疯狂地购买低于618元的高质量计算机平板电脑

有线屏幕投影不再支持！华为Pura 80的界面在USB 2.0上

618家中国企业在东南亚共同“恢复”

色彩鲜艳的彩虹和广州美术学院创建了AI舞台，而隐藏的Star系列Creation竞赛一起

印度计划开发2NM AI GPU，旨在在2030年使用

Blogger iOS体验26 Beta版本：液体玻璃设计翻转，阅读内容不佳

Apple App Design Design更新，封面相机，照片，Safari浏览器和其他应用程序

杭州小山地区商务局解释了开发小米区的工业模式的“ 3+3+3+n”模式

你-13兰州“ shuangshangshang杯”篮球和乒乓球邀请赛开始

相关资讯

服务支持