自对齐能否驾驭“狂奔”的AI

◎本报记者翟冬冬

自Open AI推出ChatGPT大模型以来，AI大模型进入到公众视野，探讨热度飙升，百度、腾讯、阿里等互联网巨头也纷纷公布了其对AI大模型的投资与布局路线图。

然而，在一片火热中，也有不少科技巨头表达了对AI大模型的担忧。利用人工智能写论文、制作虚假图片……在给人类带来便利的同时，“稚嫩”的人工智能技术也暴露出许多安全隐患问题。据媒体报道，被誉为“人工智能教父”的杰弗里·辛顿已从谷歌辞职，只为完全自由地谈论AI大模型等人工智能技术所带来的危险。

狂野生长的AI大模型，真的管不住了吗？来自美国卡内基梅隆大学语言技术研究所、国际商业机器公司研究院等机构的研究人员提出了一种全新的方法——自对齐。该方法结合了原则驱动式推理和大模型的生成能力，从而使用极少的人类监督便能实现AI大模型的“自我监管”。

和人类价值观“对齐”

目前，即便是最先进的AI大模型，也无法实现自我监管，仍需要依赖人类指令以及注释进行相应的调整。

“生成式人工智能可以被看作一个预测工具，它主要依靠大量数据样本来预测正确答案。”清华大学交叉信息研究院助理教授、人工智能国际学术交流项目主任于洋表示，所有基于数据统计的人工智能模型，对于“答案”的预测都必然有一定的随机性，而这种随机性所产生的偏差一旦与人类价值观、伦理观、道德观以及法律法规等相悖，就需要对该模型进行监管、完善。计算科学工作者致力于消除这类偏差，尽量使之与人类的价值观、伦理、法律、公序良俗等相符，这被称为“对齐”。

然而，从统计学的角度看，AI大模型一定会“犯错”。因此，AI模型对齐的监管，不应追求获得一个不犯错的完美AI大模型，而是要管理AI大模型产生违规错误的风险。“例如，对话类AI大模型在其对话中，是否会大量出现针对某个地区的地域歧视。”于洋举例道，对于AI大模型的监管，就是为了避免这类内容出现的概率过高、避免模型的答案系统性发生整体倾向这类偏误。

然而，如果AI大模型严重依赖人类监督，会造成成本过高、可靠性不足、存在偏向性等问题。因此，以最少的人类监督实现AI大模型的自我监督成为构建AI大模型的关键。

为了解决这一难题，研究人员提出了一种自对齐的新方法，仅需一个人工定义的小型原则集（规则），便能引导AI大模型生成答复的正确导向，且能显著减少对人类监督的需求，使其几乎无需任何额外注释。AI大模型可以自对齐的设计目标是开发出有用、可靠且符合人类道德观念的AI大模型，包括在生成答案时可以反对用户的有害询问，并且为表示反对的背后原因提供解释。

值得一提的是，此前一些AI大模型至少需要5万条注释，而整个自对齐过程所需的注释量少于300行，监督效率非常高，极大地降低了AI大模型对人类监管工作的需求。

把“打骂”变为“讲道理”

那么，未来AI大模型是否可以实现完全的自我监管？于洋表示，AI大模型监管的主要方式必然是自动化、机器化、算法化的，因为AI大模型依赖海量数据支撑，仅凭人工监管是不现实的。但完全的自我监督不太可能实现，这是因为即使AI学会了相应的人类规则，但它和人类所掌握的规则数量仍然无法比较。同时，人类的思维以及逻辑推理过程具有极高的复杂性，也是AI大模型难以真正“理解”人类的原因之一。

于洋举了个例子，现在的AI大模型监管就好比教育孩子，现有的人工对齐技术方案，其实都是在“打骂”孩子，也就是用奖励和惩罚的方式训练AI什么能做、什么不能做。而真正的教育，是要对孩子讲道理，了解为什么有些事情不能做，即要让AI理解背后的逻辑，理解人类的评判标准。这是一件很难的事情，目前大多数的AI大模型的训练和对齐技术的开发，还停留在“打骂”阶段，要从“打骂”变成“讲道理”，还有很长的路要走。

“除了技术人员开发教育AI合规的技术外，监管当局也必须制度化、系统化地从社会合规和社会影响等方面对AI大模型进行多维度的审计和监管。”于洋进一步解释道，相关行业及管理部门，需要对AI大模型违背人类价值的概率，有一个系统化的评估，并根据AI大模型相关产业的发展现状，调整监管手段，有针对性地提出监管方案，建立动态、敏捷响应技术前沿变化的监管体系。企业也要建立专门针对AI大模型的监管部门，来审核AI大模型中是否包含自我监管机制，以及具体到每一个模块将带来哪些影响，以此尽量降低AI模型的违规风险。

此外，于洋还建议，人工智能的治理，也需要大量的公众参与，因为和训练模型寻找漏洞相比，在大量应用实践中去发现漏洞、完善AI大模型，显然更加高效，也能显著降低AI大模型开发成本，推动AI大模型在各行各业的广泛应用。

【责任编辑：张瑨瑄】