UC Berkeley博士生钟瑞麒：我为何选择研究人工智能对齐？

来源：安远AI

导读

本文由钟瑞麒在知乎首发，安远AI经授权原文转载，未做修改。

OpenAI最近搞了个SuperAlignment Team以及Anthropic也花了相当多的资源做对齐方面的研究，对齐问题逐渐进入了主流学术界的视野。所以我就写了篇博客介绍以下这个方向，希望更多对于这个领域感兴趣的人可以了解一下～

以下是正文 =============

我现在是UC Berkeley EECS 第五年的博士，导师是Dan Klein和Jacob Steinhardt。我2018年开始研究自然语言处理（NLP）。我做的东西比较杂，做过算法偏见、可解释性、和代码生成。2021年我短暂地研究了“指令微调”之后（比Google 早了半年！），我就开始研究AI Alignment（AI alignment）的一个子领域：可扩展监督（Scalable Oversight）。最近由于GPT-4和Claude的成功，AI Alignment受到了更多人的关注。不过因为对齐包含了很多个研究方向，好多人对它的理解都不太一样……有人认为是“防止AI系统统治世界”，有人认为它是“得到更高的打分”（e.g. RLHF）。为了澄清这些误解，我会先介绍一个较为宽泛的AI对齐的定义，再来讨论以下我做AI Alignment的原因。

这篇文章的概要：

定义AI Alignment：控制AI系统更好地实现设计者的预定目标，但并不使得它“能力更强”（例如，降低perplexity、提高GLUE/MMLU准确度、更有效地说服人们等）。以下是两大类对齐任务：

明确目标：如果每个人每时每刻的偏好都不一样，AI应该优化什么目标？这些偏好往往是主观且依赖于情境的。
监督：赋予人们监督AI系统输出的能力，特别是AI系统在某些任务上超过单个人类开发者、注释者或用户的情况下。

许多AI Alignment研究方向希望可以帮助人类更好地控制AI系统，因为单个人类经常是有偏见的、容易出错的、或者专业知识不足的。在不久的未来，我们最大的瓶颈可能不是AI不够强大，而是人类没有能力监督强大的AI。

我从事对齐工作的原因

对齐在实际生产中是有用的，尤其如果我们想让AI帮人做人不擅长做的事情的时候。
AI所带来的社会风险将逐渐增加。
相比于其它AI的研究，学术界更适合研究Alignment。

AI Alignment的一个定义

AI Alignment经常被定义为“控制AI实现设计者的目标“。但按字面意思理解的话这个定义就过于宽泛了：如果一个情感分类器错误地将“我喜欢这个产品”分类为负面，这算是对齐问题吗？如果是，那么大多数AI研究都算Alignment，因为大多数AI研究都想提高准确率。但如果所有AI研究都能叫Alignment，那我们也就没必要特地另外创造“对齐”这个术语。因此，我们需要缩小“AI Alignment”的范围，使这个术语有意义。我自己的定义是：

（1）“控制AI系统以实现设计者的预期目标“（上面原本的定义）

除去

（2）“让AI系统更加“有能力”，例如更好的GLUE/MMLU准确性，更成功地说服人类，增加广告浏览次数，得到更多的B站三连和知乎点赞等。”

等下……不提高AI的能力，那还剩下啥研究可做？以下是两个AI Alignment的子方向：(i) 明确目标：明确我们从AI系统中想要什么，尤其是当评估是主观且因情况而异的，以及 (ii) 监督：可靠地评估AI系统，特别是在AI系统比单个人类更强的任务上。

(i) 明确目标：明确AI应该优化什么。AI做什么对用户是最有用的？一般研究人员和系统设计者很难预测它们，因为它们经常是主观的且依赖于用户具体情境的。主要因素有：

① 用户的偏好与系统开发者不同、因情境而异、并且难以在研究环境中重现。举个例子：为了提供最大的价值，语言模型应该给研究AI的教授和报道八卦的记者推荐不同的文章。即使是同一个人，在给男女朋友发消息和写论文时也会希望AI提供不同风格的文字。然而，由于系统开发者无法精确了解实际用户的偏好，在部署系统之前他们只能在自己的偏好上训练和测试。因此，语言模型在部署过程中的正确行为是“未明确的”(underspecified)。

具体研究问题：

用户的反馈一般能带来系统开发者带来他们所没想到过的信息。然而用户一般没有时间仔细查看语言模型的输出是否是正确的。如何能从用户得到有用且可靠的反馈，并为用户量身定制它们的AI系统？
如果用户的反馈不能真实反映用户的偏好，那又如何评估一个系统是否确实满足了“用户偏好“？

② 系统设计者与其它利益相关者观点不一致。人们有不同的价值观和偏好；例如，有些人更看重一个系统是否有用，而非它是否安全。即使道德观念相同（比如不能在网络上用言语对他人进行伤害），在执行中大家也会产生不同的意见；举个例子，Sap等人在2022年发现，不同族裔/背景的注释者可能会不同意什么样的文字会伤害到他人。因此，使AI系统与一群有不同偏好的人们对齐本质上也是一个社会问题，需要一个公平、包容不同意见的解决方案。因为人本来就有不同的意见，即使AI系统变得更加强大，这份不同也不会自动消失。

具体研究问题：

AI系统应如何回应具有不同道德观的用户？
如果大家有不同的偏好，如何找到一个大多数人能同意的观点？

(ii) 监督：当人类评估者的能力不如AI时，如何可靠地评估AI系统便成了个问题。即使评判标准客观且不随着情境变化，这还是很难。两个主要因素有：

① 评估需要花费大量时间和专业知识，因此非常昂贵的。假设ChatGPT写了一个3000字文章的摘要，评估者需要有耐心先阅读整篇文章；如果它起草了法律文件，我们需要聘请律师来评估；如果它生成了一个计算机程序来实现一个由基于机器学习公平性论文的算法支持的Web应用，并且在GPU上运行得很快，我们需要聘请同时擅长Web开发、公平机器学习和并行系统编程的专家。这些评估任务对于专家来说都会很难。随着AI系统执行更复杂的任务，这个问题只会变得更难，因为人类的进化速度赶不上AI系统不断提高的能力。

具体研究问题：

如何将复杂问题（例如，对一本书进行摘要、数学问题、关于论文的问题）分解为容易监督的子部分？
我们是否可以使用AI系统来找出彼此的缺点，甚至是对彼此进行红队攻击？
非专家是否可以与AI系统合作，以超越非专家或单独的AI系统？
我们是否可以通过将困难任务简化为更简单的任务来使人们间接进行监督？（这是我自己的研究方向!）

② 人类评估者经常容易犯错去选择看上去正确但实际上不太正确的输出。ChatGPT的输出经常看上去很专业且非常自信，因此人们可能会被“欺骗“，认为它提供的错误信息也是正确的。这被称为晕轮效应。如果我们直接用粗心或有偏见的人类反馈来优化AI系统，我们最终会得到谄媚或甚至“欺骗性“的AI系统，生成看似正确实则错误的内容。这个问题会随着AI系统变得更加强大变得更糟，因为更强大的AI系统可能知道更多能误导人类的方法，并使用它们获得更高的评分。当前主流的评估方法不能解决这些问题，因为它们没考虑到评估者自身的认知局限。

具体研究问题：

我们是否可以评估并预测语言模型操纵、欺骗、或者讨好人的能力和倾向？
我们是否可以训练模型不去使用那些具有欺骗性的策略，并让模型更轻易地帮助人类发现它们自身的错误？

我转向AI Alignment研究的原因

两年前，我从更传统的NLP研究转向AI alignment。主要原因有三：1）AI Alignment有很强的现实意义，2）AI所带来的风险会增加，3）学术界的结构适合许多对齐研究方向。

1）对齐研究具有很大的现实意义

我希望AI可以做我无法做到的事情，但仍然希望能可靠地验证AI是否是对的。几年前，主流NLP研究主要关注监督学习，即模仿人类（专家）的示范，以尝试自动化人类已经擅长的任务，但这也将AI的能力局限于人已经能做的事情的范畴内。如果要让AI做我们不擅长的事情，明确优化目标并赋能人类监督AI系统将会是我们需要解决的关键技术问题。

2） AI风险正在增加

AI系统正变得越来越有能力，用户也将越来越多的权限和复杂任务委托给它们。例如，AutoGPT直接将GPT-4与终端连接，以编写任意程序以实现用户的目标。虽然到目前为止AutoGPT尚未导致任何灾害，但我们在未来的不久AI系统可能就会在数字世界中自主地采取复杂且难以解释的行动，并有可能因为人类的疏于监督带来危害。因此，AI Alignment将是一个重要的问题。

3）学术界的结构更适合对齐的研究

公司通常追逐利润，这与公共利益（例如公平、经济平等、用户的心理健康等）经常不一致。虽然有不少公司确实有专门的研究团队致力于有责任地部署AI系统，并且他们的研究人员也通常很有社会正义感，但公司的基因一般都是追求利润的，因此我们不能把希望寄托于他们的道德水准。相较之下，学术界较少受经济利益驱动，因此可以作为一个独立的参与者来“红队”这个行业，根据公共利益进行评估。

还有另一个原因学术界适合对齐的研究：在我们有多种“获胜”的标准时，获胜者会更多。在传统的基准测试驱动下(benchmark-driven)的AI研究中，系统的性能通常被简化为在一个有明确评估标准的基准测试上的单一（或几个）数字。因此，获胜的标准是单一的，即在排行榜上得到一个好的名次。然而，AI Alignment研究方向避免了这种单一性问题，因为主要的研究方向，如明确目标和监督，都需要新的概念、更可靠的评估方法、以及多方利益相关者之间的讨论。因此，学术界有更多的贡献空间。

写在最后

总结来说，我两年前转向了AI Alignment研究，因为1）我认为它在不久的将来会非常有用，2）在基准测试驱动的研究中很难击败大公司。

还有另一个我还没提到的原因：我预测，按照当前的计算能力、数据和人才，即使不需要来自学术界的任何基础概念创新，企业在未来10年内有很高的可能性将能自动化90%的认知任务。因此，我的研究专注于“就算AI系统已经与人类相当的能力那还有什么问题需要解决”，因为即使我不做“使AI更强大的研究”，已有的学术概念也足以建造一个在很多方面和人一样强大的AI。

你可能会认为我的预测有点离谱。在下一篇博客中，我将讨论为什么学术研究需要预测未来，以及一些有效的预测未来的方法。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。