深度 | MIT开发新型神经网络训练技术，让模型决策不再黑箱(附论文)

选自MIT

机器之心编译

参与：Terrence L、李亚洲

来自MIT计算机与人工智能实验室的研究者设计了一种新的神经网络训练方法，利用这种方法训练过的神经网络不仅可以预测和分类还能给出决策理由。

最近几年，人工智能研究领域表现最好的系统都来自于神经网络，它能够寻找训练数据中的模式，产生有用的预测或分类。例如，神经网络经过训练可识别数字图像中的某些目标或者推断文本的主题。

但是神经网络是黑箱子。在训练之后，神经网络或许能非常好地分类数据，但即使其创建者也不知道为什么。通过可视化数据，有时有可能自动操作那些决定神经网络响应哪些视觉特性的实验。但是文本处理系统往往更加不透明。

在计算语言学会自然语言处理实证方法会议（Association for Computational Linguistics』 Conference on Empirical Methods in Natural Language Processing）上，MIT 计算机科学与人工智能实验室（CSAIL）的研究人员将提出一种新的训练神经网络的方法，使他们不仅提供预测和分类，而且为他们的决策提供理论依据。

MIT 电气工程和计算机科学研究生、论文第一作者 Tao Lei 说道：「在现实应用中，有时人们真的想知道为什么模型做出这种预测。医生不相信机器学习方法的一个主要原因是没有证据。」

MIT 电子工程与计算机科学系教授、Tao Lei 的论文导师 Regina Barzilay 补充说：「不仅仅是医学领域。在任何领域，错误预测的成本都是非常高的。你需要证明你为什么这样做。」

论文第三作者 Tommi Jaakkola 说，「这项工作还有更广泛的影响，你可能不想只是验证模型是以正确的方式进行预测；你可能还想对它应该做出的预测类型施加一些影响。外行人如何与一个复杂的、他们所不知道的算法训练出的模型进行交流？他们可能有能力告诉你做出特定预测的理由。在这个意义上，它打开了一种与模型交流的不同方式。」

虚拟大脑

神经网络的得名是因为它们大致模仿了大脑的结构。它们由大量的处理节点组成，像单个神经元一样只能进行非常简单的计算，但是在密集网络中彼此连接。

在被称为「深度学习」的方法中，训练数据被馈送到网络的输入节点，网络的输入节点对其进行修改（modify）并将其馈送到其它节点，其它节点修改并将其馈送到另外的节点，并重复该过程。然后存储在网络输出节点中的值与网络尝试学习的分类类别相关联——例如图像中的目标或文章的主题。

在网络训练的过程中，由各个节点执行的操作被连续地修改，从而在整个训练样本集合上产生一致的良好结果。在过程结束时，编程网络的计算机科学家通常不知道节点的设置是什么。即使他们明白，也很难将低级信息转换回系统决策过程的可理解性描述。

在新论文中，Tao Lei、Barzilay 和 Jaakkola 专门描述了在文本数据上训练的神经网络。为了能够解释神经网络的决定，CSAIL 研究人员将网络分为两个模块。第一模块从训练数据中提取文本段，并且根据它们的长度和它们的相干性来对分段进行评分：分段越短，并且从连续单词串中提取的越多，其分数越高。

然后将由第一模块选择的文本段传递给执行预测或分类任务的第二模块。两个模块一起训练，训练的目标是最大化所提取文本段的分数以及预测或分类的准确性。

研究人员测试他们的系统的数据集之一是来自用户评价不同啤酒的网站的一组评论。数据集包括评论的原始文本和相应的评级，评级使用五星级系统在三个属性上评定：色（appearance）、香（aroma）、味（palate）。

该数据集对自然语言处理研究者有吸引力的原因是它也被手动注释过，指示评论中哪些句子对应于哪些分数。例如，评论可以包括八个或九个句子，并且注释可以突出显示指示啤酒的「大约半英寸厚的棕褐色泡沫」，「显著爱尔兰啤酒气味」和「缺乏碳酸化」等等。每个句子与不同的属性等级相关联。

验证

因此，数据集为 CSAIL 研究人员的系统提供了一个很好的测试。如果第一模块已经提取了这三个短语，并且第二模块将它们与正确的评级相关联，则系统已经识别了人类注释器所做的判断的相同基础。

在实验中，系统与人类对于色和香评级的一致性分别为 96％和 95％，对于更浑浊的味觉概念则是 80％。

在论文中，研究人员还报告了在自由形式技术问答的数据库上测试他们的系统，其中任务是确定给定问题是否之前就已经被回答。

在未发表的成果中，他们已经将该系统应用于数千份关于乳腺活检的病理报告，在那里它已经学会提取文本来为病理学家作解释以提供诊断基础。他们甚至使用它来分析乳房的 X 线照片，其中第一个模块提取图像的部分而不是文本的部分。

东北大学计算机与信息科学助理教授 Byron Wallace 说：「现在关于深入学习有很多炒作，特别是用于自然语言处理的深度学习。」「但这些模型的一个很大缺点是，它们通常是黑箱。拥有一个不仅可以做出非常准确的预测，还可以告诉你为什么做这些预测的模型是一个非常重要的目标。

「实现这一目标后，我们在同一会议上会提交一份主旨相似的论文，」Wallace 补充说。「我当时不知道 Regina 正在做这个，实际上我认为她的更好。我们的方法在培训过程中，当有人告诉我们，例如，某个电影评论是非常积极的，我们假设他们会标记一个句子并给你理由。我们利用这种方式来训练深度学习模型去提取这些理由。但他们不做这个假设，所以他们的模型运行时没有使用带有标记的直接注释，这是一个非常好的方式。」

论文：Rationalizing Neural Predictions

摘要：没有根据（justification）的预测往往限制了其应用。作为补救，我们学习提取输入文本的碎片作为根据（或者说论据，rationales），裁剪出的文本要短却具有相干性，而且足够做出同样的预测。我们的方法是结合两个模块，也就是生成器和编码器，训练后的模块要很好的协同运行。生成器指定在文本段上的一组分布作为候选论据，然后将这堆论据输入编码器进行预测。论据不是在训练过程中给出的。该模型通过渴求论据而被正则化。除了手动注释的测试案例，我们在多方面情感分析上评估该方法。我们的方法以显著的优势超过了基于注意力的基线，我们也成功的在问题检索任务上解释了该方法。

本文由机器之心编译，转载请联系本公众号获得授权。

------------------------------------------------

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。