四篇AAAI 2020论文，解读微信大规模跨领域文本内容建模研究

机器之心发布

机器之心编辑部

AAAI 2020 本周在美国纽约落幕。虽然很多人因疫情无法现场参与这一顶会，但窝在家里的我们可以多读论文。在此文章中，我们介绍了四篇AAAI 2020论文，便于读者们了解微信在内容理解和建模方面的研究。

随着社交媒体和移动信息流应用的发展，许多应用积累了海量多种类型的图文视频等多媒体内容。

对海量线上内容的理解和建模即具有实际应用价值，也有十足的研究潜力，因此也吸引产业界和学术界大量研究人员的关注。

据机器之心了解，在近期召开的 AAAI 2020 中，微信数据质量团队共计入选 4 篇研究论文，包含文本分类、强化学习、迁移学习等领域，包含文本分类、强化学习、迁移学习等领域，其核心算法已经用在微信看一看，搜一搜等应用里面。

本文对此四篇论文的核心内容进行了介绍。

1. Active Learning with Query Generation for Cost-Effective Text Classification

论文地址：https://aaai.org/Papers/AAAI/2020GB/AAAI-YanY.3784.pdf

长文本分类标注时，由于文章内容的丰富性，标注人员不得不阅读整篇文章，才能决定文章的标注，导致长文本标注一直是一个耗时耗力的工作，特别是一些在需要大数据集的分类任务中，该问题尤为严重。传统主动学习方法通过扫描所有未标注样本，并选择最佳样本用于训练，这些方法耗时并且效果一般。

本文提出了一种面向长文本分类任务的主动学习方法，使用生成的方法生成最具有信息量和多样性的样本，此外我们利用 sparse reconstruction 近似表示成一些概括性词语再进行标注，大大提升了主动学习的效果，并且避免了扫描所有未标注样本，更适用于大规模数据集分类任务。

不确定性是主动学习中有效的衡量方法，通过选择距离分类边界最小的样本（即

），可以得到最大不确定性的样本集合。然而单纯使用不确定性，会导致生成的样本陷入一个局部空间，很有可能导致信息冗余，浪费标注人力。所以本文在不确定性的基础上，增加了多样性的衡量目标. 同时，为了避免模型总是选取到离群的异常样本，并约束了样本取值范围 . 最终的目标为最大化不确定性、最大化多样性、最小化取值范围，得到优化目标如下：

此外，由于生成的样本使用特征空间表示，标注人员难以理解和标注，本文把生成的样本利用 sparse reconstruction 近似表示成一些概括性词语，使得标注人员能更快速便捷的进行标注，避免了阅读整篇文章。

实验表明，本文的方法能有效应用于面向长文本分类的主动学习问题，并且在多份公开数据集上都取得了优异的效果。

2. Weak Supervision for Fake News Detection via Reinforcement Learning

论文地址：https://aaai.org/Papers/AAAI/2020GB/AISI-WangY.213.pdf

近年来信息流已经成为人们获取新闻的主要渠道，为了获取点击率，很多小编都会特意编写一些不实的新闻，很容易触及成千上万的用户，造成恶劣影响，所以及时的检测假新闻显得极为重要。目前存在的问题是（1）假新闻样本获取成本大。（2）标注样本容易过期，没办法及时跟进新出的假新闻事件。

为解决上述问题，微信搜索数据质量团队根据看一看实际业务提出了一个新的假新闻识别框架 WeFEND，能够利用用户的举报内容扩充高时效性的样本识别假新闻，提高假新闻识别的效果。识别框架主要由三部分组成：（1）弱监督样本标注器；（2）强化学习选择器;（3）假新闻识别器。根据用户举报内容数据对未标注的数据进行弱监督标注，然后使用强化学习构建的选择器从弱监督标注数据中筛选出能提高假新闻识别效果的高质量的样本，最后通过文章的标题进行假新闻识别。

研究者在微信看一看的 feeds 流数据集上进行了大量实验，评测的结果表明提出的模型 WeFEND 相比于多个之前的模型, 无论是有监督还是纯粹的弱监督，以及多模态模型，使用基于强化学习的弱监督模型 WeFEND 超过了多个基线模型（指标： Accuracy, AUC-ROC, precision, recall and F1）。

3. Simultaneous Learning of Pivots and Representations for Cross-Domain Sentiment Classification

论文地址：https://aaai.org/Papers/AAAI/2020GB/AAAI-LiL.3955.pdf

跨领域情感分类是自然语言处理中一项具有挑战的任务。挑战点就在于不同领域的数据不是同分布的，在实际任务中，不同领域有各自的领域特有词。领域通用词通常不足以区分情感极性，而具备区分性的领域特有词却无法很好的跨领域迁移。如何通过学习领域不变的特征来桥接源领域和目标领域，从而使得在源域上训练的模型可以适配目标域成为关键。

之前已有一系列方法利用在两个域中具有相似极性预测行为的枢轴特征来实现迁移，但是这些枢轴特征的实现仍然较笨重，无法使我们从丰富的语义和句法信息中学习解耦可迁移的表示。

为了同时学习枢轴特征和表示，我们提出了一种新的基于可迁移枢纽特征的 Transformer (TPT). TPT 模型由两个网络组成：一个枢轴选择器，它可以从上下文中学习检测可迁移的 n-gram 枢轴特征；以及一个可迁移的 Transformer，它通过对枢轴词和非枢轴词之间的相关性进行建模来生成可迁移的表示特征。通过端到端的反向传播，枢轴选择器和可迁移 Transformer 可以联合同步优化。如下为 TPT 模型框架图，左侧为基于 pivot mask 策略的 Transformer 特征表示器，右侧为可迁移 pivot 选择器。

我们在 20 个领域对上进行了跨领域情感分类任务的实验，实验结果表明我们的模型优于以前的工作。

为了验证我们的模型能够发现潜在可迁移的 pivot 特征，我们对枢纽的不确定性和上下文做了可视化。图中列出了一些示例评论，颜色的深浅表明 pivot 的不确定性，可以看到例如 but、great 等领域通用词一般有更好的领域不确定性，而 movie，kitchen 等领域专有词则相反。与传统的基于互信息排序的方法相比，一些领域特有词通过 MI 可能排名较高，但在 TPT 中却会被淘汰。

4. Transfer Value Iteration Networks

论文地址：https://aaai.org/Papers/AAAI/2020GB/AAAI-ShenJ.7199.pdf

值迭代网络 (Value Iteration Networks，VINs) 是深度强化学习中引入长期规划 (Planning-based) 的模型，VINs 通过在 DQN 中嵌入规划计算模块，借助值迭代算法的模拟探索出泛化能力高于 DQN 的策略表示。然而强化学习的训练要求大量数据。当一个相似领域（1）数据不足；（2）动作空间不同；（3）特征空间不同时，旧策略无法直接应用到新领域，并且新领域通过少量数据的训练无法学习到足够好的最优策略。

本文提出基于值迭代网络的迁移算法：迁移值迭代网络，（Transfer Value Iteration Networks, TVINs）。对于数据缺乏的新领域，TVIN 通过相似源领域的知识迁移，实现已有预训练知识的利用，从而来提高目标领域最优策略的预测准确率。TVIN 的知识迁移方式可以克服单领域训练依赖大规模数据的高计算复杂性和成本消耗等缺陷，实现模型效果增长。TVIN 算法主要提出了两种知识迁移技巧：

1) 奖励函数迁移 (Pre-trained reward function transferring)：奖励函数 fR 在 VIN 网络中起了状态特征提取的作用。通过在源领域和目标领域的特征空间之间加入编码器（Auto-encoder）建立映射关系（图中「Part I」所示），从而解决目标领域状态空间不同的迁移问题。
2) 状态转移函数迁移 (Pre-trained transition function transferring)：状态转移函数 fp 在 VIN 网络中是实现值迭代模块中值函数的迭代更新的作用。因此状态转移函数迁移主要是针对目标领域动作空间不同的迁移问题。从源领域到目标领域迁移相似动作对应的预训练 fp 函数时，同时加入迁移权重 wt 表示迁移的程度，TVIN 自动学习对应动作的相似性（图中「Part II」所示）。

通过 TVIN 的知识迁移方法，可实现在特征空间和动作空间不同的目标领域，利用有限的数据集学习有效的最优策略。该情况下，相对于单领域的 VIN 训练而言，TVIN 的知识迁移方式可以减少数据量需求，降低训练成本，并且实现模型效果增长。

我们通过在 3 种不同的路径规划任务间的领域迁移来验证我们模型的效果，结果证明我们提出的方法得到最佳路径的概率以及到达终点的成功率都更高。

本文为机器之心发布

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。