2021年，腾讯 AI Lab 迈入第 5 个年头。作为一个尚属「年轻」的实验室，在未知而广袤的科学世界中，我们还有很长的路要走。

回望过去这一年，似乎并不特殊：我们依然在坚持「学术有影响，工业有产出」的理念，在踏实科研、创新应用两个方向，稳步向「Make AI Everywhere」的愿景迈进。

同时，我们又确实看到一些特殊之处：疫情让日常生活的数字化需求陡然提升，也让 AI 有了更多用武之地。五年的积淀让我们能从事更深入、更前沿的研究，并在与学界和工业界的合作交流中，发挥企业视角的影响力；同时，我们的技术能够给更多现实问题提供解决方案，以有价值的产出让生活变得更美好。

下面首先将介绍 2021 年腾讯 AI Lab 在虚实集成世界、虚拟人、机器人三大研究方向上的重要探索，然后会分医疗、医药、游戏、内容等主题总结这一年的行业应用成果，最后会概述这一年在不同研究方向上的学术进展。

一、加速迈向虚实集成世界：

虚拟人及机器人前沿研究

2021 年最火热的，莫过于对下一代互联网，也被称为「全真互联」这一概念的热烈讨论。我们看到，世界朝着数字化和虚拟化方向加速迈进，线上和线下更全面地一体化，实体和电子方式更深度地融合，从而把人、信息、物、服务、制造紧密连接在一起。

在 2020 年，腾讯 AI Lab 和 Robotics X 实验室主任张正友博士，首次提出了虚实集成世界（IPhD，Integrated Physical-Digital World）的概念，并从时间、空间到信息内容维度，解读了「全真互联」时代的四大技术关键点：现实虚拟化、虚拟真实化、全息互联网、智能执行体。在今年 11 月举办的腾讯数字生态大会上，张博士进一步阐释虚实集成世界的发展进程，解读了虚拟与现实正加速融合的趋势。

演讲视频可于大会官网查看：https://des.cloud.tencent.com/2021/

虚拟人与机器人是虚实集成世界中的两大重要组成，下面将介绍实验室今年在这两方面的进展。

虚拟人：多模态 AI 技术驱动的虚拟世界新伙伴

疫情是虚拟数字人产业发展的一道重要分水岭。现实空间常态防控背景下，人们倾向于在数字世界中寻求更多社交互动场景，因此虚拟世界的建设和讨论逐渐增多，相关技术及要素开始逐步构建，而虚拟数字人作为那个世界中人类角色的具象显现，也借势迎来更多关注。

腾讯 AI Lab 自 2017 年起开始虚拟人研究，目标是从语音、口型、表情到全身动作都实现高度拟人，并掌握听、说、读、写、想等全方位技能。团队将计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态的AI能力和技术融为一体，生成清晰、流畅、高质的可交互内容，未来将逐步探索虚拟人在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

诞生于 2020 年的 AI 虚拟人艾灵，是业内首个由 AI 驱动的虚拟偶像。经过一年「学习」，她新掌握了不少国风才艺：

写作：去年春节，她基于自研的文本创作模型 SongNet，通过H5程序为千万网友撰写藏头对联；5月，她的能力进一步升级，学会作词写诗。
书法：基于前沿图像生成技术，艾灵「拜」颜真卿、柳宗元、米芾和苏轼等中国书法大家为师，再使用图像生成对抗网络技术，“写出”神形兼备的书法字体。
演出能力升级：5月，她首次与青年歌手白举纲跨次元合作，共同演唱国风新歌《百川千仞》，在更大的舞台上让观众看到科技文化的全新可能。

这套多模态技术系统框架适用于不同风格的虚拟人。在今年11月的数字生态大会，超写实 3D 虚拟人「小志」首度亮相，可以通过输入文本来合成语音「说话」，还能基于文本或语音自动生成准确的口型及生动自然的表情。

机器人家族「上新」：移动能力升级，探索工业场景

自 2018 年在深圳建立以来，腾讯 Robotics X 机器人实验室持续与腾讯 AI Lab 携手推进「AI 机器人」发展。继 2020 年推出四足机器人 Jamoca 后，机器人实验室今年发布了 3 项重要进展。

3月，首个软硬件全自研的多模态四足机器人 Max 发布。它采用创新性的足轮融合一体式设计，实现了「崎岖路面走得稳，平坦路面跑得快」。它还能从四足到双足的站立和移动、后空翻、摔倒自恢复等高难度动作，拥有较好的平衡能力，兼顾了移动速度和稳定性，达到了行业领先水平。
6月，轮腿式机器人 Ollie 发布。它具有轮式机器人优势，在平地移动快、效率高；它也有很强的腿部能力，能在不平、的地面前进、跳跃通过台阶，越障能力强。其相关论文被机器人行业顶会 ICRA 收录。
11月，实验室借助在机器人敏捷移动与灵巧操作等技术方向的不断积累，与腾讯数据中心联合研发了 IDC 运维机器人，创新性地实现了服务器的全自动搬运、上下架、资产扫描盘点等工作任务，提升了 IDC 运维的效率。

二、行业应用向善

医疗、医药、游戏到内容

作为 AI 科技的前沿探索者，腾讯 AI Lab 深知 AI 变革世界的潜力。因此，腾讯 AI Lab 在积极探索最前沿的 AI 技术的同时，也致力于将这样的潜力转化为切实可行的应用，以更好地为世界带来正向的改变。

AI 医疗：初步落地临床，提升病理阅片效率

「AI 医疗」是腾讯 AI Lab 核心研究方向之一。作为与全人类息息相关的研究课题，它值得长期和耐心的投入。

目前我国病理诊断面临着医疗资源分布不均、医生数量严重缺乏、水平参差不齐等难题。近年业内的多项尝试证明，AI 可以有效节省人力、时间成本，提高病理诊断的质量与效率，打破病理科面临的困境。

腾讯 AI Lab 医疗中心不断发展病理 AI 相关能力，专注打造研究与应用双平台，助力病理行业向数字化、智能化加速转型。

在研究侧，病理 AI 科研平台专注自主研发 AI 算法，布局多病种的整合诊断，多次获得国际级权威测试平台冠军，已获得 2 项软件著作权，授权国家专利 20 项，发表论文 30 篇；免疫组化-组织病理AI模型已覆盖 8 大癌症高发病种。

AI Lab 参与开发了迈瑞血细胞形态分析系统算法，细胞分析的多中心临床研究试验已在全国多家顶级三甲医院开展，算法性能比传统设备显著优越。宫颈癌 AI 也在与国内试剂厂商合作，搭载其技术的宫颈细胞 AI 辅助帮教系统已在全国 800 多家各级医院参与线上教学，累计分析超过 120 万次，算法准确度远超同类竞品。

应用侧，由腾讯 AI Lab 医疗中心提供底层技术的觅影病理云平台（病理影像存储与传输系统软件）也于今年获得国家二类医疗器械许可证，落地应用于临床诊疗场景，为医院病理科室提供图像管理、浏览、分析等数字病理服务，并具备病患数据上云、远程精准诊疗和多专家云上会诊等功能，为将推动AI医疗普惠至偏远地区打下坚实基础。

AI 医药：深入前沿研究，增强平台能力

在诊疗之后，如何快速研发出治疗疾病的药物，也是 AI 可发力的方向。2020 年 7 月，腾讯 AI Lab 发布了首个 AI 驱动的药物发现平台「云深」，整合了腾讯 AI Lab 和腾讯云在前沿算法、优化数据库以及计算资源上的优势，提供覆盖临床前新药发现流程的五大模块，包括蛋白质结构预测、虚拟筛选、分子设计/优化、 ADMET 属性预测及合成路线规划。

云深平台：https://drug.ai.tencent.com/

今年平台取得 2 项新进展：

在分子生成方面，8月平台与成都先导合作设计了业内首个经实验验证的骨架跃迁分子生成算法（GraphGMVAE），为药物化学专家设计分子提供更多启发。该算法以 JAK1 抑制剂 Upadacitinib 为例（通常用于治疗中重度类风湿关节炎的药物），证明在保持分子侧链不变的情况下，能有效生成具有相似生物活性但骨架不同的分子。同时，研究还提出了一套对分子优先级排序流程，可以缩小验证范围，提高效率。研究结果被美国化学学会杂志 ACS Omega 收录。

利用 GraphGMVAE 进行骨架跃迁，该项成果发表于行业知名期刊ACS Omega上

在蛋白质结构预测方面，平台去年推出的 tFold 算法精度和速度持续提升。与DeepMind所提出的 AlphaFold2 方法类似，tFold 采用了端到端的结构预测方案，并从模型设计和训练策略等多方面提升了训练阶段的优化效率和稳定性，仅需使用 8 卡 A100 训练 4-5 天。对于中等长度的蛋白质序列，平均运行时间约为 2-3 小时，提速明显。在 CASP14 基准测试集上，该模型在平均 TM-Score 指标上可达到 86.7，优于 RoseTTAFold (TM-Score=79.2），但与 AlphaFold2（TM-Score=90.0）仍有一定差距。该模型已经在上线「云深」平台，供用户免费使用。

AI 游戏：拓展能力边界，距现实更近一步

计算机科学家们一直对「AI 游戏」保持热情，希望运用可自由定制、监测的游戏环境，解决 AI 算法测试困难、场景稀缺的问题，提升 AI 算法处理复杂问题的能力。

「AI 游戏」正是腾讯 AI Lab 长期深耕的领域。在过往围棋、MOBA 等游戏环境中取得的成果之上，今年团队继续深耕，让AI的足迹走向了麻将、足球、3D开放世界（Minecraft）、即时战略（RTS）等多类游戏环境，不断积累国际一流的学术成果，还在行业全链条应用和生态建设上迈出了坚实步伐。

棋牌拥有简单清晰的规则，清晰的胜负判定条件和行动准则，并在公众认知中被认为代表了人类的智力水平。在今年，实验室棋牌类 AI 「绝艺」的能力，从传统强项围棋（完全信息博弈）到麻将（非完全信息博弈）都不断提升。

在围棋 AI 研究上，「绝艺」持续提升让子棋能力，对普通职业棋手让两子取得 200 连胜，对顶尖职业棋手胜率超过 95%；

在应用上，新增对日韩规则、让先规则等功能。

这些能力将帮助「绝艺」更好地服务中国围棋国家队队员，以及腾讯野狐围棋平台的围棋爱好者们。
在麻将 AI 方面，「绝艺」继去年达到两人麻将职业水平、四人国标获 IJCAI 麻将 AI 比赛冠军后，今年与多位职业选手完成了 2000 多场四人国标对局，平均赢番第一，成为业界首个达到四人国标麻将职业水平的 AI 。

为训练 AI 的决策智能水平，腾讯 AI Lab 自 2018 年起在「王者荣耀」MOBA（多人在线战术竞技）环境中训练「绝悟」AI。今年它的能力迎来了进一步提升。

3 月，「绝悟」在「王者荣耀」MOBA 环境中的策略多样性再度升级，学会在不同阵容和对局中执行多样的策略（如养猪流、反野流、大乔流等）。针对复杂环境中策略难以探索的问题，「绝悟」提出基于宏观目标的分层强化学习框架（MGG, Macro-Goals Guided RL），并验证了该方法在策略探索上的高效性。该项技术于 4 月的「挑战绝悟」游戏活动中初次实践，有效提供玩家挑战趣味性，研究成果已经被 NeurIPS 2021 主会议接受。
9 月，继去年赢得 Google 足球竞赛冠军后，「绝悟」今年基于层次化强化学习实现了业界首个纯强化控制所有球员的 Full Game 11v11 足球 AI , 并且能力远超去年的行为树强化的冠军版本。
12 月，「绝悟」在 NeurIPS 2021 举办的 MineRL (Sample Efficient RL Competition) 赛事中，以 76.970 的历史最高分完成主赛道（research track）挑战，夺得决赛冠军，并将研究成果共享在 Arxiv 平台，让算法框架可复用于其他复杂决策环境。

「绝悟」团队（X3）获得历史最高分。完整榜单详见：

https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition/leaderboards

即时战略（RTS）游戏一直被认为是竞技性和策略性方面最具有挑战的一类游戏，其更为巨大的观测、动作以及策略空间，对训练高水准的AI智能体带来了非常大的困难。

腾讯 AI Lab 和 Robotics X 实验室自 2018 年起，以「星际争霸2」这一风靡全球的即时战略游戏为研究对象，深入探索强化学习在处理此类复杂游戏上的可拓展性。同年，团队发布初代 AI 智能体 TStarBot，分别以层次化的动作/策略空间建模和基于中高层动作空间的强化学习训练，在业界首次实现击败游戏中所有等级（包括最高等级的作弊）的内置 Bot。该工作论文（https://arxiv.org/abs/1809.07193）被 2019 年底 DeepMind 公布的 AlphaStar Nature 论文引用。

在今年 4 月，通过之前积累的经验以及吸收 AlphaStar 中的优势技术，实验室提出了 TStarBot-X：在使用比 AlphaStar 算力资源少1-2个数量级（数据消耗速度为AlphaStar的1/30，数据生成速度是AlphaStar的1/73），且和人类操作可比拟的情况下，TStarBot-X 在虫族对虫族对战测试中击败国服和韩服宗师级别人类选手。

其背后的强化学习技术进一步提升，包括高效的联盟训练方式（Efficient League Training），简洁规则引导的策略搜索方式（Rule-guided Policy Search）、以及差异增大的策略优化算法（Divergence- Argumented Policy Optimization）。

完整代码及技术细节可见论文：https://arxiv.org/abs/2011.13729
其所有技术细节以及背后的通用多智能体强化学习联盟训练架构 TLeague 均已开源：https://github.com/tencent-ailab/tleague_projpage

除了攻克更多游戏环境，「绝悟」团队还初步尝试将 AI 能力应用于游戏开发和运营流程中。7月，腾讯 AI Lab 在全球游戏行业顶级会议「2021游戏开发者大会」（GDC）亮相，全面展示了以「绝悟」为代表的 AI 技术在游戏产业全链路中的研究应用能力。

具体而言，AI 在游戏全链路的研究和应用包括两部分：横向上，覆盖游戏制作、运营及周边生态全生命周期，提升游戏品质，丰富玩家体验；在纵向上，AI正拓展更多元的游戏品类，如围棋、麻将等棋牌类，足球等体育类，以及 MOBA 、FPS（第一人称射击游戏）等复杂策略类游戏。

希望了解「绝悟」提高游戏开发效率、打造新玩法、辅助游戏平衡性测试等具体案例，请见文章：「绝悟」参展游戏开发者大会，AI深入游戏产业全链路。

多智能体强化学习主要研究在同一个环境中的多个智能体，如何进行合作或者竞争完成指定的目标。因为具有较高的研究难度，也有广泛的应用前景，这一议题近年广受AI企业及科研院校关注。

为帮助AI学界克服算法、数据、算力、场景等四大要素的挑战，腾讯 AI Lab 与王者荣耀于2019年宣布共建「开悟」AI 开放研究平台，依托于腾讯太极机器学习平台，基于双方在算法、脱敏数据、算力方面的核心优势，为学术研究人员和算法开发者开放的国内领先、国际一流研究与应用探索平台。

这是「开悟」举办高校大赛的第二年，作为业内首个基于 MOBA 游戏场景的 AI 开放平台，它为学生提供的多智能体复杂策略研究环境，其科研及教育价值已获得社会各界的全面认可：

4月，首届腾讯STAC科创联合大会在成都召开，发布首届「开悟」大赛成果，并为政、企、学界专家提供共议「AI 游戏」行业未来发展的交流平台，同时现场成立校企联合的「人工智能科教联盟」。

工信部原部长李毅中、成都市副市长等嘉宾出席并发表讲话，「开悟」作为行业生态基础设施，对 AI 研究与教育的推动作用受到广泛关注。
8月，第二届「开悟」高校AI大赛启动并扩大规模，邀请了20余所海内外知名高校参赛。

「开悟」也逐步发展为为竞赛-课程-科教联盟-科创联合体的生态聚集地，推进 AI 与教育融合。
同月，「开悟」宣布与 4 所国内一流高校共建教学内容和课程体系改革项目，进一步探索平台在高校AI教育方向的可能性。北京大学李文新、电子科技大学谢宁、清华大学李秀、中国科学技术大学周文罡等四位教授将基于腾讯开悟平台，分别构建一门至少 20 学时的多智能体及强化学习平台的专业课程，理论授课知识点包括但不限于机器学习、强化学习、多智能体决策等相关的知识点。

作为AI游戏研究先行者，腾讯 AI Lab 的相关研究成果正不断走近现实。这些研究的经验、方法与结论，都将在真实世界创造更大的实用价值。

AI 内容：技术融合场景，提供更好的内容服务

◆ 翻译

腾讯交互翻译 TranSmart 是目前业界领先的「以人机交互为核心」的机器翻译产品，覆盖按键到句子、术语到存量语料的人工翻译全流程支持，并在复杂文件格式解析与带标记文档翻译等方面表现突出。

体验地址：https://transmart.qq.com/

经过四年技术积累与一年商业化探索，TranSmart 已支持 Memsource、腾讯自选股、腾讯音乐娱乐集团（TME）、华泰证券、阅文集团、腾讯云官网等垂直领域头部客户，提供的服务包括交互翻译、文件翻译、自动翻译、定制引擎等，并可支持计算机辅助翻译（CAT）软件对接，辅助全球众多译员完成严肃翻译工作。

今年 TranSmart 继承和发展了交互翻译的技术概念，提升复杂场景的译文干预能力，相较于通用自动翻译产品而言，量身定制的人机交互特性全方位赋能人工翻译过程：

个性化增强：在目标场景中，通过复用客户已积累的相关语料，免训练即时生效，自动译文质量显著超出增量式训练的机器翻译；
带标记翻译：在 xml、markdown、html 等场景中，通过标记抽取和还原，确保语义和格式不受损失，实现出色的文件翻译能力；
实时译文建议：译文片段智能推荐和整句补全，相较于译文编辑而言，在自动译文不甚理想时，显著减少修改量，大幅改善人工翻译体验；
翻译记忆融合：动态结合用户已完成的最相似双语句对，生成更符合期望的自动译文，在个性化增强的基础上，取得进一步的性能提升；
术语规则融合：通过引入可编辑的术语翻译规则，应对一词多义等复杂场景下的术语翻译难题，实现更精细的译文质量干预；
翻译输入法：参照原文上下文和机器翻译知识，实现更精准组词，显著加快人工翻译过程中的输入效率。

◆ 搜索与推荐

从个性化内容推荐到内容的自动生成，AI 与数字化内容有着天然的亲和性。依托于其庞大的内容相关业务，腾讯公司一直以来都致力于推进智能技术在搜索和推荐等方面的应用。

在2021年，实验室持续探索相关技术技术，推出异构向量检索系统 VeNN 及异构计算框架 HCF ，并于微信搜一搜等大规模业务中落地。

向量检索方面，VeNN 面向百万至百亿规模的向量相似召回场景，能高效给出针对性方案，并兼顾召回效果和性能。它同时支持 ANN 和暴力计算向量相似召回。针对大规模场景，VeNN融合了 HNSW 和 PQ 索引，在百亿规模场景下做到 R@10 >95% 的同时控制检索耗时<5ms。针对百万级别小规模场景，VeNN 研发了 GPU 下的暴力计算，通过底层 kernel 的深度优化，检索性能在业界处于领先水平。在 VeNN 引擎的基础上, 对文本向量表征、多模态向量表征方面进行 co-design 优化，最终落地于微信搜一搜召回场景，显著改善了长尾 query 的召回情况。

异构计算框架方面，HCF 针对英伟达、英特尔等硬件平台建设跨平台服务端模型推理加速解决方案，其中 BERT 等模型推理性能处于业界领先。HCF 在推理加速方面涵盖了业界通用的层融合，图优化，模型压缩量化等手段，并进行深耕，其中 INT8 QAT 方案在微信搜一搜场景广泛落地，同时能力在英伟达 2021 GTC 会议上分享。除此之外，HCF 也在进一步深入 TVM 编译优化技术，以获取更高的模型推理加速效果和跨平台能力。

三、前沿学术研究与合作

作为国内领先、世界一流的企业级人工智能实验室，腾讯 AI Lab 持续探索机器学习、自然语言处理、视觉计算、语音技术等四大方向前沿技术，并做出业界领先的学术成果。截至今年，实验室已于 AAAI、CVPR、ICLR、IJCAI、ACL、ICML、EMNLP、NeurIPS 等国际人工智能顶会发表超 600 篇文章，包括今年发布的一篇 NAACL 最佳长文，及一篇 ACL 杰出论文。

同时，我们一直秉承开放合作的理念，与全球高校和研究机构共同前进。2021年，「腾讯AI Lab犀牛鸟专项研究计划」完成第 4 年度闭环，共发表高水平论文近50篇，多项成果已应用于 AI 药物发现平台「云深」、自然语言理解系统「TexSmart」、智能辅助翻译「TranSmart」和腾讯会议等产品。

下面将分主题简单梳理腾讯 AI Lab 在 2021 年发布的一些重要研究成果，并分享我们对相关领域的发展趋势观察。

机器学习

机器学习是 AI 的核心过程和标志性能力，近些年的 AI 发展热潮正是源自深度学习这种机器学习技术的突破。2021 年，腾讯 AI Lab 在多个机器学习方向上都得到了重要的研究成果。

◆ 深度图学习

近几年，图像、视频、游戏博弈、自然语言处理、金融等大数据分析领域都实现了跨越式的进步并催生了很多改变了我们日常生活的应用。近段时间，图神经网络是 AI 领域的一大研究热点，尤其在社交网络、知识图谱、化学研究、文本分析、组合优化等领域，图神经网络在发掘数据中隐含关系方面的强大能力能获得更好的数据表达，进而做出更好的决策。

实验室该领域的研究应用上取得了丰硕的成果。针对图神经网络的鲁棒性问题，所研发的 GCN-LFR 框架[1]，显著提升了不同图神经网络模型的稳定性和鲁棒性。在图神经网络的可解释性方面，基于信息瓶颈论的子图识别网络算法[2,3]，为图的可解释性提供有效的方法。腾讯 AI Lab 还创新地提出了分层图胶囊网络，来联合学习节点嵌入并自动提取图层次结构[4]。针对图神经网络的自蒸馏，研发的基于邻居差异率（NDR）的方法，显著提升了图神经网络的训练效率和泛化能力[5]。在图神经网络的应用方面，还探索了图神经网络在组合优化，图论领域，以及图的节点匹配上的应用[6,7,8,9]。

此外，在 2021年的 The WebCof 会议上，腾讯 AI Lab 、清华大学、香港中文大学等机构联合组织一场图神经网络 Tutorial[10]。详见：

https://ai.tencent.com/ailab/ml/WWW-Deep-Graph-Learning.html

◆ 自动化机器学习

在自动化机器学习中的元学习和网络结构搜索等研究领域，腾讯AI Lab也取得了诸多成果。

在研究方面，针对元学习中的过拟合问题，AI Lab 所提出的 MetaMix 算法[11]，从样本输入特征/标签和网络隐含层特征两个层面进行任务增广，从而提高元学习算法的泛化能力。在提升自动超参数优化的搜索效率方面，TNP 算法[12] 基于神经过程方法，将过往在其他数据集上进行的超参数搜索过程，迁移到当前任务上，以降低超参数搜索过程中试错次数，提升优化效率。

在实际应用方面，针对药物活性预测中不同靶点数据差异性的问题，AI Lab 提出了一个基于相似性的功能区块化的元学习模型 [13]，根据靶点活性预测模型的相似度建模预测模型，提高了不同靶点预测任务在元学习算法中的利用程度。此外，针对在线增量数据的应用场景，AI Lab 提出了 AdaXpert 网络结构搜索算法 [14]，可以根据数据分布差异情况自行确定是否对网络结构进行调整，从而平衡模型的预测性能和效率。

自然语言处理

在自然语言处理（NLP）领域，一方面 BERT 、GPT 等基于 Transformer 的大规模神经网络语言模型的出现带来了深刻影响；另一方面，大规模语言模型并没有从根本上解决 AI 在语言理解上能力低下的问题，NLP 领域仍需持续研究投入和更多技术突破。腾讯 AI Lab 在自然语言处理方向的目标是开展 NLP 基础研发工作，促进 NLP 技术的发展，提升人类的生活便捷性和工作效率。

2021 年，腾讯AI Lab在一流的国际会议和期刊上发表了50多篇 NLP 方向的学术论文。在NAACL 2021，腾讯 AI Lab 与罗切斯特大学合作的论文《视频辅助无监督语法归纳（Video-aided Unsupervised Grammar Induction）》被 NAACL 评为最佳长文。在ACL 2021，腾讯 AI Lab 贡献 27 篇论文（含九篇 Findings），包括 6 篇杰出论文之一，与香港中文大学合作的《基于单语翻译记忆的神经网络机器翻译技术（Neural Machine Translation with Monolingual Translation Memory）》。论文全文及解读：ACL 杰出论文 NAACL 最佳论文，腾讯 AI Lab 解读两项 NLP 成果。

在文本理解方面，实验室持续更新文本理解系统 TexSmart ，保持对新出现实体和概念（比如“新冠”）的理解能力。今年 6 月发布的 0.3.0 版本中增加了文本图谱（Text Graph）功能，让用户通过文本图谱获取词语间的多种语义关系。目前其在线 API 和离线 SDK 的合计调用量比年初增加了十亿次/天。实验室还推出了新版本中文词向量数据[15]，覆盖更多新词，且向量表示的质量有一定的提升。实验室与腾讯云小微团队联合提出了注入通用型推理知识和任务型知识的中文预训练模型“神农”（该模型仅包含十亿级参数量），并一举登顶 CLUE 总排行榜、1.1 分类任务、阅读理解任务和命名实体任务 4 个榜单，刷新业界记录。

在前沿研究上，NLP 团队提出基于二分图匹配的词典语义对齐算法，将分散在不同词典中语义知识融合成为一个整体，并利用迁移学习框架，训练通用精确语义模型，使其根据上下文语境自动化确定一个多义词在句中的精确含义，提升机器理解力[16]。团队还提出了一种新型的句子切分模型[17]，及一种简单有效的方法来解决命名实体标注遗漏问题[18]。在细粒度实体分类任务上，团队提出了一种利用多信息源的融合模型[19]，及一种不依赖知识图谱产生训练数据而又具有优异性能的实体分类方法[20]。

在文本生成和对话方面，我们持续探索多轮对话、对话知识理解、可控文本生成等核心问题，提出基于新闻知识的自然对话研究并发布 NaturalConv 数据集[21]，提出过生成和打分算法显著提升抽取型摘要模型效果[22]，并利用 Unlikelihood Training 在低资源场景下训练人设一致的对话系统[23]，基于层级式课程学习和稠密向量检索的多轮对话系统[24]，提出多种基于检索结果引导的可控文本生成方法[25]，以及一种基于预训练的非自回归文本生成模型[26]。同时，我们研究如何有效公平地评价度量各种生成任务中生成文本的质量[27]，如何普适性地理解数据增强在文本生成任务中的作用[28]等重要问题。

在自动机器翻译方面，我们专注于核心翻译问题，致力于改善翻译系统的效果和易用性。我们继续深耕如何更高效利用翻译数据[29]，并探索预训练[30]、非自回归模型[31]等机器翻译领域的前沿方向。受益于此，我们的自动翻译（中英和英中）系统准确度继续保持国内前列，在国际翻译比赛 WMT 2021 中也取得了 5 项第一的成绩。

在交互翻译方面，我们聚焦于翻译记忆[32]和翻译输入法[33]。我们提出了一种快速且准确的融合翻译记忆方法；特别地，我们提出的基于单语的翻译记忆模型获得了 ACL 2021 杰出论文奖。另外，我们从实际应用中抽象出了一种词级别翻译提示任务[33]；基于该任务，我们发起了第一个面向交互翻译的 Shared Task，它将作为一个新赛道在明年的 WMT 2022 上亮相。

视觉计算

数字经济的高速发展和虚实结合的业界应用对于视觉计算技术提出了新的挑战。首先，视觉理解面临着海量无标注数据，如何有效利用这些数据来优化视觉理解模型成为一个研究热点。其次，作为人机交互的新模式，如何快速生成高清、超写实、可编辑、易控的虚拟人形象成为工业应用的瓶颈。最后，大规模 3D 场景重建和动态场景的 4D 捕捉和建模成为了构建虚拟世界的支撑技术。

2021年，视觉顶级期刊和会议，包括 T-PAMI、TIP、ICCV、CVPR 和 NeurIPS 等共接收了 35 篇腾讯 AI Lab 论文，其中既有视觉理解的底层网络结构探索，也有图像和视频编辑的新方法，还有跨模态的从文字生成图像的新尝试，以及涉及 AI 安全的对抗攻击新成果。

视频理解是计算机视觉中具有长期挑战性的研究课题，如何从数据的不同层面设计理解算法也是学术界广泛研究的热点。2021 年，腾讯 AI Lab 关注新兴自监督表征学习框架，从物体、图像以及视频等三个维度全方面理解视频数据。基于算法创新，腾讯 AI Lab 相关国际竞赛 ActivityNet Challenge 并获得冠军。此外，该技术还应用在微信搜一搜，做游戏、影视综漫等视频的打标签实践，提高了视频搜索准确率。

图像和视频编辑在流媒体内容创作中被广泛应用，比如人像编辑、视频滤镜、图像裁剪等。在基于美学的图像裁剪，实验室首次提出外插式智能图像裁剪算法[34]，突破传统算法适用给定有限图像内容的局限。在跨模态图像可控生成上，受画家绘画过程的启发，提出了基于文本的可控图像生成算法[35]，会在过程中轮替关注全局结构与局部细节。

基于美学的外插图像智能裁剪 [34]

跨模态可控图像生成 [35]

在视觉系统鲁棒性上，实验室在对抗样本攻防、DeepFake 检测等方向持续发力，提出多个原创性算法[36-38]。黑盒查询式攻击对许多 AI 模型造成严重威胁，实验室提出了轻量级防御方法 [36]，为每个查询添加适当随机扰动，在保持正常样本效果时显著提升了模型鲁棒性，并不引入额外部署开销。实验室还研究了物体检测黑盒攻击方法[37]，显著算法效率，有助于设计出更鲁棒的模型。在 2021 世界人工智能大会上，实验室还发布了 AI 安全风险矩阵 2.0 版本和 AI 安全网站，受到业界广泛关注。

在今年，我们也尝试将视觉技术应用于野生动物保护。10 月，首个雪豹智能识别及监测数据管理云平台上线，采用了实验室视频理解技术，用 AI 自动检测图像/视频中是否出现雪豹及预测其位置，将巡护员从繁琐的记录、标注、识别工作中解放出来，更高效地找寻雪豹。该技术面临诸多挑战，包括动物尺度差距大，纹理背景接近，难于识别；濒危动物很少出现，难采集到有效视频；不同物种间分布不均，模型泛化难等。实验室借助迁移学习、自动数据增强、难例样本挖掘、多阶段检测等技术手段，有效的提高了物种识别、空境过滤、位置预测等效果。

语音

语音识别上，相对安静环境和高质量识别基本解决，但实际应用中，复杂场景中噪声和多个干扰人声同时存在（鸡尾酒会问题），及人们自由聊天口语化表达风格多样复杂问题依然存在。语音合成上，高度的自然度、表现力、定制化、可控制等能力仍需努力。

在 2021年，信号处理顶级会议 ICASSP 接收了实验室的 12 篇论文，ASRU 接收 4 篇，而语音领域顶级会议 Interspeech 则接收了 9 篇论文，其中既有在语音前沿技术方向的进一步探索，也包含一些理论研究和分析，同时还有在科技向善与文化遗产保护等方面的应用成果。

在研究中，实验室为解决鸡尾酒会问题提出了多项开拓性的解决策略。

一是围绕多通道语音前处理系统，在基础算法方面提出全新时域 Generalized Wiener Filter 波束形成方法[39]，在分离/增强任务中较频域波束成形方法在相同 window size、同等模型复杂度下 SI-SDR 绝对性能提升 3.0 dB，相对性能提升 29.7%；在去年提出的全新基于递归神经网络的波束形成方法[40]，突破传统波束形成技术效果的基础上，今年进一步优化了模型结构[41]，并且围绕多人同时讲话这样一个最具挑战的任务上，为了提高应用效率实现了具有多说话人方向特征的多通道输入和多说话人语音分离输出（MIMO）模型[42]，把原本分别进行多路目标语音的处理的操作合并在一个模型之中，大幅降低计算复杂度，达到流式，实时，可部署。

传统前端系统从整个系统层面来看，存在着模块相对独立、难以联合调优、误差级联影响大的问题，今年实验室提出构建一套集合全链路，包括回声消除、声源定位、语音分离、去混响及波束增强等多个功能的神经网络模型方案，能克服模块相对独立的缺陷，实现场景深度定制，多模块自动联合优化。

二是在多模态系统方面，在过去从视觉模态中提取人脸，方位，唇动，声纹等信息，将不同模态信息流通过神经网络模型自动整合，构建多模态语音分离增强与识别系统的基础上，今年提出将空间定位从 2D 扩展到 3D，引入了俯仰角高度信息，3D 特征利用更精确的球面波传播模型，同时还引入与麦克风的深度距离信息，大大突破原有空间分辨精度，实现同一方向的两个说话人，距离不同时也可区分，在高强度噪声、更多说话人的复杂场景下的稳定优越性能。

在语音识别方向，腾讯 AI Lab 首次提出将动态神经网络思想引入语音识别模型中，提出基于 Mixture-of-Expert 结构的语音识别模型 SpeechMoE[43]和 SpeechMoE2[44]，针对语音识别任务设计优化了模型多个细节，包括稀疏化，路由损失，训练策略。在模型训练和应用过程中，模型可通过局部及全局信息自动选取网络中的部分路径进行计算，模型容量相对传统模型可以扩大一个数量级，同时又保证在应用时计算复杂度不增加。能够更好的处理语音中存在的各种维度的包括噪声，口音，远近场等复杂变化，最新实验的 conformer-moe 模型相比业界最多应用的 conformer 这类网络结构基础上可进一步获得相对 10% 的提升。另外，AI Lab也提出了利用 Lattce Free MMI loss 从训练到解码改进了基于RNN-T端到端识别系统[45], 在中文标准 Benchmark AIshell1 和 AIshell2 上均取得超越SOTA的性能。

在语音合成方向，在原有 DurIAN 合成系统基础上，探索新的生成模型方案[46]，提高语音合成的表现力和可控性。增加对语音音韵、拖音及重音等特征的引入建模，进一步显著提升语音合成系统可控性及表现力，实验室配合王者电竞语音合成应用与游戏解说任务。今年还首次实现语音合成在游戏内素材生成场景上应用突破。通过进一步对语音转换中基于 GAN 的声码器进行改进，效果达到游戏内素材水平，转换后语音 MOS 分数逼近配音录制语音（4.62 vs 4.70)。在生成模型理论研究方面，提出全新基于 Diffusion 的生成模型 Bilateral Denoising Diffusion[47]，与基线系统 DiffWave 相比在生成语音 MOS 相当情况下 Denoise 过程步数大大缩减。在个性化定制任务方面，在业内较早提出将 meta-learning 思想引入小数据量定制任务中[48]，通过在训练过程中将向训练单位由一条条音频扩展为一项项定制任务，模型可更快达到定制效果，定制周期显著缩短。

四、总结与展望

在即将过去的 2021 年，人类的生活方式持续改变，对虚拟的世界多一份期待，对现实的美好多一份珍惜。唯一不变的是，前沿科学依然是驱动人类前行的主要动力。

在这一年中，腾讯 AI Lab 以虚实集成世界为目标，持续投入虚拟人、医疗、医药、游戏、内容、机器人等多个领域的研究与应用实践，并取得了不少令人鼓舞的成果，为「Make AI Everywhere」，用科技创造美好世界而做出切实的努力。

相比起我们所追寻的目标，5 年只是一个小小的起点。在未来的1年，乃至5年、10年，我们将持续攀登学术的高峰，同时积极拓展 AI 技术的更多行业应用，面对未来更多的未知挑战，以开放的心态与各界伙伴共同成长。

2022，新年快乐！

上一篇：
历史最高分！腾讯「绝悟」AI 斩获 NeurIPS MineRL 竞赛冠军
下一篇：
腾讯发布国内首份可解释 AI 报告：详解打开算法黑箱的理念与实践｜附报告下载

相关动态

历史最高分！腾讯「绝悟」AI 斩获 NeurIPS MineRL 竞赛冠军

《Minecraft》(中文译名《我的世界》) 是全球最知名的开放世界游戏。小朋友只需观看十分钟的教学视频，就能学会在游戏中寻找稀有的钻石——而这是AI无法企及的高度。随机生成的开放地图、自由灵活的玩法、多线程长链条任务，给AI研究带来了极大挑战。针对Minecraft的复杂环境，卡内基·梅隆大学、微软、DeepMind、OpenAI，联合机器学习顶级会议NeurIPS共同举办了MineRL (Sample Efficient RL Competition) 赛事，邀请全球程序员在4天时间内用一台计算机训练AI找到游戏中的钻石，今年已是第三个年头。这一极富挑战性的赛题持续吸引全球开发者关注。今年赛事共有59支团队、近500名选手投身其中，其中不乏世界顶级学府和研究机构的科研强队。竞赛的研究主题是：训练样本高效的Minecraft AI智能体。12月8日，第三届MineRL竞赛主赛道 (research track) 发布成绩，AI 的“钻石之梦”向前踏进了一大步：腾讯AI Lab研发的“绝悟”AI以76.970分的绝对优势夺冠。研究成果已发布在Arxiv上，算法框架可复用于其他复杂决策环境。论文地址：https://arxiv.org/abs/2112.04907因在比赛中展示出极强的性能，绝悟团队被特邀参加微软2021研究者峰会，让人类玩家与绝悟AI在Minecraft世界中共同交互，吸引了大量参会者关注。“绝悟”以压倒性优势获得历史最高分。完整榜单详见：https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition/leaderboards“绝悟”由腾讯AI Lab研发，先后于2019年达到王者荣耀职业电竞水平，于2020年获得Kaggle足球AI竞赛冠军，2021年掌握王者荣耀全英雄，同时攻克FPS、RTS等类型游戏，并将其能力应用于游戏研发及运营环节。如今它又再探索开放世界游戏，证明其在充满不确定性的复杂环境中游刃有余，未来应用于现实环境中，也能在多种环境中与人类更好地交互。赛题解析：10分钟内完成复杂决策在MineRL竞赛中，与每个真人玩家一样，AI 会从《我的世界》游戏里一个随机世界的随机位置出生，从没有任何工具的初始状态开始，完成一系列任务，最终找到钻石。这个任务听上去清晰明了，却难倒了无数挑战者。官方基于成熟算法的baseline只能获得2分——让AI徒手采集原木并合成出第一块木板，这离获得钻石还有非常远的距离。具体来说，这个挑战主要有三个难点：首先，是极度多样的环境。不同于绝悟先前学习的游戏，Minecraft最大的难度就在于3D的开放世界。游戏没有固定的地图，完全靠随机种子生成；树木、铁矿、钻石等资源的刷新位置也没有固定的规律。因此，AI见到的每一局游戏都是崭新的。它不能死记硬背，而要从64×64像素的“高糊视角”中真正理解这个无限开放的世界。赛事游戏环境截图，分辨率 64×64其次，是长决策序列与复杂的技能。为了在10分钟游戏时间内拿到钻石，AI 需要厘清最高效的行动顺序，并抓紧时间掌握多个技能。首先，它需要徒手采集原木，合成木板、木棍与木镐等初级工具，以及用于照亮地底的火把；在矿井和山洞里探索过程中，它需要采集到铁矿，并且学会熔炼、用提前准备好的熔炉与燃料打造挖钻石的高级工具。万事俱备后，AI才能深入地底、寻找钻石。在这个过程中，AI还要同时避免落入岩浆或悬崖、并与不期而遇的怪物战斗。从木头到钻石，要经过12道流程最后，是由高自由度玩法带来的海量策略偏好。赛事主办方收集了玩家的近6000万个动作样本，提供了约1000小时的行为记录，供AI学习模仿。但这些样本来自不同玩家，策略差异极大。比如为了获取钻石，有人喜欢矿洞探险，有人选择向下掘地三尺，甚至还有人直接洗劫村庄房屋里的物品箱。从如此复杂多样的数据中学习、并最终形成自己的一套策略，这对于AI无疑是极大的挑战。除了以上难点，竞赛方还制定了严苛的规则，给AI的挑战“雪上加霜”。为了将目光聚焦于算法本身，主办方禁止参赛者编写规则、也禁止AI利用任何游戏知识。不仅如此，游戏环境甚至将背包信息与动作空间加密——AI无法直接感知包里有几颗原木、也无法直接指定下一帧动作的含义。因此，人类“教练”们只能为AI搭一个框架，让它从零开始，在玩家视频与自身探索中逐渐变强。挖钻石的全流程，后半程要深入黑暗的地下此外，主办方不允许玩家自定义奖励函数，研究人员必须迎难而上、正面突破。从零开始完全采用强化学习的方式来训练Minecraft AI相当困难，与MOBA游戏中不断有经济、血量、经验等实时信号不同，MineRL竞赛的奖励信号非常稀疏，只有第一次获得每种关键物品才会产生reward，这种稀疏性也一直是强化学习的主要难题。算力方面，规则同样做了严格限制。赛事不允许使用预训练模型，每个参赛队伍只能使用 6 核 CPU 与半张 NVIDIA K80 显卡训练 4 天——这个配置是几乎所有高校实验室与个人研究者都可以负担的。这次比赛的目的在于促进样本高效 (high sample-efficiency) 游戏AI算法的发展。目前流行的强化学习算法一般需要多达成百上千万次的试错来寻找最优流程，耗费大量的时间和计算资源。而纯靠人类数据的模仿学习算法虽然更快，但性能上往往不尽如人意。如何将两种方法的优势结合、又快又好地完成任务，也是赛题的另一个目标所在。方案解析为了解决如此复杂的问题，“绝悟”团队通过分层强化学习（Hierarchical Reinforcement Learning）、表示学习（Representation）、自模仿学习（Self-imitation learning）、集成行为克隆（Ensemble Behavior Cloning）等四项关键技术，实现了优于其他竞争队伍的效果。分层强化学习 Hierarchical Reinforcement Learning首先，为了尽可能提高样本利用率与训练效率，智能体的框架采用了分层强化学习 (Hierarcichal RL)。由于数据处理阶段禁止引入Minecraft游戏的先验知识，研究人员实现了一套自动的数据切分算法，先基于reward delay切分子阶段，再利用统计数据确定各阶段边界。在游戏推进中，上层控制器会实时选定一个子策略，由该策略与环境交互。分层强化学习结构数据分析表明，上层控制器的预测准确率可以达到99.95%，也就是说，AI从人类数据中学到了一套几乎永不出错的宏观策略，每时每刻都清晰地知道自己下一步的正确动向。表示学习 Representation Learning在状态空间表征上，Minecraft游戏遇到的最大挑战在于如何表征复杂且多样的3D开放式地图。首先被选中的是近年来热门的表示学习方法 (representation learning)。但研究人员很快发现，已有方法只适用于2D场景，在Minecraft游戏环境里效果很差。于是他们设计了一种“基于动作感知”的新颖算法，用来捕捉每个动作对环境产生的影响，形成注意力机制。这种方法可以显著减小状态空间，提升学习效率。实验表明，这种算法可以显著提升智能体获得资源的能力与效率。左图执行“攻击”动作后会变为右图。此时模型只会关注红框区域不同动作的可视化结果，AI学会了关注当前图像中的关键区域自模仿学习 Self-imitation Learning随着游戏进程推进，智能体与人类的策略出现了很大的分歧。此时，人类数据已经很难用于指导AI。因此，如何从极有限的交互次数中学到一个优秀的策略成为了新的难题。为此，绝悟使用了自模仿学习 (self-imitation learning)的思想。通过基于鉴别器的自模仿算法，智能体可以从自身过往的成功与失败中获得经验与教训，并在察觉到当前状况不妙的时候，主动往更好的方向修正。对比实验证明，在加入自模仿策略后，智能体探索到的行为更加一致，也可以显著降低进入危险区域的概率。相比于PPO和SIL，DSIL可以更高效地捕捉到历史的成功策略，从而降低不必要的探索表示学习与自模仿学习流程集成行为克隆 Ensemble Behavior Cloning对于合成物品等需要长链条的动作序列，研究人员也做了细致的优化。通过动作序列一致性过滤 (consistency filtering) 与基于投票的集成学习 (ensemble learning)，模型在合成物品阶段的成功率从35%提升到96%，一举将最薄弱的链条扭转为了最稳定的制胜点。效果演示：流畅砍下原木赛事之外：离复杂的现实世界更近一步近年，越来越多AI研究团队将目光投向电子游戏，利用高度复杂、高度定制化的游戏场景，为AI提供实验场景和成长驱动力。业界期望通过越来越复杂的游戏训练，AI最终能够解决现实生活中的问题。作为AI游戏研究先行者，腾讯 AI Lab 的深度强化学习智能体正不断走近现实。棋牌游戏 AI “绝艺”从围棋棋盘逐步走向象棋、麻将，“绝悟”从MOBA走向FPS、RTS、再到如今的3D开放世界Minecraft。它们迈向全新挑战的每一步，都让AI离解决现实问题、科技向善的大目标更近了一步。随着虚实集成世界逐步变成现实，这些研究的经验、方法与结论，将在真实世界创造更大的实用价值。

2021年12月10日

腾讯发布国内首份可解释 AI 报告：详解打开算法黑箱的理念与实践｜附报告下载

随着各界对 AI 伦理的日益重视，AI 系统的可解释性也逐渐成为热点，甚至上升到立法和监管的要求。许多人工智能领域的专家都把 2021 年视为“AI 可解释元年”，在这一年，不仅政府出台相应的监管要求，国内外许多科技公司，譬如谷歌、微软、IBM、美团、微博、腾讯等，也都推出了相应的举措。在这一背景下，腾讯研究院、腾讯天衍实验室、腾讯优图实验室、腾讯 AI Lab 等组成的跨学科研究团队，历时近一年，完成业内首份《可解释AI发展报告 2022——打开算法黑箱的理念与实践》，全面梳理可解释AI的概念、监管政策、发展趋势、行业实践，并提出未来发展建议。在 1 月 11 日线上举办的腾讯科技向善创新周“透明可解释 AI 论坛”上，由腾讯研究院秘书长张钦坤、腾讯优图实验室人脸技术负责人丁守鸿进行了发布。学界和业界专家普遍认为，《可解释AI发展报告 2022》非常必要，也非常及时。这份报告开了个好头，推动人工智能向着可解释这个极为重要的方向发展。专家点评“可解释AI是一个庞杂的领域，这份报告起了一个非常好的头，在这个基础上需要开展长期的研究。现在的各种算法还无法在效率和可解释性两方面都达到很高要求，需要根据不同需求进行取舍。而且AI的可解释性是一个长期的问题，不会很快就有一个通用的可解释框架，可以在一些比较重要的领域先行探索解决方法，指明未来的发展方向。”——加拿大皇家科学院&加拿大工程院两院院士微众银行首席人工智能官杨强“可解释AI、透明AI是现阶段非常迫切需要解决的问题，这份报告在国内率先走出这一步，是开创性的，意义和价值非常重要。未来这个领域的进一步探讨，需要不同学科、不同领域的学者都能参与进来，哲学和科技哲学对于解释有将近一百年的探索和积累，未来可以提供很多借鉴。”——厦门大学人文学院院长朱菁“这份报告非常及时，全面反映了各方面专家的意见。不同人群、不同应用场景对AI算法的可解释性期待是不一样的，不应搞一刀切，将一个统一的标准适用于所有情形。在深度学习普遍缺乏可解释性的情况下，透明度就显得尤其重要，需要适当披露AI算法的相关信息。”——腾讯杰出科学家天衍实验室负责人郑冶枫“对AI系统落地来说透明性和可解释性是必不可少的，研究前景非常好；但AI的透明性、可解释性和性能之间存在固有的矛盾，一个可能的方向是根据不同的场景、可解释的目的，寻找不同的折中方案，以此促进AI技术的落地。 ”——南方科技大学计算机科学与工程系系主任姚新“本报告阐述了腾讯在AI技术研发和实践过程中的对于可解释AI的最新思考，是践行腾讯倡导的AI向善、科技向善发展理念的重要举措。报告从多个维度展现了可解释AI的发展现状和未来趋势，并提出了切实可行的建议，对于AI研究与工程人员、监管方和使用者都将具有很高的参考价值。”——香港中文大学（深圳）副教授腾讯AI Lab顾问吴保元“AI系统的说明书路径需要考虑商业秘密的保护，比较好的方式是针对可解释性、鲁棒性、准确性、隐私保护、公平性等方面建立量化标准，并进行测评，形成AI系统的说明书，从而让使用者可以清晰直观地知道AI系统是否满足可信的要求。未来，可信AI以及可解释性等方面需要各个学科、领域的人一起合作，共同推进这个领域的发展。”——京东探索研究院算法科学家何凤翔报告链接：https://docs.qq.com/pdf/DSmVSRHhBeFd0b3Zu（或点击文末「阅读原文」）以下为报告核心观点：AI伦理和可解释AI成为必选项目前人工智能已经成为了通用型技术，以深度学习为代表的机器学习加速渗透到各行各业，产生了非常丰富的应用。作为引领 AI 技术加速变革的重要法宝，机器学习是一把双刃剑。一方面，以深度学习为主要技术模型的机器学习可以帮助 AI 摆脱对人为干预和设计的依赖，形成 AI 的自主学习、自我创造以及自动迭代机制，使得 AI 在学习思维上无限接近于人类大脑。另一方面，机器学习又日益暴露出 AI 在自动化决策（Automated decision-making）中无可回避的难解释性和黑箱性。基于人工神经网络结构的复杂层级，在AI深度学习模型的输入数据和输出结果之间，存在着人们无法洞悉的“黑盒”，即使是专家用户也无法完全理解这些“黑盒”。因此，可解释AI便应运而生，可解释AI可以分为全局可解释（使公众理解算法模型本身）和局部可解释（使公众理解算法模型的输出结果）。如果不解决这两个问题，不仅影响到用户对 AI 应用的信任，而且也可能会带来算法歧视、算法安全和算法责任等方面的相关问题。在这样的背景下，可解释 AI 成为 AI 伦理甚至是立法、监管的必选项。从 2017 年的 IEEE 的《人工智能设计的伦理准则》，到 2019 年 4 月欧盟的《可信 AI 伦理指南》，再到 2020 年 11 月美国的《人工智能应用监管指南》，再到中国 2021 年 9 月的《新一代人工智能伦理规范》，以及 2021 年联合国的《人工智能伦理问题建议书》，其中都在强调可解释性和透明性的问题。我国的《个人信息保护法》、网信办等九部委出台的《关于加强互联网信息服务算法综合治理的指导意见》、以及《互联网信息服务算法推荐管理规定（征求意见稿）》等相关立法也开始对人工智能算法应用的透明度和可解释性提出要求。可解释AI的行业实践探索在此背景下，可解释 AI 也成为了各大主流科技公司研究的新兴领域，学术界与产业界等纷纷探索理解 AI 系统行为的方法和工具。目前各主流科技公司对可解释 AI 的探索实践主要有两大路径，路径一是建立“模型说明书”标准，促进算法模型本身的透明度和可理解，第二种路径则是打造可解释性工具，推动构建可解释的 AI 模型（XAI）。路径一旨在促进模型的透明度，增加相关主体对模型的理解和信任。譬如，谷歌的模型卡片机制（model cards），对模型的输入、输出、模型架构、性能、局限性等进行描述，旨在以简明、易懂的方式让人们看懂并理解算法的运作过程。再如，IBM的AI事实清单机制（AI fact sheets），旨在提供与 AI 模型或服务的创建和部署有关的信息，包括目的、预期用途、训练数据、模型信息、输入和输出、性能指标、偏见、鲁棒性、领域转移、最佳条件、不良条件、解释、联系信息等。国内互联网行业也开始采取类似做法，促进算法模型的透明度，如 2021 年，美团两次发文阐释其外卖配送算法的相关规则，促进其算法的透明度；同年 8 月，微博也首次公开其热搜的算法规则。这些实践都是从受众的角度出发，增强用户对人工智能系统的理解与信任。腾讯也致力于推动人脸识别、医疗 AI 应用的可解释性，构建负责任、可信的 AI 算法应用。路径二主要是可解释性工具、可解释模型方面的研究，从技术层面解决可解释性的问题。随着可信 AI 和 AI 监管日益得到重视，行业更加重视可解释 AI 研究，寻求解决 AI 的可解释性问题的技术方案。越来越多的可解释性工具被发布出来，可以对不同的统计机器学习模型和深度学习模型进行解释，包括一般的泛线性模型、集成学习模型、图像识别模型以及自然语言处理模型等。近年来头部的人工智能公司，包括微软、谷歌等，更是推出了更加强大与丰富的可解释性工具，囊括了诸多可诠释（Interpretable）方法与可解释（Explainable）方法，为实际面临的可解释性问题的解决提供了巨大的帮助。可解释AI的发展建议透明性与可解释性，连同公平性评价、安全考虑、人类 AI 协作、责任框架，都是 AI 领域的基本问题。我们需要找到一个平衡的可解释 AI 的路径，来打造可信、负责任 AI，确保科技向善。具体来说，在设计可解释性要求时，需要考虑可解释性要求和其他重要的伦理价值和目的（诸如公平、安全、隐私、网络安全等）之间的平衡。因为可解释性本身不是目的，而是实现其他目的的手段。所以在设计可解释性要求时，首先需要考虑想要实现什么目标，其次需要思考在特定情境下如何更好地匹配这些目标。第一，立法和监管宜遵循基于风险的分级分类分场景治理思路，在鼓励科技创新、追求科技向善、维护社会公共利益之间找到平衡点。首先，披露 AI 算法模型的源代码是无效的方式，不仅无助于对 AI 算法模型的理解，反倒可能威胁数据隐私、商业秘密以及技术安全；其次，不宜不加区分应用场景与时空场合地要求对所有的算法决策结果进行解释；再次，侧重应用过程中的披露义务；最后，避免强制要求披露用来训练AI模型的数据集，这不仅不具有可操作性，而且容易与版权保护冲突，侵犯用户的数据隐私或违反合同义务。第二，探索建立适应不同行业与场景的可解释性标准。具体可以从三个方面来着手：一是针对 AI 系统的一些示范性应用场景提供可解释性标准的指南，给行业和企业带来有益参考；二是发布 AI 可解释最佳实践做法案例集、负面做法都是值得尝试的，包括用以提供解释的有效的用户界面，面向专家和审计人员的记录机制（例如详细的性能特征，潜在用途，系统局限性等）；三是创建一个说明不同级别的可解释性的图谱，这个图谱可被用来给不同行业与应用场景提供最小可接受的衡量标准。第三，探索可解释的替代性机制，多举措共同实现可信、负责任 AI。虽然可解释性是完善 AI 技术的最优解之一，但并非所有的AI系统及其决策都可以解释。当 AI 系统过于复杂，导致难以满足可解释性要求，或是导致解释机制失灵、效果不乐观时，就要积极转变规制的思路，探索更多元化、实用化的技术路径。目前在技术上主张的是采取适当的替代性机制，如第三方标记反馈、用户申诉和人工审查、常规监测、审计等，这些替代性机制可以对 AI 算法的决策起到监督和保障作用。第四，增强算法伦理素养，探索人机协同的智能范式。开发者和使用者是 AI 生态的核心参与者，需要提升他们的算法伦理素养。一方面，加强科技伦理教育，提升 AI 从业人员的算法伦理素养；另一方面，通过教育、新闻报道、揭秘等方式提高公众的算法素养，构建和谐的人机协同关系。最后，引导、支持行业加强可解释 AI 研究与落地。由于 AI 技术的快速发展迭代，可解释 AI 的工作应主要由企业与行业主导，采取自愿性机制而非强制性认证。因为市场力量（market force）会激励可解释性与可复制性，会驱动可解释 AI 的发展进步。企业为维持自身的市场竞争力，会主动提高其 AI 相关产品服务的可解释程度。长远来看，政府、社会、企业、行业、科研机构、用户等主体需要共同探索科学合理的可解释 AI 落地方案及相关的保障与防护机制，推动科技向善。研究顾问：司晓吳文達郑冶枫吴运声张正友研究策划：张钦坤周政华写作团队：腾讯研究院：曹建峰王焕超腾讯天衍实验室：魏东黄予张先礼孙旭腾讯优图实验室：丁守鸿尹邦杰陈超黄余格厦门大学：詹好研究支持团队：马锴李博王强赵子飞李南刘金松吴保元卞亚涛吴秉哲黄俊陈瑶田小军朱开鑫胡锦浩梁竹研究联系：腾讯研究院曹建峰（邮箱：jeffcao@tencent.com）

2022年1月19日

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。