智能信息中的大数据和人工智能

转自：CAAI会员中心，本文选自《中国人工智能学会通讯》2022年第12卷第2期

作者：李云辉

一、大数据、人工智能简介

大数据有三个要素，一是海量，体现在数据容量越来越大，以新浪微博为例，每天会有几百 TB的增量；二是速度，体现在数据量增长越来越快，用户的规模增长越来越快，产品业务越来越多，用户行为越来越多，这些都会加快数据增长速度和实时性；三是多样，指的是各种类型的数据库，如文档、日志、视频等。

人工智能 (AI) 的基本要素，一是算法，以统计学为主，包括统计学的模型，以及深度学习、神经网络等一系列算法；二是数据，数据是算法设计训练推理的依据，要做算法，前提必须有大量数据，尤其深度学习的场景，需要大量的标注样本；三是算力，深度学习是混合的价值获取方式，目前算力不够。现在万物皆媒，随着 5G 的到来，机器也能生产新闻、创造信息，搭建基于数据 + 算力 + 算法 + 网络的基础底座。大数据、AI 驱动信息智能化变革主要体现在网络、数据、算法和算力四个方面。

智能信息生态最下面是基础层，包括芯片、传感器、大数据、云计算；第二层体现在由 CV 做图像识别、分类、排重、语音识别，以及垂直领域里面构建的知识图谱，支持做垂直领域的分发和金融上的信用。最上面是应用层，从媒体的角度包括信息采集，以及采集后的聚合生产、内容分发。还有媒资的管理、内容生产源的管理、内容安全风控的管理、效果的追踪，以及媒体的经营、舆情的监控、媒体版权的保护等。

二、新浪大数据及 AI 应用实践

（一）新浪大数据

下面从三个维度介绍大数据的应用。一是多种数据来源，新浪体系下大概有 10 家以上的 APP，包括新浪微博、财经、新浪体育等，还包括第三方数据。二是多种数据形式，包括用户的注册信息、媒体信息、博文信息、内容信息；非结构化数据、包括用户的行为日志、图片、视频、音频；半结构化数据指的是用户的访问和请求，以及博文特征、内容标签。三是多种处理要求，包括在线和离线，在线是实时处理，算法用的会更多一些，以及模型的训练、在线模型预测、在线实时效果报表监控；离线包括批处理、机器学习，以及每天给高管看的各种经营分析运营报表。

· 大数据的基本组成体系，从下往上，从平台的角度来讲，整合了新浪集团所有的业务相关数据，也可以理解为是集团的数据中心和平台。基于维度建模思想面向主题、历史、决策的数据仓库，我们构建了数据平台，提供了大数据的传输，从前端日志的采集到实时、离线的采集，以及到后面实时的处理，为各用户提供的基础资源。第二层是对应的服务，面向不同业务类型、不同角色提供不同服务。比如，面向算法工程师，提供更多的是计算平台、存储平台，以及外围工具平台、数据调度管理等；面向运营、业务、分析师等更多的是提供更高效的查询数据、统计数据自动化工具和多维的分析；面向产品提供 KPI 监测和每天经营的情况，以及大盘的指标、涨跌的归因等。在服务上我们提供了一些产品，对内的工具和对外的商业化接口。从价值方面，可以提升内容的商业变现，也可以提升内部的效率、产品的优化和迭代。

· 大数据的流程架构，我们在开源体系上做了一些外围工具开发，以及内部集成和优化。一是数据源，包括用户产生的 UGC 数据、行为数据、内容管理数据。有了这些数据源后，前端服务器采集到这样的日志，最终通过实时数据存档的队列；再对应到中间部分的处理，通过集群，一部分写到离线文件，一部分转发到实时集群；对应到处理方面，包括存储、计算等。在此基础上做了很多外围工具，以及对应的存储周期和存储逻辑、上下游的依赖等，都会在管理系统定位查询。二是监控，我们会监控一些节点、任务，以及监控作业之间的效率，给用户统一入口，通过网关方式登录访问存储平台。

在存储计算平台上搭建离线数据仓库和实时数据仓库，把这些结果实时处理完成，后面的应用就是在这里进行机器学习、模型训练学习、数据分析、数据挖掘、KPI 报表、API 服务等。围绕大数据来讲，标准化体系当前有几个主流方向。一是实时和离线数据湖，这是当前的技术方向。数据要求的是实时处理，原来按天看报表，到后面按小时看报表；现在实时化看数据，到线上模型实时特征训练，以及对应预测。实时化是大数据处理的方向，包括实时处理能力。数据量越来越大，处理数据越来越大，异构数据越来越多，怎样搭建一套实时的数据处理平台和仓库。二是面向更复杂的多维分析，首先定义分析维度，然后数据准备，再进行多维分析。随着业务的发展、用户的运营等，对用户深入的洞察、对整体的分析要求越来越深入和灵活，针对不同粒度、不同维度下能不能任意交叉，实时统计和分析。三是不同角色的处理效率可以有很大提升，包括数据 ETL 抽取、调度这些源数据，以及自动化查询工具等。四是更多面向于图数据，如微博就是有大量节点的图谱。五是在大数据中，现在提的比较多的方向是数据资产、数据治理，有了这些数据，怎样去评估它们的价值。作为企业来讲，怎么反映数据给企业带来的价值，这个数据的成本、数据给商业和内部带来的驱动；数据的资产不仅是企业内部的数据资产，还包含面对客户服务的数据资产，以及数据的治理、数据的安全，怎样保证数据质量一致性、完整性和安全性，做好数据安全的风控。

大数据行业当前推进的趋势和方向——实时数仓。我们的原数据是实时的，这些数据来自访问日志，比如访问了微博、看了某篇博文会上报一条用户的访问行为数据；然后把后端的一些数据通过实时传输，进入我们的 ADS、MDS、ODS。这和前面介绍的离线有一些区别，这里会做一些结构化动作。比如，我想知道今天体育博文的阅读量就会针对博文做分类和结构化，实时调算法的接口，再过滤一些条件、规则，同时按照产品、业务线进行分流；然后把一些用户的维度，比如用户的行为数据，与用户的数据进行交叉，这时会进行实时过滤、处理。到 MDS 层，做一个相对颗粒度比较细的汇总，主要以用户为总线，加上各维度统计用户行为。ADS 是面向于我们最后的高度汇总数据，根据相关的博文实时计算。现在从技术架构体系和平台来讲，有依赖内存的，还有用搜索机制去做的。统计出来的维度相对比较明确，这时维度要做实时多维分析。现在放在 ES 里去做，能做到 10 亿 + 的用户、上千维特征任意的交叉统计，大概在 100 毫秒以内。还有比较明细的数据，用户是无感知的，会根据用户提交的不同业务类型自动分发到不同的分析引擎进行分析，最后通过计算和分析引擎反馈到用户。对应在做实时热点的发现、内容消费的洞察，这方面主要是智能媒体和数字化的营销。

（二）AI 应用

新浪集团体系内大数据的应用规模，包括新浪集团所有子公司和各产品线的研发、产品、运营，同时在使用这个产品进行日常数据化驱动。围绕大数据的能力，以及大数据的一些数据平台，结合我们的业务、算法做了哪些 AI 应用？

新浪是一家媒体，落在智能信息平台上，主要分为热点发现、内容编辑、审核择优、产品形式和智能传播五个环节。发文章首先要有配图、文字纠错；如果发话题要有摘要、事件的详情脉络、信息流里自动的标题、内容的聚合、舆情的观点等；审核需要做的是安全、敏感的审核；分发主要包括个性化分发，以观众体系下社交下的分发，还有运营导向的热点分发。现在我们的生态是多终端的，既可以在 APP 上看到，也可以在手表、智能音箱上看到新浪提供的内容。

1. 线索发现

新浪早期是门户，后变成博客，随后有了微博社交媒体，最后是新媒体的个性化，到当前既有社交又有新媒体个性化综合的信息平台。带来的最大变化是内容底层、内容生产者在变，原来有数万的PGC，到现在数百万的自媒体，再到现在的视频化、社交化，如何从海量信息里筛选出用户关心的重要新闻线索，是内部运营面临的很大挑战。新浪 + 微博是很大的优势，全网的热点一般都是在微信或微博上先进行传播，形成一个全网级的发酵一定是微博带来的更大传播，所以能知道热点事件所有传播链路。我们总结编辑运营经验，从业务数据化到数据特征化、到特征实时处理、到 AI 模型，最后是人工审核。作为一个资深编辑，其经验是建立在每天发生什么样的事情，记下发生的时间、地点、场所，以及带来的影响等，通过历史数据可以判断这件事情会不会有热点。结合这些逻辑、模型会把这些数据源（包括全网的数据），以微博数据为核心，包括新浪新闻媒体的数据做结构化，对事件进行识别；还会针对博文的统计特征进行分析，传播的链路、账号的属性和内容，什么时间发的，它们之间是什么关系，是不是传播节点、引爆节点，以及对应的行为；对应的行为及对应过程中有没有大 V 评论，从而就构建了一些特征。根据这样的特征构建热点分析和预测，就可以看到是一个什么走势，以及对统计走势的判断。运营再进行线索的审核，审核完成对应到热点的运营。

我们内部使用的大数据赋能热点实时发现平台，现在做到每分钟基于微博全国量的数据，如重要的产品用户指标，与过去 30 天异动的指数，结合用户的画像，知道哪些用户关心的热点和不同地域下用户关心的热点是什么，以及他们关注的词汇是什么，点了这些词云后就知道有哪些热点博文。对热点博文的排序、当下最热博文，以及对应热门博文的用户画像等，辅助运营第一时间发现热点。

例如，巴黎圣母院大火。这个事件涉及到 60+领域、5 000+ 头部用户参与，全部用户发博 300+ 万、曝光 40+ 亿。这个热点有很明显特征，10 分钟内博文量超过平常的 3 倍多。根据用户在后续有没有兴趣关注点的变化和迁移，我们有很多热点延伸，希望给用户提供更丰富的内容服务。

实时热点的发现从内容源头能够监测前面所有线索、突发热点，人工审核完成后一键发布、自动审核；然后直接看到下发大屏效果，以及各人群效果，再调整内容下发的策略，这是全链条逻辑。

2. 内容生产端

内容生产平台算法分为 NLP 和 CV 两部分，文本能力主要是做语言模型和语义理解。我们会做一些自动纠错、错别字识别，这些模型也在做这部分的训练学习。任务是以分类识别为主，如做了图像的分类、人脸识别。基于两种场景，一是图片构建了百万级别的语料库，包括视频的排重；二是基于上面这些平台，做自动标题、文章配图、主题识别、摘要提炼、纠错排重等。视觉能力主要是图像质量、图像美学、视频清晰度、视频质量、裁剪、智能配图等。

模型算法案例一 文章自动配图。因为是新闻场景，上面需要有一些配图，机器配图是一个很复杂的事情，来源文章内所有图片，策略会进行图片的质量、分类、裁图等。配图是很复杂的模型，首先做识别判断，比如一幅大图里有很多文字不适宜作配图；低质的图形识别出来要过滤掉。我们有一个百万级别的图像库，对图片打一个美学分数，配出的图不能重复，所以要进行指纹排重。早期可能用各种特征去做，筛选后看一下文章和标题的相关性。用多模态去做动态相关性模型，可以学到哪幅图与标题相关，最后用美学和相关性做综合排序，输出侯选可以配图的 topN。在裁减时还要识别出图片主题区域，将人脸拿出来单独做人脸模型，裁减完成后会在前端根据落地的业务场景进行自配。

模型算法案例二 视频标签。视频标签有一定难度。我们有百万级的标签体系，希望一篇视频打出来它属于哪个领域、哪个主人物，以及对应哪个IP，落地到相关推荐，根据人物推同一人物、明星，以及视频的合集。视频标签采用了多模态技术，现在我们有图文特征、标题特征和音频特征等千万级样本。最后是多任务的学习方式，进行特征抽取网络，希望有一个对应约束。现在已经做到第三个版本，准确率在 85% 的水平，一级可能会高一些。

模型算法案例三 机器新闻。人工先定义出模板，深度学习在这里主要做预测工作。原始数据来源于全网重要资讯、财经第三方数据和微博数据，比如体育比赛在什么位置、有什么样动作，这些都是人工梳理出来的模板，由这样的句式和模板生成这篇基于前面采集到的信息，根据句式模式生成句子侯选和段落侯选，进行表述衔接。我们会有一些表述衔接的语言生成，主要落地在财经和体育方面，包括财经快讯、行情股市资讯、直播间和赛事结果数据等。

3. 人工审核

人工审核采用的是多模态识别。这里网络结构是类似的，通过底层各内容来源做识别，识别出来后会有人工二次审核工作，判定最后问题的归类，进行人工干预。

4. 分发

审核完成后进行分发，第一部分是用户；第二部分是物料。用户画像是基于新浪集团所有打通的数据；物料包括运营热点、运营专题，以及视频垂直领域、图文、音频等；场景包括地理位置、时间、网络、产品位；分发包括运营分发、搜索分发、个性化分发和关注分发等。

5. 推荐

我们产品有个性化推荐、相关推荐、视频推荐、主题推荐。推荐的架构在行业内都是标准的东西，主要区别是实现逻辑、模型、策略、物料不同。总体上，数据收集到大数据平台做样本拼接、模型训练。我们主要做的是用户请求，把用户在曝光时有哪些特征，比如性别、年龄、地域的统计学特征、用户兴趣的统计学特征，以及用户在最近一段时间各时间段、维度、产品、行为下的点击，这些都要收集进去，代表当时是什么原因给用户曝光文章；还包括一级和二级分类、标签，以及一些作者信息，这两部分拼进去了就可以回答用户此时此刻请求的兴趣有哪些，给他推荐哪些侯选。另外，因为有哪些静态属性、统计特征，所以进来了这样一个侯选，以及在这一侧交叉的匹配；最后选择排序逻辑。模型要学的就是这样一个场景。我们要根据这个场景做拼接样本、模型训练和预测。对应的是在线推荐，一个是画像类的；一个是召回类的，包括内容、模型、热门、策略等召回，这里重要的是要知道效果是否好。总之，从物料到召回、到排序，包括特征工程、模型训练、在线预测和在线评估，这是业内比较通用的架构。

6. 召回算法

现在推荐的大家都认为千人千面，其实不然，推荐做的更多是满足中短期兴趣的推荐。召回算法主要分为三类，一是基于用户画像类。比如，我喜欢 C 罗，他喜欢足球，可以根据标签做吻合，再根据表现的打分做排序。用户画像的召回核心在于用户画像的计算，包括基础的数据仓库里做统计。现在画像都是基于深度学习模型预测的，预测你的长期兴趣、标签是什么程度。二是对应模型类，协同过滤用的非常多，网络结构上包括后面的蒸馏；又要用到一些复杂网络，想在双塔上做，这时就用单塔的目标指引双塔目标学习，后面会有一些多目标。三是策略类，各家公司业务策略不同，对我们来讲有策略逻辑，评价有热度、相关度、覆盖度等一系列指标体系。

7. 排序

排序发展阶段，从早期经济学的算法，广告比较多，后面用到了多目标排序。常见的目标有点击率，还有一些是互动类评估（如点赞）。排序算法的路径除了算法学习上有一个迭代外，还有在模型的训练上有一个变化。在排序上的变化有几个目标，围绕多目标的路线发展，体现在特征个数。真正的挑战体现在特征的实时处理能力，而且还要保证实时特征处理数据的一致性，数据质量是影响排序算法的关键因素。特征越实时统计，训练时与线上预测时的数据一致性要保证相同，实时性越强，就有各种的客观现象，能带来各种延迟和不一致，这是客观存在的现象。

多目标发展的变化。原来我们多目标的技术，比如模型预估的概率和时长的值会做一个权重融合，很多是网络搜索、交叉组合完后把所有模型训练学习一遍，选择最优的放到线上，用这种方式做的组合。之后我们希望模型能学到时长融合的权重，模型在线学习参数，利用它做融合预测。发展到现在，用PSO 方式做自动搜索是现在做的主流方向。从多目标的网络结构上讲，每个目标都可以学，学完后进行融合。还有一种是用一个大模型学出多个目标后，再用多个目标融合，我们有这样一个对应的单模型和发展。另外一个发展就是会有一些专家网络共享，就是现在的多目标排序——排序结构变化、多目标网络结构变化，还有多目标最后目标的调参变化。

比如，社会热点案例——货拉拉事件的引爆，再到媒体集体发声到社会反思，我们怎样服务好用户，做好用户分发体验。在疫情下我们也做了很多创新，从 2019 年 12月 31 日一直到现在，经历了各阶段的发展，现在都是靠 AI 赋能，通过信息采集，到自动化信息聚合、解析，以及疫情专题的自动生成、疫情地图的自动标注做了一些闭环查询，以及很多可视化产品，如策划了新浪疫情地图，方便用户能够更直观看到疫情的态势。

三、新技术展望

如果没有大数据要做人工智能无从谈起，大数据里需要一些流程和平台，以及落地一些应用。从面向统计型数据到分析型数据、价值型数据，我们都是通过数据化指导日常工作。调优能做到敏捷迭代，这是必不可少的。围绕大数据做 AI，包含基础平台、内容搭建、生产、聚合，到分发，利用大数据实时计算和算法的结合，赋能 AI。如何做好内容生产自动化，以及个性化算法分发概况和关键点，怎么去理解推进其逻辑和建模思想。

未来与信息媒体相关的方向是 5G、视频和区块链，以及智能化分发技术。直播是新浪很重要的产品线，5G 超快网速、超低延迟的特点更加有助于视频化的发展。

从内容生产上看也是很明显变化，从 PGC 到UGC、TGC，内容生产结构变的视频化，而我们的需求没有变，只是需求范围变大、深度变深，需要看更多、更丰富的内容。5G 由 PGC 到 TGC，比如可以看到元宇宙；还有智能冰箱本身也能产生很多数据，智能烤箱可以看到烤面包的变化过程，这些都是 TGC 所生产的。未来会呈现大数据很重要的环节，因为这些数据之间万物互联，量大，形态变多。还有各种网络结构，如何挖掘中间的关系和联系，都是很大挑战，而且对深度学习、AI 来讲要求更高。所以，这个数据巨大，必须通过一些算法进行相关处理。内容消费场所的变化，生活中都有感受。现在最新的华为手机能测 24 小时动态血压，用户能看懂监测报告，这些成果都是 5G 带来的机会。不同的新技术带来新产品形态和新业务形态。

视频方面主要是 5G 和视频的结合，面向于高清、多维、低延迟，最大的体现是正在做的 AR、VR，比如奥运会、交互式视频、互动类视频，视频更清晰和高清，直播更流畅。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。