百度李鑫：如何利用人工智能处理大数据难题？11步轻松解决！

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

人工智能基础数据面临的难题，百度是如何应对的？本篇活动家就为大家带来百度资深研发工程师李鑫在“AICon 全球人工智能与机器学习技术大会深度培训”上分享的主题《如何快捷有效地获取海量数据并使其可被机器识别分析》，欢迎分享或收藏，找大数据大会就上活动家。

主要分为5个部分

人工智能行业现状

数据之于人工智能

人工智能基础数据面临的难题

百度是如何应对的

典型人工智能应用场景百度数据产品

一、人工智能行业现状

1、人工智能进入公众视野

人工智能的强大能力已被证明

2、人工智能大事记

事件一：AlphaGo3:0战胜柯洁，DeepMind 创始人宣布 AlphaGo“退役”围棋界再无敌手之后，Algphgo的下一个目标是“征服”哪里？

事件二：百度All in AI，发布了 DuerOS 和开源自动驾驶系统Apollo，All in AI表明了决心，也为百度贴上了一个新标签——“人工智能公司”。

事件三：国务院印发新一代人工智能发展规划中国将人工智能上升为国家战略《规划》提出了六方面的重点任务和一系列保障措施，国家层面为AI奠定好的基调。

事件四：NVIDIA发布地表最强 GPU：PCI-E Tesla V100，只需要几张V100的算力就能够与当前的各国精心打造的超级计算机的算力相当。

事件五：类人机器人Sophia亮相《早安英国》人工安卓智能机器人Sophia与她的发明人 David Hanson博士共同做客《早安英国》节目，接受主持人的现场大拷问。

3、人工智能爆发的三大因素

算法是核心，计算、数据是基础。

二、数据之于人工智能

1、海量、精准、高质量的数据是人工智能的根本

数据是一切人工智能技术和应用实现的基础保障和前提！

2、数据样本与算法模型

3、有时候，数据真的可以秒杀算法

有时候谁能够取胜，并不取决于谁拥有更好的算法模型，而是看谁掌握着更多、更好的数据资源。

人工智能需要通过大量的数据样本来“训练”自己，才能不断提升输出结果的质量。

三、人工智能基础数据面临的难题

1、项目“冷”启动的数据困扰

2、获取和加工数据，AI基础数据的两大难题

如何采集：

原属数据类型繁杂，没有统一的采集标准，同一批数据会出现多轮采集；

谁来采集：

线上数据可借助机器采集，线下数据需要纯人工采集，时间、经济成本大；

如何加工：

行业缺乏统一标准，方法不一致，重复人力投入；

谁来加工：

机器难以完全胜任，人工处理花费大量人力、物力；

质量如何保障：

人工抽检，覆盖面有限，准确率有瓶颈。

四、百度是如何应对的

1、链条化AI数据加工厂，为AI发展保驾护航

2、沉淀数据处理方法，建立数据处理规则

数据清洗：

不完整数据

错误数据

冗余数据

数据标签化

垂类数据

数据评估：

相关性评估

时效性评估

竞品评估

互联网，社交网络舆情

电子商务评论

数据内容获取：

关键词提取

网页内容提取

图片内容提取（OCR 识别，人脸识别，物体识别等）

特殊信息处理：

地图信息制作

语音转写

其他数据标注

3、采集场景工具化，全面覆盖各种数据类型

4、链条化AI数据加工厂，为AI刀展保驾护航

5、沉淀数据处理方法，建立数据处理规则

6、固化数据处理工具：通用图片检测

通用图片检测类型涵盖商品、动物、植物、菜品、服装搭配、黄反、暴恐、建筑、素材等多种垂类。

多图 vs. 单图；

图+参考文字/参考图/搜索页面/参考链接/预识别结果/特定内部参考页面；

多题 vs. 单题；

题目类型：单选/多选/多级菜单选择/填写

7、标注工具——目标框选类

框选类能力涵盖：普通矩形、分类矩形、普通多边形、分类多边形、区域填色、多级属性多边形、Parsing、点+线+区域复合检测。

8、标注工具——内容评估

用户行为画像：对“兴趣偏好“属性进行策略优化，通过第三方人工标注，通过用户人工贡献评价，评估策略优化后的标签准确率。

要素提取：依据客户要求对文字内容或槽位进行提取并定位具体属性。

9、标注工具——图片&语音转写

进行多种语言OCR文字转写

进行多种口音的语音文字转写

10、多级质量管控，突破准确率瓶颈

根据数据需求类型，覆盖更多实际应用场景

经过多年的数据积累，目前百度的人工智能数据仓库已经覆盖了超过5个大类，50多个小类别的实际人工智能模型数据集。

11、智能标注

五、典型人工智能应用场景百度数据产品部分请上活动家查看。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。