打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
清华科技大讲堂(28)——朝乐门:如何成为“数据科学家”(文字版)

 2016-10-21 

朝乐门

中国人民大学数据工程与知识工程教育部重点实验室副教授,硕士生导师、中国计算机学会信息系统专委员会委员。清华大学计算机系博士后,人民大学博士,北京大学硕士。主持完成国家自然科学基金、国家社会科学基金等重要科学研究项目10余项;我国第一部系统阐述数据科学理论的重要专著——《数据科学》的作者。

完整PPT下载,请在公众号“书圈”后台回复“JT34”

(注:下文是清华科技大讲堂第28期——朝乐门老师开讲的现场直播“如何成为数据科学家”的文字转录版,感谢清华大学出版社和朝乐门老师的分享————小编)

【主持人】清华科技大讲堂的观众朋友们,大家晚上好!欢迎大家收看由清华大学出版社主办的清华科技大讲堂网络直播节目,我是主持人许诺,今天我们很荣幸邀请到中国人民大学朝乐门副教授....

  1. 大家好!今天我讨论的专题是《如何成为数据科学家》。“数据科学家”是近几年兴起的热词,如:


2.2012年《哈佛商业评论》上刊登过一篇文章,该文章说:数据科学家是21世纪最性感的职业。值得一提的是,这篇文章的两位作者都是牛人:一个是Davenport,是知识管理领域领域非常著名的人物,也是注意力经济和流程再造等概念的提出者;另外一个是Patil,是后来成为美国白宫第一任首席数据科学家的著名人物。我对数据科学的关注也是从这篇文章开始的。我之前做的是基于Semantic Web的知识管理,偏重于知识工程。Davenport是知识管理领域非常有名的教授,我当时一直在关注和跟踪他的动态。有一天,偶然发现自己崇拜的偶像Davenport开始转向Data Science。这让我很郁闷,我的奋斗目标都转移了,我怎么办呢?我自己感到很不解和迷茫。经过一番思考和调查之后,我也看到了Data Science的前景。因此,我正式进入数据科学领域也是在2012年。


3.2015年,我们又看到一则重要新闻。美国白宫专门设立一个“数据科学家”的岗位,并聘请Patil作为首席数据科学家。从此,数据科学家和Patil成为全球人们讨论的关注点。


4.那么,数据科学家的收入水平如何呢? John king等在做持续性研究。这是2015的数据,在美国,数据科学家的年薪可达15万,可以这样理解,相当于一个程序员的2倍,还是很高的。


5.未来我们缺不缺数据科学家呢?多家咨询机构做过调研,都证明缺口很大。

例如,麦肯锡全球研究院认为,到2018年,美国经验熟练数据科学家短缺口高达18万左右。


6.我们再看看数据科学家所属的数据科领域的前景如何呢?这是著名的Hype Cycle for emerging technologies图——gartner的 技术成熟度曲线,

是2014版本的。从图中看出,每个技术的发展经历这样一个生命曲线。数据科学正处于炒作期的末端,很快,2-5年之后,就投入实际应用。


7.现在开始进入正式内容,我们内容按以下顺序组织:

  • 什么是“数据科学”

  • 如何学好“数据科学”

  • 如何讲好“数据科学”

  • 数据科学家是如何炼成的


8.首先,从数据、数据科学、数据科学家等三个方面讨论数据科学的内涵。


9.注意,数据与数值是两个概念,如上图。数据不仅包括数值,还包括文字、图形、图像、语音、视频、多媒体...当有人问我你的数据科学和数学有什么区别是,我就有点晕~~


10.那么,到底什么是数据科学呢?用一句话讲,数据科学可以理解为大数据科学。数据科学是大数据背后的科学。为什么这么说呢?大数据时代的到来是“数据科学”这样一个新学科出现的直接导火线。当然,数据科学有很多种定义方法,比如这书给出了四种定义。今天我们不讲定义,而讨论一些更深层次的问题,共同探讨本质性问题。


11.一个根本问题是,我们如何正确认识“数据”?以往,我们把数据当做一个死的东西,看到的是它的被动属性——是个符号而已,是死的东西,我们并没有太多关注(如数据本身有什么规律、数据能告诉你什么、数据能做什么等)。但是,大数据时代到来后,人们对数据的发生了变化。什么变化呢?开始关注数据的主动属性?什么是数据的主动属性 ?我用几个大数据时代的 热词来解释吧?数据驱动、让数据说话、数据业务化、数据密集型、数据分析式、数据洞见等。换一句话说,数据科学研究的是人类对数据的系统性认识,尤其是数据的主动属性 。我说的主动属性这个提法不一定很合适,可以说是active 属性。


12.那么,什么是大数据思维呢?说白了,大数据思维是历史经验主义。在传统意义上,大数据时代到来之前,我们一直坚信的是“理论完美主义”,理论完美主义是“基于知识”的。然而,“历史经验主义”是“基于数据的”,直接用数据来解决问题,也就是说没有“把数据转换成知识”的前提下,解决问题。如上图所示。这个问题可以这样比喻,当遇到一个非常困难的问题的时候,有人喜欢找知识水平很高的教授或博士,也有人倾向于找知识水平不一定很高,但经验(数据)丰富的农民或工人等。前者属于传统的知识范式,而后者有点像大数据时代的数据范式。


13.这个图在数据科学领域的影响非常大。说的是什么呢?至少说了两个事情:

从外围看,数据科学家需要掌握三大方面的能力——数学与统计知识、领域实战经验和黑客精神,我总结成数据科学的三个要素——知识、实战和精神。从内核看,数据科学的主要理论基础是三个:机器学习、统计分析和领域知识。补充说明一点,黑客精神? 别害怕,这里说的黑客不是你想的黑客。国内术语翻译有问题,英文中的Cracker和hacker都翻译成了黑客,其实二者不同。Cracker是坏人, Hacker 是好人。所谓黑客精神就是“热衷挑战+崇尚自由+主张分享+追求创新”。简单总结一下,这个图说明了数据科学的另一个特点,即数据科学的三个基本要素”理论+实战+精神“。


14.大数据出现以后,似乎对每个学科领域的影响很大。大到什么程度呢?好像

每个学些都开始“怕死”,都在高谈自己与大数据的“亲密关系”。结果呢,各学科都开始主动去“拥抱” 大数据,出现了很多新学科。


15.比如,新闻学和大数据交叉后产生了“数据新闻”,再如大数据金融、大数据社会等。那么,我们需要进一步深入思考,这些新的学科交叉会出现什么?或者说,这些新的学科中有哪些共同的理论呢?——那就是数据科学。从这里可以看出数据科学的另一个重要特点——专业中的数据科学和专业数据科学的差异性。


16. 有人可能会问我,你讲了这么多,数据科学是不是一个空壳,有东西吗?有,这是我们构建建的数据科学领域本体,领域本体是学科存在的重要标志。目前,大概有160左右的重要词汇吧。今天时间不够,不讲了。


17.这是数据科学相关技术。这是著名的Big Data Landscape图,当然不是我画的。从这个图中也可以找到,数据科学相关的技术。


18.我们进入第三个小问题——什么是数据科学家。


19.理解数据科学家的一个重要障碍可能是我们分不清楚数据科学家和数据工程师的区别。我用一张图解释吧。数据工程师做的是'数据本身的管理',而数据科学家做的是'基于数据的管理'。数据科学家的工作重点不是管理数据本身。基于数据的管理是指“基于数据做事”,包括基于数据的管理/决策支持/预测/业务化等,用数据科学领域的术语说的话,就是“数据产品开发”。


20.数据科学家的职责是什么呢?看这个Slice。注意:对于数据科学家,可视化描述和故事化描述能力非常重要;数据产品开发能力也很重要;在数据科学中,数据产品是一个比较特殊的概念;在数据科学领域,“提出问题”比“解决问题”更重要,当然,这不是我说的,是爱恩斯坦说的。


21.我们分析一位具体的数据科学家吧。Patil是美国UM的应用数学专业phd ,曾在LinkedIn,GreylockPartners, Skype, PayPal, and eBay、美国国防部工作过。在数据科学领域写过两本书(Buildingdata Science Teams、 Data Jujisto)和一篇著名论文。2015年以后,他的事迹大家都清楚了,不讲了。


22.那么,有没有地方已经开始招聘数据科学家呢?有,左边是贝尔实验室,右边是IBM的招聘信息。


23.第二个大问题——如何学好数据科学?我从三个方面讲,如上图。


24.学习数据科学,首先应了解数据科学的发展简史。我们先讲....(如上图,此处略)。Peter Naur是著名的计算机科学家,图灵奖获得者,大家学过BNF语法吧,BNF中的N就是他的名字中的N。 另外,大家还应重视贝尔实验室在数据科学领域的重要贡献~


25. 如上图,此处省略文字解释。


26. 如上图,此处省略文字解释。


27.那么如何学好数据科学更好呢?有很多中说法,说什么的都有,有合理的,也有不合理。我也不绕圈子,直接给你一个符合中国人的学习路线图吧。


28.第一步,读三本书….(此处省略文字,见上图)。这些工作都做好后,你会发现,有所收获。但要注意,这才是刚刚找到通往数据科学家的大道,详见这个ppt的最后一个slice,你还会看到此图。


29.我是按照数据科学的三个基本要素“理论、实战和精神”推荐的。第一本书是讲数据科学理论的最好的书;第二本是将实际操作的最好的书,都是目前为止;如果英文不好,或理论操作同时进行,或者再补充一些新的知识,可以用第三本。


30.推荐三门课,分别是...。推荐理由有两个,一是系统性强;二是不仅可以访问具体内容,而且对方是第二次开这门课。另外,我也要在做公开课程的准备工作,是用心做的课程,即将公布,大家可以关注。


31. 推荐大家做三种练习......


32.在需要掌握三个基本本领........这也符合,我们之前说的,数据科学的三个基本要素:理论+实战+精神。


33.数据科学家都长的什么模样?.....会不会伤身?......我发现搞数据科学的大牛都是很帅的......看来还有美容养颜的作用,哈哈。因此,呼吁大家,每天早上饭前看两遍数据科学,中午饭后半个小时......


34.在此,为什么要说注意事项呢?有两点考虑:一是数据科学与传统科学不一样,它有自己的特殊性,比如:三分理论、三分实战、三分精神;二是目前数据科学领域处于混乱状态,说什么的都有...所以,数据科学的学习很容易迷失。我针对数据科学的这一特点,提出了四点建议,为了方便理解和记忆,名字是数据科学的“四则运算原则”——分别是乘、除、加、减........


35. 第三个问题也很关键。因为,老师是数据科学的普及与发展中具有不可替代的作用。因此,应优先培养教师队伍.....我们需要做的事情很多,担心的事情也很多。为此,我做过一些调研.......最后总结成了10大问题。


36.《数据科学》课程教学中的10大问题,如上图所示。


37. 见上图,此处省略文字说明——小编。


38. 见上图,此处省略文字说明——小编。


39. 见上图,此处省略文字说明——小编。


40.见上图,此处省略文字说明——小编。


41 见上图,此处省略文字说明——小编。


42.见上图,此处省略文字说明——小编。


43.见上图,此处省略文字说明——小编。


44.见上图,此处省略文字说明——小编。


45.见上图,此处省略文字说明——小编。


46.见上图,此处省略文字说明——小编。


47.见上图,此处省略文字说明——小编。


48.见上图,此处省略文字说明——小编。


49.见上图,此处省略文字说明——小编。


50.见上图,此处省略文字说明——小编。


51.见上图,此处省略文字说明——小编。


52.见上图,此处省略文字说明——小编。


53.最后,我们回到主题——如何成为数据科学家。大家可能注意到了,现在我把“如何成为数据科学家”改成“数据科学家是如何炼成的”,原因在于成为数据科学家并不那么简单.......


54.炼成数据科学家是一个漫长的过程,必须依次经历上图所示的三个关键阶段——刚开始学习时的幸福(理论),进入实际运用时的痛苦(实战)以及过了很多年之后的第三阶段......“让10年后的你,感谢今天的自己吧”....

附【现场回答观众提问部分】

感谢朝老师的精彩分享,.........,如果你的问题有幸被挑中了,可以免费申请.......

1.【主持人】有一个听众说——我读过您的书,写得很好。但您今天说统计学和机器学习是数据科学的理论基础,而不是基础理论,应该不在统计学的理论范畴之内。那么,你的书为什么包括这两个部分?【朝老师】刚才我也简单说过这个问题,数据科学理论不应过分突出统计学和机器学习等理论基础。但,我们也面临着另一个问题。我的书,非计算机和统计学专业人士也要看的,所以,有一部分读者没有统计学和机器学习的基础,还有一部分是学过统计学和机器学习,但学得太差,已经失去了信心和兴趣。如果对统计学和机器学习不感兴趣,那么无法看懂我们的数据科学。所以,我发现从课程教学角度看,可以适当补充这两部分内容。在我的书中,确实有这两部分。但是,遵循了两个原则:第一、我需要用新的方式讲解这两个部分,重点是培养大家对统计学和机器学习的信心和兴趣;第二、这两个部分并不是与其他教材的低级重复,是从数据科学视角重新解释。

2.【主持人】有人问,数据科学与大数据有什么关系?【朝老师】是两个东西。“大数据”是“数据科学”的研究对象之一,而“数据科学”是“大数据”的知识体系。刚才讲过,数据科学可以大概理解为“大数据背后的科学”,也说过,“大数据时代的到来是数据科学这门新学科出现的直接导火线”。实际上,小数据也是数据科学的研究对象。只不过因为大数据时代的到来,我们突然发现数据已经超出了我们的计算能力和存储能力,带来很多新的机遇、挑战、风险和价值,我们才开始关注这一个学科领域。

3.【主持人】还有观众问,成为数据科学家应该注意什么问题?【朝老师】...有些注意事项,大家都知道了,要勤奋哪,要怎么样,这些我就不讲了...... 在此,我只强调一个问题“站在数据科学的角度学习和研究数据科学”,而不是从另外一个学科,如机器学习或统计学看数据科学,正如杰克逊说过的“不要站在你的角度看我,你根本看不懂”。目前,社会很多人对数据科学的评论都是站在自己学科角度讲的,并不是从数据科学角度说的。说的不太好听的话,就是屁股决定了脑袋,而不是脑袋决定屁股。哈哈,所以注意事项是大家用“脑袋”学习和研究“,不要从另外一个方面去做。【主持人】老师很风趣地回答了这个问题

4.【主持人】有人我,老师你的书的定价是多少?怎么定价的呢【朝老师】...啊,这个问题我不知道,这个得问“大数据”,哈哈。

5.【主持人】有人问,你的书是英汉双语的?【朝老师】没有,是中文的。

6.【主持人】随心这个观众说,非计算机专业是否适合开始数据科学这门课吗?【朝老师】非常需要。因为,数据科学有两种,一种是专业数据科学,另外一种是专业中的数据科学。大数据和数据科学对每个学科的影响非常之大,换过来说,每个学科都需要数据科学这门课程的知识。所以,需要,更需要。

7.【主持人】有一个叫文觉的在问,数据打磨与数据改写的本质区别是什么?【朝老师】它是这样的,对应的英文分别为 data munging 和data wrangling。现在这两个概念,大家可以换着用。但是,最早出来的时候还有不同的。 data munging 强调的是在数据处理过程中需要把数据科学家的创造力、想象力等放入数据处理过程之中;data wrangling则强调的是半自动化方式进行数据的处理,也强调数据处理过程中的增值活动。所以,现在可以换着用,但最初提出的目的是不一样的。但是,这两个和数据预处理的概念是也有交叉。

8.【主持人】小雨滴问数据科学家是否需要很强的数学能力?【朝老师】当然需要,越强越好。但是,刚才也说了,“数据科学”不等于“数学”,因为'数据'不等于“数”。所以,数据科学与数学是不一样的。当然,数据科学的一个理论基础是统计学,统计学肯定是需要一些数学。我这边还是要倡议大家学习数学。因为,我想提这个问题的人可能是“害怕数学”的人。实际上,数学是一门很美很可爱的学科,就是说“你学了多少,就是多少”,不像其他某一个学科,你自己感觉已经学会了,实际上根本没有学会。比如说,2+3, 我今天晚上算和明天早上算是一样的,都是5。但是,管理问题是非常复杂的。比如,今天我邀请你(明晚)一起去看电影,你说“可以”。我再说,“别忘了”,你会说“肯定没问题”。我还是担心,再次跟你说“明天不要变啊!”,你会烦,“我都跟你说了多少遍了,你还问这个问题......”。然后,明天早上你可能给我来电话说“很抱歉,我来不了啦.....” 。所以,某种角度上,数学比其他学科更简单,只不过是我们的小学中学的老师吓唬我们数学很难,老师的老师也吓唬老师,相传数学很难。其实,数学是很可爱的,你学多少就是多少。

9.【主持人】有人问,大数据在用什么软件和编程语言?【朝老师】有人做过调研,数据科学家常用的工具中排名第一是......不能这么说,排名前三的是R、Python和SQL。这个东西,谁是排名第一无所谓了,你学的是R,你会说R 好,他用的是Python,他会说Python更好,都是这样,哈哈。

【主持人】侧重R还是Python?  【朝老师】没有侧重。R是贝尔实验室的S语言基础上发展出来,他是统计学家发明的语言。所以,R这个语言很奇怪,不像我们以前学过的程序语言,什么C、C++什么的,如R的默认数据类型是向量。但它的统计功能很强大。至于这两个语言,那个更好?语言本身没有好坏的,而是取决于其背后的包的功能是否强大。因为,R还是Python只是一个前端,我们是通过R或Python去调用那些包。所以,他们的功能是否强大主要取决于所提供的包的功能是否强大。R的统计功能较好,比如不需要写复杂的For语句。

10.【主持人】最后有没有给初学者给一些建议。【朝老师】...建议是大家在数据科学方面多投入一些时间,多做一些事情,就这样吧....

【主持人】感谢大家.......

(特此说明:本文是小编根据现场视频转录的文字版本,由于本人能力和时间所限,可能存在诸多不妥之处,望朝老师和清华大学出版社见谅——小编)

【专家著作】

【专家直播视频回放】

课程主题
  • “数据科学”是什么

  • 学生如何学好“数据科学”

  • 老师如何讲好“数据科学”  

  • “数据科学家”是怎样炼成的

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
大数据属于什么专业?
大科学家不见得数学好
数据科学50人:大数据与人工智能的再认知,照亮我们的未知与未来
温故知新:数据科学札记
学科建设 | 十字路口的统计学: 谁在应对挑战?
它为何是“21世纪最性感的工作”?一文读懂数据科学的发展
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服