打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【微信讲座语音稿】——数据科学简介及在不同领域的应用
2017-01-17 


  上周六,我们陆家嘴金融俱乐部请来了美国马萨诸塞州立大学达特茅斯分校的严东辉教授,为我们带来了精彩的数据科学的讲座,由于还有很多同学因为错过了时间没有参加,为此,我们俱乐部对严教授的讲座内容进行了整理,一定要看到最后哟,小编我不会告诉你最后有福利哦~

下面我们进入正文吧

严教授的讲座内容主要分为四个部分:

一、对数据科学的简要介绍;

二、对数据科学的一些应用的介绍;

三、机器学习及其在量化方面的一些应用;

四、抓取数据的实例,例如R语言、Python等抓取网上数据的实例。

一、数据科学简介

   数据基本记载着我们人类的一切社会、自然活动以及彼此之间的交互,举一个例子,我们现在研究的历史,其实也就是数据科学。研究人员从留下来的许多证据中,去了解、推断曾经发生的故事和曾经出现的人。对于数据,有很多不同的处理方式,在计算机里,我们处理低层次的数据,比如说数据传输、数据存储;在数据科学里,我们其实是关注更高层次的对数据的理解,比如摘要、数据可视化、数据分析等,这一领域就是我们通常讲的数据科学。

   数据科学现在作为一门学科,提供的是原理、方法论和一些指南,指导我们通过数据分析工具产生价值、获得见解。

   下面这张图,表达了数据科学的一个框架。一般先有问题和数据,然后去做一些分析、建立一些模型,提取当中的规律;利用这些规律性的东西,再结合我们的商业知识,这样我们就可以获得需要的见解或者数据产品。

   数据科学中,我们首先需要采集数据或者提炼一些问题,接下来做一些简单的数据分析,之后做确定数据分析。这一过程就是建模、分析、下结论。数据科学中,各项任务关联起来,就得到了下面这张数据科学生命周期图,与软件工程寿命周期图类似,以问题和数据开始,以结论和数据产品终止。

   数据科学是一个交叉科学,包含了计算机科学、数学统计、行业知识、商业知识、社会知识等。计算机科学可以实现模型实现数据,统计跟数学可以用来做模型,商业知识或者行业知识用来提取规律,建立商业模型或者数据产品。

    严教授还为我们分析了数目科学与统计的一些联系和区别:

    1. 传统的统计研究所谓的“生存文化”,机器学习研究“预测文化”。将这两个方向放到一起,我们就可以统一处理很大的一类问题,比如分类、聚类、排序等。并且机器学习在很多时候,可能会得到更好的效果,比如支撑向量基,通常来讲,比逻辑回归要好很多。这样的另外一个好处是,可以解决很多传统统计无法解决的问题。比如,近年来,利用深度学习,在图像或者语音方面上,取得了非常好的效果。

    2. 数据科学中,允许先有数据而没有很明确的问题。比如说,在一个商业网站,可以收集到很多数据,但并没有一个明确的目标,而这些数据当中其实蕴藏着很大的价值,利用数据科学就科学提出各种各样的问题,得到不同的商业模式。这也是数据科学在近来年非常火爆的原因。

    3. 数据科学中还有很重要的一块——可视化。在大数据时代,数据的可视化变得非常重要。因为很难想象,你可以用一些简单的数据摘要来理解很大的很复杂的数据。通过可视化,可以更好地看到一些特殊的数据,比如空间数据、时间数据;可视化也允许我们对数据建模有更好的掌控,在数据的可重复性方面,可以提供很大的帮助。例如Data Provenance这个项目,就是将获取信息的各个步骤分解并显示出来,能够帮助我们更好地了解,如何从数据得到最后的结果。

二、数据科学应用实例

    这一部分中,严教授为我们介绍了一些数据科学当中会涉及到的一些主要技术,并分享了不少例子。

   主要技术:如上图所示,核心部分是统计与机器学习;其次是文本处理、自然语言处理、语音处理和计算机图形学(在大数据时代,很多数据是以非结构数据存在,比如语音、图像);图中方框外面一块是数据科学实现方面的,比如算法、编程、软件工程、优化、数据库、矩阵、并行处理等。

 

实例

   数据科学涉及的领域非常广,包含电子商务、气候、运动统计学、健康、征信、股票挑选以及企业数据。

   电子商务方面,以沃尔玛为例:它的网站,每天大概有上千万的用户访问,网站会记录用户的每一次点击。这些数据中,显然包含着巨大的价值,问题是如何才能发掘出这些价值呢?有一个很重要的现象,当用户买了一样用品时,通常会购买与之相关的用品,这可以帮助我们做一个推荐模型。当其他用户购买这一产品A时,就可以向其推荐产品B。利用这一推荐模型,比如亚马逊,大概提高20%-30%的营业额。当产品与其他产品的关联性越强,推荐模型的精度就会越好,其带来的利润提升也就越高。大数据在沃尔玛还有很多其他的应用,比如货架的安排,货物的运送。

    还有一个公司叫Climate Corporation,它利用大量的天气数据来帮助农业生产。一开始是利用数据来预测极端天气的可能性,与保险公司合作,最后则转型为了保险公司。利用天气的数据信息,可以做很多事情。比如在高温的时候,出汗比较多,推送的个人清洁用品可能会迎合客户的需求,此外还有航班、行程等,也可利用天气信息作出更好的安排。

     另外一个例子是关于运动统计学的,IBM曾经将收集了大量网球比赛的数据,从中分析网球比赛取胜的重要因素,比如发球、相持、击球等因素,利用这些数据,在一个赛季内获得了4000w 的用户访问量。利用这些访问,可以开发出很多有用的商业模式。

    在健康领域,比若说手环,可以获取大量用户的心跳、步数、睡眠等数据,利用这些数据,就可用于对用户体身体情况的预测。

    数据科学在征信方面有着重要的应用。个人数据、信用卡购物数据、年龄、教育、健康以及宏观经济数据等,利用这些数据,就可以给出一个信用评分。在美国的标准下,信用评分是300-850,通常来讲,800以上就属于非常好的;近两年,国内的很多公司、银行,也开始进行征信。

    数据科学同样可以用在挑选股票上。利用大数据分析,先于零售公司发布财报之前,就确定了公司的销售数据,以此帮助做出买入或卖出的判断。

   在企业数据方面,利用大数据,可以帮助寻找潜在客户,从而节省大量的人力物力。EverString就是这方面一个很好的创业公司。

小编有话说

   怎么样~如果你有耐心看完了上文的两个部分,是不是觉得数据科学非常有用呢?然而下面的表情代表弱弱的小编的心声==

  不过不懂没关系呀,严教授给我们介绍了数据科学学习的大概框架,接下来小伙伴们就可以根据严教授的讲座内容去搜索关键词主动学习啦,毕竟,知识的获取还要靠自己去主动搜索是不是?贴心的小编我都给大家找好关键词了哦

  以及,关注我们“陆家嘴金融俱乐部”公众号的小伙伴们想必对金融是十分感兴趣,那么数据科学在金融领域又有什么用处呢?别急,严教授的讲座还没完呢,让我们继续看下去吧~

三、数据科学在量化交易中的应用

   “这方面,我也就根据道听途说和文献阅读中的内容,跟大家简单说一下,大家当故事听听就好了”。(严教授好谦虚呀~)

    这一部分的核心在于机器学习。日常生活中,我们接触过很多这方面的例子,比如垃圾邮件过滤系统、搜索推荐系统、广告投放等。

机器学习,就是引用一些理论方法,从数据中提取一些规则。通过创建学习函数,建立训练集与标号之间的映射关系,建立起映射函数,从而完成一个预测。其基本原理如下图所示:

   一些传统的问题,如分类、排序等,可以通过机器学习很好地解决;一些较新的问题,如足迹模型、用户评价等,也可以通过机器学习来完成。机器学习的模式较多,如积极学习、小组学习、转移学习、增强学习等,都是一些较有用、较基础的应用。

   在股票领域,想要通过预测模型对股票进行预测,是难以准确实现的。因为股指与历史的相关性难以定量描述,并且会受到宏观数据、突发事件的影响。在这一领域,融合决策模型或许会是一个较好的选择。

    通过机器学习,进行高频交易,也在股票交易中占据了较大的比例。

    在量化交易方面,“文艺复兴公司”利用“马尔科夫链”构建模型,曾经多年保持20%以上的收益率。

    此外,还有很多利用大数据进行交易的案例,此处不再一一赘述。

四、R/Python应用实例

  这一部分中,严教授介绍了R语言完成数据树的一些案例,以及Python抓取页面数据的案例,(代码看最后~)并介绍了几本入门的书籍:

1. Mathematical statistics and data analysis, by John A Rice

2. The elements of statistical learning, data mining, inference, and prediction, by Trevor Hastie, Robert Tibshirani, and Jerome Friedman. “这本书着重统计机器学习,学之前最好有数理统计,线性模型基础”。

Q&A:职业规划

   严教授还简要谈及了职业规划:

    “从了解的情况来看,在美国,博士毕业偏于模型方面的量化分析员,本科毕业一般是量化交易员。计算机博士通常会去做量化模型,或负责模型实现。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
对话机器学习大神Michael Jordan:深度模型
林宙辰教授:机器学习中的交替方向乘子法
kaggle机器学习平台与量化投资
你还不会被AI淘汰:因为投资不仅是历史预测,更要用未来解释现在
独家|带你入门比Python更高效的Numpy(附代码)
京东金融量化平台: 3分钟了解深度学习跟量化交易是什么关系 深度学习是机器学习...
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服