打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
17个数据科学项目,带你从数据科学入门到专家

头条把所有的超链接都吞了。大家可以去原文地址找到下载链接和相关文档资料:

http://www.datalearner.com/blog/1051510041394215

本篇博客是翻译自Anaytics Vidhya的一篇文章。原文地址:https://www.analyticsvidhya.com/blog/2016/10/17-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/

这篇文章按照初级、中级和高级给出了适合不同水平的数据科学从业人员的训练数据集及其任务。总共有17个数据集,涵盖了不同领域的不同任务。如分类、预测、推荐、图像识别等。很多数据集和我们提供的数据列表也有重合。所有的数据集都有下载链接,部分数据集也给出了相关的文档资料。非常值得大家学习机器学习和人工智能等相关数据处理的技术。

简介

数据科学项目可以促进我们开始数据分析的事业。通过数据科学的项目,我们不仅可以通过运用实际案例学习数据科学,还可以在我们的简历上增加一个亮点。如今,招聘人员会通过他们的工作来评估候选者的潜力。如果你没有什么可以展示的话,就直接告诉他们你知道多少内容就可以了。这是很多人都忽视了的地方。

如果你解决过一些问题,但是你无法展示出来,那么大家都不知道你是不是真的可以做这些工作。这就是这些项目可以帮助你的地方。把做这些项目的时间当做你的训练,我相信你花的时间越多,你得到的就越多。

作者列举的数据集都是经过挑选的。保证你可以从不同的领域,看到不同规模的问题。作者认为所有人都需要懂得如何在小数据和大数据上工作,因此提供了大规模的数据集。所有的数据集都是公开可用的。

为了帮助你决定从哪里开始,作者将这些数据集分成了3个等级:

1. 初级:这部分数据是比较容易处理的,也不需要复杂的数据科学的技术。你可以通过基本的回归模型、分类模型等处理。同时,这些数据也有很多的相关资料帮助你完成这些任务。在这里,作者也列举了一些资料可以帮助你很快入手。

2. 中级:这部分数据有点小挑战。是一些中等规模以上的数据集,而且需要一些比较高级的模式识别的技术处理。同时这部分数据集的特征工程也不一样。这里也没有任何机器学习的限制,任何工具都可以使用。

3. 高级:这部分数据集适合那些懂得高级技巧的人处理,例如会神经网络、深度学习、推荐系统等知识。这里的数据也是高维的。同时,这部分数据集也是激发大家智慧的数据集,可以看到一些非常有创意的数据科学家的工作。

初级

1、Iris数据集

这个数据集是模式识别文献中最常用的最简单最通用的数据集。没有什么数据集比Iris数据集更简单地让人学习分类任务。如果你对数据科学了解非常有限,那就从这个数据集开始。这个数据集只有150行,4列。

处理的问题:根据有效的属性预测花朵的类别数据集链接 | 文档资料

2、Titanic数据集

这是全球数据科学家另一个应用最多的数据集。有几个教程和帮助指南,这个项目应该给你足够的启发,深入研究数据科学。 这个数据集有如类别变量,数字变量和文本的变量等不同变量的组合,这个数据集能够支持一些疯狂的想法! 这是一个分类问题。 数据有891行和12列。

处理的问题:预测Titanic乘员的存活概率数据集链接 | 文档资料

3、贷款预测数据集

在所有行业中,保险领域使用的分析和数据科学方法最多。 这个数据集将向您展示在保险公司处理数据工作所遇到的乐趣,面临的挑战,使用的策略等,还包括哪些变量会影响结果等。这是一个分类问题。 数据有615行和13列。

处理的问题:预测贷款是否逾期数据集链接 | 文档资料

4、Bigmart销售数据集

零售业是广泛使用数据分析来优化业务流程的另一个行业。 诸如产品布局,库存管理,定制报价,产品捆绑等任务正在使用数据科学技术巧妙处理。 顾名思义,这个数据包含了一个销售商店的交易记录。 这是一个回归问题。 数据有8523行12个变量。

处理的问题:预测销售情况数据集链接 | 文档资料

5、Boston房屋数据集

这是模式识别文献中使用的另一个流行的数据集。 数据来自波士顿(美国)的房地产行业。 这是一个回归问题。 数据有506行和14列。 因此,这是一个相当小的数据集,你可以尝试任何技术,而不用担心你的笔记本电脑的内存问题。

处理的问题:预测自住房的中位数数据集链接 | 文档资料

中级

6、人类活动识别

该数据集是通过智能手机捕获的30个人类受试者的记录中收集的,该智能手机使用嵌入式惯性传感器。许多机器学习课程将这些数据用于学生练习。现在轮到你了。这是一个多分类的问题。数据集有10299行和561列。

处理的问题:预测人类活动的类别数据集链接

7、黑色星期五数据集

该数据集包括在零售商店中获取的销售交易。这是一个经典的数据集,可以从您的购物记录中探索您的个人的工程技能和日常的理解能力。这是一个回归问题。数据集有550069行和12列。

处理的问题:预测购买数量数据集链接

8、文本挖掘数据集

该数据集最初来自2007年SIAM比赛。数据集包括航空安全报告,描述某些航班上发生的问题。 这是一个多分类,高维度的问题。 它有21519行和30438列。

处理的问题:将文档分类数据集链接 | 相关信息

9、轨迹历史数据集

这个数据集来自美国的一个自行车共享服务商。这个数据集要求你锻炼你的数据消除技能。数据集从2010年(Q4)开始每季度提供一次。每个文件有7列。这是一个分类问题。

处理的问题:预测用户类别数据集链接

10、百万级别歌曲数据

你知道分析也可以用于娱乐行业吗?现在就自己动手。这个数据集提出了一个回归任务。它由515345个观察值和90个变量组成。 但是,这只是百万歌曲数据的原始数据()库的一小部分。你应该使用下面链接的数据。

处理的问题:预测歌曲发行年代数据集链接

11、人口普查收入数据集

这是一个不平衡的分类问题,也是一个经典的机器学习问题。 我们知道,机器学习被广泛用于解决不平衡的问题,如癌症检测,欺诈检测等。现在是时候亲自上手了。数据集有48842行和14列。你可以通过查看作者的不平衡数据集项目来查看一些指导性信息。

处理的问题:预测美国人口的收入类别问题数据集链接

12、Movie Lens数据集

这个数据集可以让你建立一个推荐引擎。你以前创建过一个吗? 它是数据科学行业中最受欢迎的数据集之一。它有各种不同的规模。这里作者用了一个相当小的尺寸。它拥有4000个电影中6000个用户的100万个评分。

处理的问题:为用户推荐新电影数据集链接

高级

13、识别数字的数据集

这个数据集允许您研究,分析和识别图像中的元素。 这就是你的相机如何检测你的脸用的技术,也就是使用图像识别技术! 轮到你建立和测试这项技术了。这是一个数字识别问题。这个数据集有28×28大小的7000个图像,大小为31MB。

处理的问题:识别图像的数字数据集链接

14、Yelp数据集

这个数据集是Yelp数据集挑战赛第8轮的一部分。 它包含了近20万张图片,提供了3个2GB的json文件。 这些图片提供了4个国家10个城市的当地企业信息。您需要使用文化趋势,季节性趋势,推断类别,使用文本挖掘,社交图谱挖掘等方式从数据中找到思路。

处理的问题:从图像中寻找灵感数据集链接

15、ImageNet数据集

ImageNet提供了各种各样的问题,包括对象检测,定位,分类和屏幕解析。所有的图像都是免费的。你可以搜索任何类型的图像,并围绕它建立你的项目。截至目前,这个图像引擎拥有14,197,122个多达140GB大小的图像。

处理的问题:根据你下载的数据集情况而定数据集链接

16、KDD杯1999年数据集

我怎么会错过KDD杯的竞赛? 本来就是KDD把数据挖掘竞赛的带到了世界。你不想看看他们以前提供的数据集吗? 我向你保证,这将是一个很丰富的经历。 这些数据构成分类问题。在1.2GB的文件里有4M行和48列。

处理的问题:将一个网络检测分类成好的还是坏的数据集链接

17、芝加哥犯罪数据集

现在每个数据科学家都期待处理大数据集的能力。公司不再喜欢从事样本数据的工作,他们使用完整的数据。这个数据集将为您提供在本地机器上处理大型数据集的经验。问题很简单,但数据管理是关键! 这个数据集有6M个观测值。 这是一个多分类问题。

处理的问题:预测犯罪类型数据集链接

后记

出了以上这些17个数据集外,你应该寻找匹配你技能的数据集。例如,如果你是一个机器学习的初学者,那就避免使用高级数据集。贪多嚼不烂。要关注正确的前进步伐。一旦你完成了2-3个任务之后,你就可以在简历和Github上分享你的成果了。很多招聘人员都会通过Github查看候选者的技能。你不应该做所有的项目,应该根据数据集、领域以及大小选择适合你的。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
干货 | 从菜鸟到老司机,数据科学的17 个必用数据集推荐
模式识别和机器学习、数据挖掘的区别与联系
OCR神器来了!Facebook推出大规模图像文本提取系统Rosetta
主元分析(PCA)理论分析及应用
机器学习算法在自动驾驶领域的应用大盘点
商汤及联合实验室入选论文重点解读|ECCV 2018
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服