图:pixabay
数据科学家是如今最有吸引力的专家之一,但如果你的简历中没有“项目”这一栏的话,进入这个行业也不是那么容易的。你需要有经验才能得到这份工作,而你只有得到这份工作才能获得经验。这看起来像不像一种恶性循环?
基于此,Statsbot的数据科学家Denis Semenenko写下了这篇文章,可以帮助大家做出你的第一份虽然简单但非常具有说明性的数据科学项目,而这个项目你只要花费不到一个星期的工作时间就可以完成。
这些项目的优势在于它们都是一个全面的数据科学问题。
这意味着你需要制定问题,设计解决方案,查找数据,掌握技术,构建机器学习模型,评估质量,并将其包装成简单的UI。这比Kaggle比赛或Coursera课程更为多样化(当然了,他们也是非常好的)。
如果你想通过使用数据科学项目来为你的简历增添光彩,为大学项目寻找灵感,或仅仅是想在特定的机器学习领域进行练习的话,那我觉得你真的可以从这篇文章中学到不少东西。
垃圾邮件或非垃圾邮件
垃圾邮件存在于任何可能会留下信息的地方。垃圾邮件检测是经典数据科学问题之一。你可以训练一个模型来检测垃圾邮件,垃圾信息和垃圾邮件用户的评论,以便将其隐藏在浏览器中。
机器学习引擎是基于在垃圾邮件中遇到诸如“销售”和“购买”这样的单词的概率来定义垃圾邮件的。因此,你可以在大约一周内的时间里获得AdBlock的工作原型。
ML问题:文本分类
算法:朴素贝叶斯算法,线性分类器,树状分类器,任何你想要的分类器
技术:sklearn,nltk,scrapy
数据:短信垃圾邮件数据集,电子邮件垃圾邮件数据集,YouTube评论垃圾邮件数据集
实现:浏览器扩展
参考文献:AdBlock,Adguard
指南:如何构建简单的垃圾邮件检测机器学习分类器,入门:构建Chrome扩展
Not Hotdog
Not Hotdog是来自硅谷系列的病毒应用程序,它可以识别照片中的热狗和非热狗。
你可以通过使用社交网络或谷歌图像来收集一个数据集(使用主题标签或搜索查询),以便来训练任何你想要的图像分类器。
从头开始训练神经网络是非常麻烦的,因为这需要大量的训练样本和计算时间,因此最好的办法就是使用预训练的网络(这种方法称为迁移学习)。
ML问题:图像识别,图像分类,迁移学习
算法:卷积神经网络
技术:keras,lasagne,Instagram API(或外部数据库,例如Instabot)
数据:使用Instagram API和主题标签来收集数据集
实施:移动app
参考文献:Not Hotdog
指南:使用Keras迁移学习,使用非常少的数据构建强大的图像分类模型
Netflix电影推荐
推荐系统对于像Google或Facebook这样的大型公司来说是非常必要的,因为从收入和参与度(Facebook广告,Youtube推荐)的角度来看的话,推荐系统是有价值的。
对于数据科学家初学者来说,他们能够在数据科学的这个子领域中得到实践,并建立他们的个人电影推荐系统。
插图:movielens.org
ML问题:推荐系统
算法:降维(dimensionality reduction),协同过滤(collaborative filtering),分类算法(classification)
技术:sklearn,vowpal wabbit
数据:Netflix prize 数据集,MovieLens数据集
实施:web应用
参考文献:Jinni,MovieLens
指南:在Python中构建推荐引擎的快速指南
原装Snapchat镜头
如果你善于图形设计,你应该尝试创建自定义的Snapchat镜头。 任何社交网络都有这样的东西—— Instagram、Facebook和Snapchat。
来源:https://support.snapchat.com/en-GB/a/lenses1
镜头检测关键面部点,以显示嘴唇、眼睛、鼻子和脸部的边界。然后,即使您正在移动(例如,使用openCV或任何图形库),ML引擎也可以正确构建面孔。
机器学习问题:图像识别,人脸检测
算法:卷积神经网络,面部关键点检测
技术:dlib,openface,keras,openCV
数据:面部关键点检测数据集
实施:移动应用
参考文献:Snapchat,Instagram
指南:使用dlib,OpenCV和Python的面部地标,构建简单的相机应用程序
Twitter stream
很多公司会在互联网上收集客户的意见,尽快对负面tweets做出反应。 例如,T-Mobile和Verizon需要快速响应负面tweets,并找出问题所在以及如何解决问题。
每个人都可以使用简便的Twitter API和情绪分析算法来使这个项目在整个stream中检测到这样的tweets。
机器学习问题:情绪分析
算法:情绪分析
数据:Twitter API
技术:nltk,spaCy
实施:网络应用
参考文献:Twilert,Tweetreach
指南:使用Python和NLTK的Twitter情感分析
网球betmaker
专业投注者总是寻找有利可图的赌注。由于大量的统计数据,网球是一种很好的预测体育运动,有时庄家会出现失误。
数据科学家可以将具有匹配历史和玩家信息的网站放在一起,构建预测模型,并将结果与博彩公司的评估进行比较。
目标是找出机器学习预测与博彩公司评估之间的差距,从而有机会获胜。这是一个数据科学家面临的特征工程学的问题!
机器学习问题:分类
算法:分类
数据:atpworldtour.com
技术:sklearn,scrapy
实施:网络应用
参考文献:olbg.com,verifiedbets.com
指南:机器学习在职业网球比赛预测中的应用
股价预测
ML的流行应用是时间序列预测。数据科学引擎可以预测汇率和股票,所以交易者或机器人可以根据这些预测进行投资。
如果你选择这个问题,你会发现很容易得到这样的数据并加以实践。这个子域是从计量经济学和经典机器学习得出的,所以你应该准备好探索统计学方法。
ML问题:时间序列预测
算法:ARIMA,回归
技术: sklearn, prophet, scrapy
数据:Quandl
实施:网络应用
参考文献:financeboards.com
指南:使用Python介绍股票市场数据分析
联系客服