打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【Python数据挖掘】第四篇
机器学习导论
什么是机器学习
机器学习的种类
代价函数,优化目标
模型泛化能力
模型评估
什么是机器学习
机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
机器学习的种类
监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
半监督学习介于监督学习与无监督学习之间。
增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
代价函数
模型泛化能力
模型评估
Precision (精确度):检索出来的条目(比如:文档、网页等)有多少是准确的
Recall (召回率、查全率):所有准确的条目有多少被检索出来
下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。
相关(Relevant),正类                      无关(NonRelevant),负类
被检索到(Retrieved)
true positives(TP 正类判定为正类 , 分明是A)
false positives(FP 负类判定为正类,"存伪", 分明是B却判断为A)
未被检索到(Not Retrieved)false negatives(FN 正类判定为负类,"去真" ,分明是A却判断为B)true negatives(TN 负类判定为负类 , 分明是B)
其中false positives(存伪)也通常称作误报,false negatives也通常称作漏报!
F-Measure是Precision和Recall加权调和平均:
当参数a=1时,就是最常见的F1了:
很容易理解,F1综合了P和R的结果,当F1较高时则比较说明实验方法比较理想
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?
独家 | 机器学习基础知识梳理,新手必备!(附链接)
机器学习新手必须掌握的知识
闲着学的东西系列-之一
神经网络知识体系总结
从产品经理向人工智能产品经理进阶 | 机器学习必备知识
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服