打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
什么是数据挖掘?

科技的快速发展和数据的存储技术的快速进步,使得各种行业或组织的数据得以海量积累。但是,从海量的数据当中,提取有用的信息成为了一个难题。在海量数据面前,传统的数据分析工具和方法很无力。由此,数据挖掘技术就登上了历史的舞台。

数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合(图1),从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。希望通过本微信平台向读者传达:什么是数据挖掘?它能够干什么?有哪些数据挖掘技术?怎么应用?


由于各行各业数据的积累,数据挖掘技术应用广泛,如:1. 在交通领域,帮助铁路票价制定、交通流量预测等。2. 在生物学当中,挖掘基因与疾病之间的关系、蛋白质结构预测、代谢途径预测等。3. 在金融行业当中,股票指数追踪、税务稽查等方面有重要运用。4. 在电子商务领域,对顾客行为分析、定向营销、定向广告投放、谁是最有价值的用户、什么产品搭配销售等。可以说,有数据的方法,就有数据挖掘的用武之地。

那数据挖掘过程是什么呢?如图2


数据挖掘的任务主要分为一下四类,如图3:


1.建模预测:用因变量作用目标变量建立模型。分为两类:(1)分类,用于预测离散的目标变量;(2)回归,用于预测连续的目标变量。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来判断病人是否患有某种疾病,可以用于确定顾客是否需要某种产品,预测交通流量。

2.关联分析:用来发现描述数据中强关联特征的模式。所发现的模式通常用特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有用的模式。关联分析的应用包括用户购买商品之间的联系、找出相关功能的基因组、表单预测输出下拉列表如图4


3.聚类分析:发现紧密相关的观测值群组,使得与属于不同簇的观察值相比,同一簇的观察值相互之间尽可能的类似。聚类可用来对相关的顾客分组、给不同功能的基因分组、不同的癌症细胞系分组。

4.异常检测:识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常点检测模型必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式。

参考文章:

《大话数据挖掘》

《数据挖掘导论》

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数据挖掘七种常用的方法汇总
数据挖掘任务类型
数据挖掘常用算法及其在医学大数据研究中的应用
机器学习和数据挖掘技术辅助糖尿病临床决策
作为文科生,我是如何转行数据挖掘工程师的 | 附电信用户实战案例
如何使用数据挖掘方法处理时间序列数据?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服