打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据挖掘工具

分类

根据其适用范围分为专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法时充分考虑了数据、需求的特殊性,并作了优化。通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。

内容

随着机器学习与数据挖掘技术的发展,大数据分析师、数据科学家和商业实践工程师开发了一系列数据挖掘软件。

Weka (Waikato Environment For Knowledge Analysis)

新西兰怀卡托(Waikato)大学开发的系统。该系统用Java 语言开发。在Windows、Linux以及Macintosh 操作系统上都可运行。主要有四种使用方式:Explorer、Knowledge Flow、Experimenter和命令行。Explorer是最容易使用的方式,在图形化界面下以交互式的方式执行所有功能,包括数据的预处理、关联分析、分类、聚类、回归分析以及数据可视化等。执行每种功能时,可通过鼠标选择各种方法、选择或输入参数、单击按钮运行算法,即可查看运行结果。在Explore 方式下,数据一经读入都存放在内存,因此,无法处理大量数据。Experimenter方式是通过Java语言调用各种算法,便于利用各种算法进行比较分析,适合研究时做实验测试。命令行的方式是输入文本命令。Weka提供了文档全面的Java函数和类库,便于开发和扩展新的挖掘算法。Weka是机器学习和数据挖掘领域最适合的入门级别开源软件,广泛应用于课堂教学和常规数据分析和数据挖掘。

LIBSVM

在机器学习领域,支持向量机(support vector machine,SVM)是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。其中,LIBSVM是台湾大学林智仁等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,是全球最受欢迎的SVM软件包之一,不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其他操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(cross validation)的功能。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。

RapidMiner

使用Java开发,可以调用Weka中的数据挖掘算法等组件。使用树状结构来组织各种分析组件。其用户遍布四五十个国家。可以通过图形化界面、命令行方式以及Java API 的方式使用其丰富的数据处理、分析以及可视化功能,提供的运算符(operator) 多达500多个。可以访问众多的数据源,如Excel、Accsee、Oracle、IBM DB2、Microsoft SQL Server、Sybase、Ingres、MySQL、Postgres、SPSS、dBase及文本文件等。

KNIME(Konstanz Information Miner)

用Java开发,在Windows、Linux以及Macintosh操作系统上都可以运行。可以调用Weka中的挖掘算法。使用方式类似于Weka中的Knowledge Flow,可通过可视化方式创建数据分析的整个流程。其使用方式也与一些商品化的数据挖掘软件(如IBM SPSS和SAS Enterprise Miner)相似。

Orange

一种基于组件的数据挖掘开源软件。通过各种控件设置挖掘步骤,组成挖掘流程。其底层核心由C++开发,用户可以使用脚本语言Python进行扩展开发。在Windows、Linux以及Macintosh操作系统上都可以运行。提供100多个控件(widget),覆盖了绝大多数数据分析功能,使用简单。提供丰富的数据可视化功能,包括散点图、树、直方图、系统树图、网络以及热点地图(heatmaps)等。Orange的统计分析功能不强,但数据挖掘功能强大,可视化功能丰富。

Tanagra

前身为SIPINA。主要实现有监督的学习算法,如决策树。在此之上,Tanagra增加了许多无监督的学习方法,如聚类、关联分析等。其统计分析功能很强,提供了很多的统计检验、特征提取与构造以及回归分析、因子分析功能。但其可视化功能较弱。

扩展阅读

  • 刘红岩.商务智能方法与应用.北京:清华大学出版社,2013.
  • 袁梅宇.数据挖掘与机器学习 : WEKA应用技术与实践.北京:清华大学出版社,2014.
  • 陈封能, 斯坦巴克, 库马尔范明,等.数据挖掘导论 : Introduction to data mining.北京:人民邮电出版社,2011.
  • 崔静, 赵昕.数据仓库和数据挖掘.北京:清华大学出版社,2006.
  • 威滕, 弗兰克, 霍尔李川,等.数据挖掘 : 实用机器学习工具与技术.北京:机械工业出版社,2014.
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
国内有哪些比较好的数据挖掘工具呢?
分析大数据最需要的Top 10数据挖掘工具
开源的数据挖掘工具
技术应用 | 当前流行教育数据挖掘与学习分析工具概览
机器学习、数据挖掘、统计建模的技术担当,20款免费预测分析软件
大数据分析基本方法
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服