打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
一图看懂大数据关键技术(二)

编辑:西和西 校对排版:吴双

高质量的决策必须依赖高质量的数据,而从现实世界中采集到的数据大多是不完整、结构不一致、含噪声的脏数据,无法直接用于数据分析或挖掘。数据预处理就是对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等。这个处理过程可以帮助我们将那些杂乱无章的数据转化为相对单一且便于处理的构型,以达到快速分析处理的目的。

通常数据预处理包含三个部分:数据清理、数据集成、变换以及数据规约。

一、数据清理

并不是所有的数据都是有价值的,有些数据并不是我们所关心的内容,有些甚至是完全错误的干扰项。因此要对数据过滤、去噪,从而提取出有效的数据。

数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。

遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;

噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。

二、数据集成与变换

数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。这一过程中需要着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。

由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的名称。如何更好地对来自多个实体的不同数据进行匹配是如何处理好数据集成的首要问题。

数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中,可以利用皮尔逊积矩Ra,b来衡量数值属性,绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。

数据集成中最后一个重要问题便是数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。

为了更好地对数据源中的数据进行挖掘,数据变换是必然结果。其主要过程有平滑、聚集、数据泛化(使用高层的概念来替换低层或原始数据)、规范化(对数据)以及属性构造等。

三、数据规约

数据规约主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。

假若根据业务需求,从数据仓库中获取了分析所需要的数据,这个数据集可能非常庞大,而在海量数据上进行数据分析和数据挖掘的成本又极高。使用数据规约技术则可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
大数据知识合集之预处理方法
chp7-2
读书笔记
第三章 数据预处理
数据挖掘笔记(三)
数据库设计 Step by Step (8)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服