打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据处理|数据查重怎么办?去重,就这么办!

本文首发于“生信补给站”公众号,https://mp.weixin.qq.com/s/oxOSaVxQNPDxFDq5Wu9WjQ

更多关于R语言,ggplot2绘图,生信分析的内容,敬请关注小号。

论文查重怎么办? 就那么办!OK!

数据查重怎么办? 就这么办! KO!

数据清洗过程中的典型问题:缺失值、异常值和重复值处理,本次简单介绍一些R处理重复值的用法:

  • 将符合目标的重复行全部删掉;

  • 存在重复的行,根据需求保留一行

一 数据准备

使用GEO数据库的表达数据,抽取一些并稍加处理(为方便展示)

data <- read.csv("A.csv",header=TRUE)

可以明显看到ID_REF存在重复,那要怎么处理呢?

二 一个不留

对于重复的行,一个不留!

1 unique 直接去重

data1 <- unique(data)
data1

简单,直接,可以看到第9行完全重复的已经被删除。

如果我还想去掉ID_REF重复的行,怎么办?

2 duplicated 可选去重

1)删除数据集中完全重复的行,同unique

data2 <- data[!duplicated(data),]

2)选择性删除

A:删除某一列存在重复的行

data2 <- data[!duplicated(data$ID_REF),]  

删除了ID_REF列存在重复的行,搞定!

B:删除某几列重复的行

#等价
data2 <- data[!duplicated(data[,c("ID_REF","GSM74876")]),]
data2 <- data[!duplicated(data[,c(1,3)]),]

删除了ID_REF列和GSM74876列均重复的行,Done!

三 择”优“录取

存在重复,但是不想完全删除,根据数据处理的目的保留一行。

1 aggregate函数

A : ID_REF重复行,保留其均值

data3 <- aggregate( . ~ ID_REF,data=data, mean)

B: ID_REF重复行,保留其最大值

data3 <- aggregate( . ~ ID_REF,data=data, max)

2 dplyr函数

A : ID_REF重复行,保留其均值,同aggregate函数结果一致。

library(dplyr)
data4 <- data %>% group_by(ID_REF) %>% summarise_all(mean)

四 芯片表达数据去重

芯片表达数据中,会存在一个基因多个探针的情况,此处选择在所有样本中表达量之和最大的探针。

library(tibble)
data5 <- data %>%
#计算每个探针(行)的表达量均值
mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>%
#表达量均值从大到小排序
arrange(desc(rowMean)) %>%
# 选择第一个,即为表达量最大值
distinct(ID_REF,.keep_all = T) %>%
#去除rowMean这一列
select(-rowMean) %>%
# 将ID_REF列变成行名
column_to_rownames(var = "ID_REF")

好了,常用的数据去重方法先介绍这些,绝对比论文查重简单多了!

◆ ◆ ◆ ◆ ◆

数据分析相关:

R|批量循环处理同一格式文件-csv,txt,excel

R In Action |基本数据管理

数据分析|R-缺失值处理

数据分析|R-异常值处理

数据分析|R-描述性统计

小数据| 描述性统计(Python/R 实现)

数据挖掘|R-相关性分析及检验

数据处理 | R-tidyr包

数据处理|R-dplyr

R|apply,tapply

数据处理|数据框重铸

R|ML_code-入门(1)

R|ML_code-线性回归(2)

R|机器学习入门-多元线性回归(3)

【觉得不错,右下角点个“在看”,期待您的转发,谢谢!】

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
R 中计算数据框中相同ID的均值 标准差 和删除行(记录或者观测)中重复的数据
R语言 删除重复值
(数据科学学习手札07)R在数据框操作上方法的总结(初级篇)
Python pandas处理(提取/删除)DataFrame中的重复行
skr!GEO芯片数据的探针ID转换
像Excel一样使用SQL进行数据分析(2)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服