打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
菜鸟第一步,跪在数据处:R语言读取数据

1. 温故知坑

实践是学习知识的最好途径。之前我讲的内容都非常非常基础,包括:

(1)什么是R语言?R语言和Rstudio软件的安装,Rstudio的界面介绍;
(2)R语言的基本逻辑,基本数据类型;
(3)ggplot基础绘图;
(4)学习R语言的思路(整理,总结问题)。

通过不断的踩坑,走弯路,我们可以在勤奋的基础上,找一些快速的方法。我们已经不能再像上大学时候一样了,先啃完一本书,学好各种基础知识,然后开始应用。工作之繁忙,生活之琐碎,各种被电子产品占据走的时间。已经很难找出一整块的时间去学习了。

换句话说,没有目的性的理论学习就是耍流氓。怎么讲这么多数据类型,格式,可是我用不着呀?因此,我们调整策略,按照完成project为主线来解说在完成数据分析的过程中,我们需要用的R语言知识。

2. 一个超级简单的project流程

以我之前处理的GEO数据为蓝本,我们详细的介绍每一个数据处理过程,所需要的知识(不仅仅是R语言代码,还有各种背景知识)。

步骤基本上是:导入数据--整理为可以进行分析的形式--差异分析(火山图等)--GO/KEGG注释(各种好看的图)。其中每一个步骤都可以说是好几把辛酸泪。

但素!为了降低炸毛的风险,我自己捏造了一段非常非常小的数据用来做示例。想要跟着我步骤的小伙伴,需要这小小数据,你们可以想办法找到我。

so,今天我们来讲,导入数据!

(1)首先自然是要有数据

数据的来源:A. 自己课题组的各种测序结果,在经过linux的上游分析之后,得到一个表达量和分组的表格(我们也称之为表达矩阵),经过精心整理之后,它大概需要变成这样:

B. 从公共数据库下载:例如GEO、TCGA数据库(知识点:自行去了解这两个数据库),那根据数据库的不同,下载的数据也是有所不同的。GEO数据可以直接通过R语言下载,可以说是非常方便了!

(2)载入数据方式

R语言载入数据的方式如下:

R语言数据的输入:
(1)手打;(2)文本文件txt;(3)Excel;(4)Acess;(5)其他统计软件出来的数据,例如SPSS,SAS;(6)XML数据;(7)网页抓取;(8)Stata;(9)netCDF;(10)HDF5;(11)通过数据库接口下载;(12)通过Stat/Transfer导入数据 。

看到这么多会直接炸毛,这么多!没关系,我们又没有期末考,掌握自己所需要的就可以了。

最最最常见的数据就是txt,xls,csv(有点像xls)。

(3)读取Excel文件

step 1-2  新建proj,管理文件,双击打开

我在桌面上新建一个文件夹,叫做“train”。


step 3 将Excel另存为csv文件,而后载入
## 方法一:另存为csv文件之后,以下代码均可以读取数据
data_1<>'train.csv',header = T,sep = ',')
data_2<>'train.csv',header = T,sep = ',')

## 知识点,header= T,sep=',' 是什么意思?
## header= T,字面上的意思就是:有抬头,本文件的抬头(即列名)就是:
> colnames(data_1)
[1'ensembl_id' 'control_1' 'control_2' 'control_3' 'experiment_1' 'experiment_2'
[7'experiment_3'

## 那什么是sep=',' 你试试看不要这么参数?试试嘛!
step 4 我偏不另存为,我就要读Excel

好的,妥妥的满足你!虽然我不会,但是我去话了小洁大佬,她支的招就是,使用R包  tidyverse

详情请看:如何实现Excel和R语言双剑合璧

# 方法二:我偏不另存为,那就试试tidyverse包
install.packages('tidyverse')
library(tidyverse)  

# 调出帮助文档,学习如何使用该包
?tidyverse

不想看帮助文档学代码的我,发现了一个小妙招:


## 根据R语言的提示,然后就妥妥的学会啦

data_3<>'train.xlsx')

最终三种方式载入的数据都是一样的漂亮~


至于txt文档怎么载入,我想你用到的时候,定会查到的!

3. 还是温故知新的!

其实写这篇推文呢,我才是最大的收获者,为了写得简洁明了,我回去自己看了一下书,然后又请教了小洁,真是妥妥的--温故知不足,求索方知新。大家加油吧!

再说一遍~需要数据的同学要么找到我,要么你自己手打咯~~反正也不多嘛~


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
初学者使用R语言读取、写出文件(csv/txt/excel/rdata等)的注意事项
数据库并行读取和写入
如何进行GEO临床数据查询
R语言 | 读写txt、csv、excel文件
不了解生信?没关系,手把手教你从GEO数据库里挖掘一个课题!
手把手教你GEO数据库表达谱差异基因分析(下):GEO2R
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服