菜鸟第一步，跪在数据处：R语言读取数据

1. 温故知坑

实践是学习知识的最好途径。之前我讲的内容都非常非常基础，包括：

（1）什么是R语言？R语言和Rstudio软件的安装，Rstudio的界面介绍；
（2）R语言的基本逻辑，基本数据类型；
（3）ggplot基础绘图；
（4）学习R语言的思路（整理，总结问题）。

通过不断的踩坑，走弯路，我们可以在勤奋的基础上，找一些快速的方法。我们已经不能再像上大学时候一样了，先啃完一本书，学好各种基础知识，然后开始应用。工作之繁忙，生活之琐碎，各种被电子产品占据走的时间。已经很难找出一整块的时间去学习了。

换句话说，没有目的性的理论学习就是耍流氓。怎么讲这么多数据类型，格式，可是我用不着呀？因此，我们调整策略，按照完成project为主线来解说在完成数据分析的过程中，我们需要用的R语言知识。

2. 一个超级简单的project流程

以我之前处理的GEO数据为蓝本，我们详细的介绍每一个数据处理过程，所需要的知识（不仅仅是R语言代码，还有各种背景知识）。

步骤基本上是：导入数据--整理为可以进行分析的形式--差异分析（火山图等）--GO/KEGG注释（各种好看的图）。其中每一个步骤都可以说是好几把辛酸泪。

但素！为了降低炸毛的风险，我自己捏造了一段非常非常小的数据用来做示例。想要跟着我步骤的小伙伴，需要这小小数据，你们可以想办法找到我。

so，今天我们来讲，导入数据！

（1）首先自然是要有数据

数据的来源：A. 自己课题组的各种测序结果，在经过linux的上游分析之后，得到一个表达量和分组的表格（我们也称之为表达矩阵），经过精心整理之后，它大概需要变成这样：

B. 从公共数据库下载：例如GEO、TCGA数据库（知识点：自行去了解这两个数据库），那根据数据库的不同，下载的数据也是有所不同的。GEO数据可以直接通过R语言下载，可以说是非常方便了！

（2）载入数据方式

R语言载入数据的方式如下：

R语言数据的输入：
（1）手打；（2）文本文件txt；（3）Excel；（4）Acess；（5）其他统计软件出来的数据，例如SPSS，SAS；（6）XML数据；（7）网页抓取；（8）Stata；（9）netCDF；（10）HDF5；（11）通过数据库接口下载；（12）通过Stat/Transfer导入数据。

看到这么多会直接炸毛，这么多！没关系，我们又没有期末考，掌握自己所需要的就可以了。

最最最常见的数据就是txt，xls，csv（有点像xls）。

（3）读取Excel文件

step 1-2 新建proj，管理文件，双击打开

我在桌面上新建一个文件夹，叫做“train”。

step 3 将Excel另存为csv文件，而后载入

## 方法一：另存为csv文件之后，以下代码均可以读取数据
data_1<>'train.csv',header = T,sep = ',')
data_2<>'train.csv',header = T,sep = ',')

## 知识点，header= T，sep=',' 是什么意思？
## header= T，字面上的意思就是：有抬头，本文件的抬头（即列名）就是：
> colnames(data_1)
[1] 'ensembl_id' 'control_1' 'control_2' 'control_3' 'experiment_1' 'experiment_2'
[7] 'experiment_3'

## 那什么是sep=',' 你试试看不要这么参数？试试嘛！

step 4 我偏不另存为，我就要读Excel

好的，妥妥的满足你！虽然我不会，但是我去话了小洁大佬，她支的招就是，使用R包 tidyverse

详情请看：如何实现Excel和R语言双剑合璧

# 方法二：我偏不另存为，那就试试tidyverse包
install.packages('tidyverse')
library(tidyverse)  

# 调出帮助文档，学习如何使用该包
?tidyverse

不想看帮助文档学代码的我，发现了一个小妙招：

## 根据R语言的提示，然后就妥妥的学会啦

data_3<>'train.xlsx')

最终三种方式载入的数据都是一样的漂亮~

至于txt文档怎么载入，我想你用到的时候，定会查到的！

3. 还是温故知新的！

其实写这篇推文呢，我才是最大的收获者，为了写得简洁明了，我回去自己看了一下书，然后又请教了小洁，真是妥妥的--温故知不足，求索方知新。大家加油吧！

再说一遍~需要数据的同学要么找到我，要么你自己手打咯~~反正也不多嘛~

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。