打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
PRSice-2在windows系统安装教程

PRSice之前写过安装教程,是安装在Linux系统下的:不会安装使用PRSice-2软件就太不讲究了。今天介绍一下在windows下的安装教程。

1. 软件下载

https://choishingwan.github.io/PRSice/

最新版的包括Mac和Linux系统和windows系统,这里我们再Windows系统下演示一下。

「安装包:」

「测试数据:」

「注意,上面数据如果无法下载,可以公众号(育种数据分析之放飞自我)后台回复PRS,获得软件包和测试数据。」

2. 软件安装

本演示,在Windows11系统下进行。

下载好的安装包和测试数据:

解压软件:

3. 命令文件介绍

3.1 PRSice_win64.exe

二进制文件,直接运行即可。核心计算文件,计算PRS。

3.2 PRSice.R

R 脚本文件,主要是绘图可视化,包括bar plot, high-resolution plot和quantile plot

3.3 BESE文件

基础数据文件,这里是GWAS summary的结果。

包括91063个snp结果。

TOY_BASE_GWAS.assoc

数据包括:

  • SNP名称
  • 染色体
  • 物理位置
  • A1,有效的分型,effective allel
  • A2,无效的分型,non-effective allel
  • P,P值
  • OR,OR值

3.4 TARGET文件

测试文件,包括:plink的二进制文件和 对应的表型数据文件:

包括2000个个体。

TOY_TARGET_DATA.bed  TOY_TARGET_DATA.bim  TOY_TARGET_DATA.fam  TOY_TARGET_DATA.pheno

二进制文件包括:bim,bed和fam文件 表型数据文件:

FID IID Pheno
CAS_1 CAS_1 0.687940475297167
CAS_2 CAS_2 -0.156139175886002
CAS_3 CAS_3 -0.690876014335686
CAS_4 CAS_4 -0.147899250768441
CAS_5 CAS_5 -0.66034095162489
CAS_6 CAS_6 0.0438675950151819
CAS_7 CAS_7 -0.472359275893301
CAS_8 CAS_8 1.49482653529014
CAS_9 CAS_9 1.01876296041241

4. windows系统进入cmd终端

在菜单栏中,键入cmd

先测试一下R语言是否安装成功,并且把Rscript放到了环境变量里面:

Rscript

如果显示下面界面,说明已经配置成功:

如果显示找不到Rscript,需要将安装路径的bin文件夹,放到环境变量里面,比如我的安装路径:

C:\Program Files\R\R-4.2.2\bin

右键我的电脑,点击属性:

找到高级系统设置:
找到环境变量:

双击Path,点击新建,将R的bin路径复制进去:

查看帮助文档:

.\PRSice_win64.exe

文档大体分为几个部分:

  • Base file,基础文件,可以根据指定a1,a2,maf,beta,bp,chr,pvalue等信息
  • Target file,目标文件,支持plink二进制文件,可以定义表型,maf质控等
  • Dosage,主要是定义运行的资源配置,比如线程、硬盘、内存等(可以省略)
  • Clumping,主要是质控Clumping参数,有默认值(可以省略)
  • Covariates,定义协变量,包括数字协变量和因子协变量
  • P-value Thresholding,P值的阈值定义
  • PRSet
  • Misc

5. 二分类性状计算

5.1 运行代码

代码:

Rscript PRSice.R --dir . --prsice  PRSice_win64.exe --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T

  • Rscript,是用R语言进行操作
  • --dir,默认是当前路径
  • --prsice,指定PRSice的执行文件
  • --base,是基础数据,这里是GWAS的结果,TOY_BASE_GWAS.assoc
  • --target,这里是plink的二进制文件,前缀名
  • --thread 1,用1个线程
  • --stat OR,这里用的是OR值(二分类性状的OR值,连续性状是Beta值)
  • --binary-target T,用的是二分类性状

5. 运行日志

日志文件:

5.3 运行结果

结果文件:

6. 二分类结果解释

6.1 PRSice.price文件

该文件,主要是根据不同Threshold阈值后,选择的SNP个数(Num_SNP)以及对应的解释度(R2)等信息

Pheno Set Threshold R2 P Coefficient Standard.Error Num_SNP
- Base 0.00025005 0.0133696 8.43169e-06 -0.197266 0.0442903 2
- Base 0.00030005 0.00824473 0.000456434 -0.225204 0.0642503 3
- Base 0.00040005 0.0089725 0.000256089 -0.350267 0.0958035 5
- Base 0.00045005 0.0101339 0.000102845 -0.445497 0.114707 6
- Base 0.00065005 0.00532975 0.004775 -0.402003 0.142462 8
- Base 0.00070005 0.00876654 0.00030122 -0.549246 0.151967 9
- Base 0.00080005 0.00233607 0.061455 -0.369219 0.197422 13
- Base 0.00085005 0.00153157 0.129826 -0.342923 0.226384 15
- Base 0.00095005 0.000124324 0.665873 -0.100725 0.233258 16

6.2 PRSice.best文件

这个文件,是每个个体,计算的PRS值

FID IID In_Regression PRS
CAS_1 CAS_1 Yes -0.00599501328
CAS_2 CAS_2 Yes -0.00631017938
CAS_3 CAS_3 Yes -0.00227495325
CAS_4 CAS_4 Yes -0.00204360007
CAS_5 CAS_5 Yes -0.000830676955
CAS_6 CAS_6 Yes -0.00224943517
CAS_7 CAS_7 Yes -0.000687589983
CAS_8 CAS_8 Yes -0.00413102565
CAS_9 CAS_9 Yes 0.00256661049

6.3 PRSice.summy文件

这个文件,是给出最优模型的结果,比如适合的SNP个数,R2,回归系数,P值等信息。

head PRSice.summary
Phenotype Set Threshold PRS.R2 Full.R2 Null.R2 Prevalence Coefficient Standard.Error P Num_SNP
- Base 0.4463 0.0520082 0.0520082 0 - 86.288 9.96331 4.69368e-18 36759

6.4 PRSice_BARPLOT_*.png

这个柱形图,是应用比较广泛的图,X坐标是不同P值,Y坐标是PRS风险得分的解释百分比(R2),柱形图最高的点表示该模型最优,比如下面图中,在P值为0.4463时,模型最优,解释的百分比是5%左右,P值为4.7e-18,极显著。

6.5 PRSice_HIGH-RES_PLOT_*.png

下图X坐标是不同的P阈值,Y坐标是显著性(-log转化),可以看到最显著的P的阈值是在0.5左右。

7. 软件安装好了

下面就是跑程序了。。。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
使用FUSION进行TWAS分析
从零开始学GWAS之Beagle使用
学员来稿|全基因组关联分析(GWAS)学习笔记分享(三)
iTOL快速绘制颜值最高的进化树!
笔记 | GWAS 操作流程1:下载数据
科研 | Genome Biol.:全球苦荞种质的重测序揭示了多个驯化事件和与农艺性状相关的关键位点(国人佳作)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服