打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
科研 | Cell:野生大豆与栽培大豆的泛基因组


编译:YQ,编辑:夏甘草、江舜尧。

原创微文,欢迎转发转载。

导读

物种的遗传变异包括插入/缺失变异(PAV)、拷贝数变异(CNV)等,在农作物性状的遗传特性中起重要作用,而泛基因组是研究遗传变异的重要思路,它倾向于构建基因组图形,准确识别基因分型及群体变异。大豆是一种重要的油料和饲料作物,栽培大豆(Glycine max)是从野生大豆(Glycine soja)驯化得来。目前大豆培育超过6万种品种,首个大豆全基因组是Williams 82(Wm82),比较基因组发现野生大豆和栽培大豆有广泛的遗传多样性,不同地理区域的大豆也存在遗传变异,目前中国的两个大豆全基因组是栽培大豆ZH13及野生大豆W05,与Wm82存在大量基因结构变异。

目前研究已利用二代测序构建7种野生大豆的泛基因组,本研究组装26种大豆基因组,利用泛基因组揭示宏观基因变异和基因融合事件,有助于探究农艺性状相关的关键基因。

论文ID

原名:Pan-Genome of Wild and Cultivated Soybeans

译名:野生大豆与栽培大豆的泛基因组

期刊Cell

IF:38.637

发表时间:2020.07

通讯作者:田志喜

通讯作者单位:中国科学院遗传与发育生物学研究所

DOI号:10.1016/j.cell.2020.05.023

实验设计

① 二代测序与系统发育分析。

将2898个样品的二代测序通过参考基因组ZH13拼接,检测基因组内的SNP及Indel,基于SNP构建系统发育树。

② 三代测序。

选择26个代表性大豆样品进行PacBio测序和拼接。鉴定基因组转座子、重复序列、非编码RNA(miRNA、snoRNA、tRNA)。基因注释采用从头注释、同源基因预测、转录组数据库预测相结合。

③ 比较基因组分析。

对26个拼接的全基因组与2个公布的参考基因组进行共线性全基因组比对,鉴定全基因组复制事件;识别SNP和Indel,2次及以上的共线性重复鉴定为拷贝数变异;根据遗传距离构建系统发育。

④ 基因家族分析。

OrthoMCL及BLASTp筛选核心基因(同源基因),并进行基因家族聚类,通过KEGG/GO进行功能注释。

⑤ 转录组分析。

RNA测序数据比对至参考基因组,通过RPKM公式计算基因表达水平,识别基因融合事件(一个基因组中的一个表达基因与另一个基因组的多个表达基因相匹配)。

结果

1、26个大豆品种的全基因组分析

本研究对2898份大豆样品进行高通量测序,包括103种野生大豆、1048种地方品种、1747种栽培品种(图1A)。与参考基因组ZH13比对,共鉴定31870983个SNP。利用SNP进行系统发育分析,将大豆样品分为6个类群,其中野生大豆为一组,栽培大豆分为五组(图1B)。选择26个代表性的样品进行三代测序,包括3种野生大豆、9种地方品种、14种栽培品种,这些品种在育种和生产上有重要价值。26个品种的全基因组大小992.3~1059.8Mb,重复序列占~54.4%,其中多数为长末端重复的转座子(表1)。为注释编码基因和小RNA基因,选择9个品种的根、茎、叶、花、种子进行RNA-seq,平均56522个编码基因、533个miRNA、171个snRNA、439个rRNA(表1)。

图1 2898份大豆样品地理分布、全基因测序、系统发育分析。A:样品的地理分布,紫色(野生大豆),绿色(地方品种),橙色(栽培大豆),蓝色(种质资源总量);B:系统发育树,EU(欧洲),NA(北美洲),JAP(日本),KOR(韩国),RUS(俄罗斯),CHN(中国),SoyW(野生大豆),SoyL(地方品种),SoyC(栽培大豆)。

表1 26个大豆品种的全基因组注释。

2、核心基因与非必需基因

26个大豆基因组的所有基因分为57492个基因家族,核心基因随样品量的增加而减少,在25个样品时趋于平缓(图2A),因此27个基因组足够用于研究泛基因组。20623个基因家族由核心基因组成,28679个基因家族在25-26个基因组存在(软基因),28679个基因家族在2-24个基因组存在(非必需基因),只在1个基因组存在的定义为特有基因(图2B)。在27个基因组中,特有基因比例49.9%,但在单一基因组中仅占19.1%。(图2C-D)。~77.5%的核心基因和72.1%的软基因编码蛋白质,比例比非必需基因和特有基因高(图2E),而非必需基因的核苷酸多态性和正选择作用高于核心基因(图2F)。这表明核心基因相对非必需基因更保守。GO富集分析表明核心基因富集于发育过程、免疫系统、生殖、细胞组成成分、AP2/WD/WRKY/bZIP转录因子,而特有基因富集于非生物/生物响应基因。KEGG富集分析表明核心基因富集于次生代谢产物的生物合成,非必需基因富集于脂肪酸的生物合成和降解。

图2 大豆品种的核心基因组分析。A:核心基因家族随基因组数量的变化;B:27个基因组个体及总体的核心、软、非必需、特有基因家族数量;C:27个基因组在泛基因组中的存在(红色)及缺失(蓝色)情况;D:27个基因组中各类基因数目;E:各类基因中编码蛋白质(红色)的基因比例;F-G:各类基因的核苷酸多态性及dN/dS(正选择作用)。

3、大豆基因组的序列变异

本研究将26个大豆全基因组与Wm82、ZH13、W05进行比对,共鉴定14604953个SNP和12716823个插入/缺失片段。泛基因组比对的SNP比2898份高通量测序比对的SNP少,但分布模式相似(图3A),且核苷酸多态性位点、正选择作用位点也有相似性,证明了27个大豆基因组的代表性。此外,比较基因组发现723862个大片段插入/缺失,27531个拷贝数变异,21886个基因易位,3120个基因倒位。大部分插入/缺失长度1~2kb,易位长度10~30kb,拷贝数变异2~10倍,说明插入/缺失变异是驱动基因组大小变异的主要因素。比如相比SoyW03,ZH13基因组有1.2Mb的缺失片段,直接导致7号染色体SoyW03序列最长,而SoyW02最短。

4、大豆基因组的结构变异

本研究将所有基因组776399个结构变异事件合并为124222个非重复的结构变异,随基因组数量增加,结构变异数越多,但核心基因的结构变异下降且趋于平缓,共有的结构变异包括130个(图3B)。基于结构变异发生的频率,将其分为四类:核心(存在所有基因组),次要(存在26-27个基因组),非必需(存在2-25个基因组),特有(存在于1个基因组),发现野生大豆的特有结构变异比栽培大豆多(图3C)。此外,结构变异倾向于重复序列区域(图3D),同样插入/缺失变异也多为重复区域(图3E),这表明重复序列的变化明显影响基因组差异。随等位基因的基因频率增加,结构变异的数量减少(图3F)。根据2898个高通量测序样品发现3584个新型的结构变异,而野生大豆的结构变异明显多于栽培大豆(图3G)。研究表明种子光泽是大豆的重要性状,大豆的疏水性蛋白积累与种子光泽的变化有关,本研究对种子光泽的全基因组关联分析表明15号染色体存在10kb结构变异与其相关(图3H),变异区域包括疏水蛋白编码基因(图3I)。10kb片段插入的基因组中种子有光泽的比例较高(图3J),说明这一变异是控制大豆种子光泽的主要遗传变异之一。

图3 大豆基因组的遗传变异。A:26个全基因组与2898重测序基因组的遗传变异分布,a(基因密度),b-e(SNP),f(大片段结构变异(红色)和重复序列分布(蓝色));B:结构变异数量随基因组数量的变化;C:26个基因组中各类结构变异的数量及比例;D:基因组重复/非重复区域的结构变异密度;E:重复片段的插入/缺失变异数量;F:等位基因频率与结构变异数的关系;G:野生大豆/栽培大豆的结构变异数量;H-J:全基因组关联分析筛选种子光泽相关的15号染色体变异区域(插入/缺失片段包括疏水蛋白编码基因),及其插入/缺失下的种子有/无光泽的比例。

5、大豆基因组的全基因组复制与基因融合

先前研究表明~1300万年前大豆基因组的50%出现全基因组复制,本研究发现大豆基因组~54%出现全基因组复制,且发生在基因富集区域,重复序列区域较少。26个全基因组的核苷酸多态性在全基因组复制区域明显较低,且复制区域核心基因较多,而非复制区域的结构变异较多,说明基因组重复区域限制基因进化速度,而全基因组复制使整个基因组插入/缺失率下降
泛基因组分析发现,本研究26个大豆基因组有27175个基因出现部分缺失。基因组中2.2%的SNP位于蛋白质编码区,产生了5474个提前终止密码子;3.2%的插入缺失片段出现在编码区,产生385950个移码突变。例如,SoyC13的18号染色体出现16kb片段的缺失,使基因SoyZH13_18G184700缺失;SoyC11的6号染色体出现23kb片段的插入,使基因SoyC10_06G170400、SoyC10_06G170500、SoyC10_06G170600插入。基因融合事件在基因进化中有重要作用,本研究从头拼接的基因组发现,相比ZH13基因组的E3基因(E3-Mi-1),第三个内含子有2.6kb插入片段(E3-Ha-1)和13.3kb缺失片段(E3-tr)(图4A-B)。在2.6kb插入片段中,发现E3基因第三个外显子的G→A碱基突变,第一个外显子的T→-(141)突变,导致移码突变,第一个外显子的T→-(611)和G→-(768)导致提前终止。此外,13.3kb的缺失片段中,导致基因SoyZH13_19G210500的缺失,有趣的是该缺失导致E3和SoyZH13_19G210600基因共转录,且E3转录本增多了一个外显子(图4C)。基于E3和SoyZH13_19G210600设计引物时发现E3-tr株有清晰条带,而未缺失13.3kb株无条带(图4D),证明E3和SoyZH13_19G210600出现基因融合。转录组数据证明E3及其邻近基因SoyZH13_19G210500、SoyZH13_19G210600在ZH13中表达(图4E),未来对融合基因的功能研究将有助于探究基因进化以及物种进化。

图4 大豆E3及邻近基因的遗传变异。A:E3及邻近基因的物理位置;B:E3位点的变异类型;C:一个13.3kb片段缺失将SoyZH13_19G210600与E3基因融合;D:PCR扩增验证SoyZH13_19G210600与E3基因融合,L05/L09/C13/C14属于E3-tr基因型,W02/C12/ZH13属E3-Mi基因型。E:E3及其邻近基因在ZH13中的表达水平。

6、大豆基因组受大豆驯化影响

先前研究表明大豆驯化涉及许多基因位点,本研究构建的泛基因组结构变异能够更清晰地阐明进化过程。种皮色素是大豆驯化过程的重要选择性状,几乎所有野生大豆种皮呈黑色,栽培大豆呈黄色,先前定义I基因座是导致种皮从黑色到无色的重要驯化基因座,该基因座与查尔酮合酶的降解有关。29种大豆中,4种野生大豆和SoyL02种皮呈黑色,其余栽培大豆呈黄色(图5A),根据I位点系统发育分析分为5个类群,黑色种皮品种聚为H1基因型。结构变异分析显示H3、H4、H5基因型含基因倒置和重复序列(图5B)。而在H2基因型中发现一个来自H1的23.4kb序列被拷贝并倒置于基因座末端,H3基因型发生两次基因倒置,H4基因型来源于H3的缺失,H5来源于H3的串联重复序列的拷贝数变异(图5C)。通过遗传距离估计H2与H3在~4500年前形成,H4和H5在~600年前形成。

图5 大豆I基因座的遗传变异。A:基因座的系统发育分析;B:I基因座的结构变异;C:I基因座5个类群的共线性分析。

7、大豆遗传变异对关键基因表达的影响

本研究发现17696个结构变异位于核心基因区域,于是比较结构变异对基因表达的影响。先前研究表明大豆缺铁缺铁萎黄病与14号染色体的数量性状位点相关(图6A),包含一个Fe2+/Zn2+转运蛋白基因(SoyZH13_14G179600)。本研究发现不同基因组中SoyZH13_14G179600的启动子区域有一个1.4kb的插入缺失片段,该片段包括两个等长700bp反向末端重复序列,其结构变异与其它5个多态性位点高度相关,可分为2个类群:Hap-1和Hap-2(图6B),RNA-seq表明Hap-2的表达水平高于Hap-1(图6C)。分析发现Hap-2类群位于高纬度区域,Hap-1类群位于低纬度区域(图6D-F),推测SoyZH13_14G179600基因的遗传变异促进大豆对铁吸收的适应。

图6 Fe吸收相关的数量性状基因的结构变异。A:SoyZH13_14G179600的插入缺失片段;B:SoyZH13_14G179600及其高度相关变异的类群;C:两个类群的SoyZH13_14G179600表达模式,A(根),B(茎),C(嫩叶),D(成熟叶),E(老叶),F(花),G(荚果和种子),H(6周后种子),I(8周后种子);D-E:两个类群的地理分布;F:两个类群的纬度分布。

讨论

对种质遗传多样性的评价及利用是作物改良的关键,而二代测序仅能发现小片段的SNP和插入缺失标记,限制全面精确识别遗传变异和全基因组关联研究。本研究从26个野生和栽培大豆的泛基因组深入研究大豆功能基因,高质量三代测序可识别多种复杂变异,且泛基因组水平可减少错误识别,并结合RNA-seq分析促进功能基因的发掘。本研究发现大豆驯化和改良过程导致了栽培品种的遗传多样性变少,限制了优良品种的选育。创造实验种群对育种必不可少,除了结合双亲基因组的传统育种,巢式关联作图群体和多亲本重组自交系群体是育种发展趋势,而合适的亲本是育种的关键。本研究从全球收集的2898份大豆种质中筛选了27个代表性品种,可作为育种的关键实验群体。因此,泛基因组研究对大豆育种有重要意义。

评论

大豆是一种重要的油料和饲料作物。本研究为获取完整的大豆基因组多样性,收集全球大豆品种,构建完整的泛基因组。本研究从2898份大豆测序样品种选取26份代表性大豆样品进行三代测序。利用基因组比对识别遗传变异,结合RNA-seq进行遗传变异和重要性状位点分析。这一泛基因组资源将促进大豆种质资源和功能基因组研究。



更多推荐

 高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
大豆“走失”的基因“回家”了
平台升级更全面!助力科研赢在起跑线
羊肚菌属群体遗传学和基因组进化的研究进展
芥菜起源的百年之争,揭示了芥菜形态的百变之源,为收集和利用芥菜种质资源提供了指南,为芥菜基因组学研究建立了路线图
为什么人类的尾巴进化掉了,留下来不行吗?
舶来赏析|New Phytologist:小麦-山羊草物种的染色体重建
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服