海洋鱼绿鳍马面鲀基因组组装
以下内容转载自百迈客官方公众号
2020年5月,中国水产科学研究院黄海水产研究所陈四清研究员团队与北京百迈客生物科技有限公司合作完成了首个超高质量的绿鳍马面鲀基因组,相关研究成果发表在知名期刊Molecular Ecology Resources上。本次研究基于纳米孔测序高通量PromethION平台并结合染色体构象捕获技术(Hi-C)完成,组装得到的基因组仅包含242个Contigs,Contig N50高达22.46 Mb,并将99.44%序列挂载到20条染色体上,使得海洋鱼类基因组组装质量大幅提升。

研究背景
占比地球容量71%的海洋中蕴藏着丰富的生物资源,而海洋生物体内多糖和蛋白含量较高,以及部分海洋生物极易死亡腐败从而引起DNA的降解,给高纯度、完整的基因组DNA的获取带来了极大的困难。而海洋生物通常与陆生动植物相比更为复杂,组装拼接的难度更大。
本次研究利用Nanopore测序技术长读长、易组装、跨越重复基因组区域等优势突破了这些瓶颈,完成了海洋鱼类超高质量的基因组组装。
研究方法与结果
研究中使用104X Nanopore测序数据进行基因组组装,通过Canu、WTDBG等多款软件分别进行组装,选取最优的组装结果(主要从基因组大小,contig N50,组装完整性,组装准确性等方面评估)进行后续研究优化。
研究者最终使用WTDBG软件组的基因组版本结合Hi-C技术的进一步优化,最终组装完成474.31 Mb基因组,并将99.44%的基因组挂载至20条染色体上, ContigN50提升至22.46 Mb,且最长的Contig达到32.32 Mb!

Contig N50是衡量基因组组装质量好坏的一个重要指标,一定程度上来说,ContigN50值越高表示组装的质量越好。与已有鲀形目基因组比较,绿鳍马面鲀基因组组装的ContigN50超过了同样使用三代测序进行组装的黄鳍东方鲀(Takifugu flavidus)的5倍,更是超过了翻车鱼(Mola Mola)的1000倍!
表1 鲀形目基因组比较

而与近年的一些鱼类基因组ContigN50相比,绿鳍马面鲀基因组组装的连续性同样也是表现超群。表中不难发现,近年来鱼类基因组ContigN50水平基本在Kb与Mb之间徘徊,而本次使用Nanopore组装的绿鳍马面鲀直接上升了一个数量级,完成了连续性超强的优质基因组。
表2 已发表的鱼类基因组

基因组完整性评估
研究者分别用Racon及Pilon进行两轮及三轮纠错来对WTDBG的组装的基因组进行polish,并对纠错前后基因组的完整性进行了多个方面的评估。
二代reads比对分析
利用bwa软件将二代数据与参考基因组进行比对。结果显示,二代reads双端比对效率为97.41%,表明三代组装基因组完整性较好。
核心基因完整性评估
CEGMA v2.5数据库包含了真核生物458个保守的核心基因。使用CEGMA v2.5来评估最终基因组组装的完整性。在最终版的基因组中,通过序列相似性(Identity > 70%)比对,共找到了458个核心基因中的442个(96.51%)。而在CEGMA v2.5所包含的更加保守的248个序列中,91.13%可以在组装的基因组找到。
BUSCO评估
BUSCO v2中actinopterygii数据库包含了真核生物中的4584个保守的核心基因。我们使用BUSCO v2.0软件来评估基因组组装的完整性。在我们组装的基因中,共找到4,324个完整的BUSCO基因,其中单拷贝的4,213个,多拷贝的有111个;不完整的BUSCO基因有62个;未找到的有198个,BUSCO评估基因组完整度为94.33%(Complete BUSCOs/Total BUSCOs)。
评估结果均显示完整度在94%以上,说明了基因组的整体组装质量非常优异,将对后续的下游分析极为有利,具有无限的开发潜力。

结论
本次案例中的海洋经济鱼——绿鳍马面鲀通过Nanopore平台进行了超长读长的基因组测序,使海洋生物组装指标(contig N50)超越22 Mb!成为了目前为止我们所知的海洋动物N50最高的基因组!同时评估结果也表明,组装的准确度与完整性也非常高。