AI让完整生命图谱绘制告别复杂流程
一项发表于最新一期《自然》杂志的研究,为基因组学领域扫清了以往难以解析的“盲区”。由新加坡A*STAR基因组研究所领导的国际团队,开发出一款名为HERRO的AI工具。该工具能显著提升长读长测序数据的准确性,让完整生命图谱绘制告别复杂流程,使高质量的基因组组装变得更为简易和经济,从而推动精准医疗与生物医学研究的发展。
研究团队重点针对牛津纳米孔技术测序仪产生的“单纯形”读段进行优化。这类读段源于单链DNA,虽然能提供长片段序列信息,有助于解析重复DNA、着丝粒等复杂基因组区域,但其固有的错误率较高一直是技术瓶颈。
HERRO利用深度学习算法,能智能识别并校正这些读段中的错误,将其准确性提升最高达100倍。这意味着,人们未来可能仅需依托纳米孔单平台测序,即可获得足以进行完整基因组组装的精准数据,无需再依赖混合多种技术的复杂流程。
HERRO的创新之处在于在大幅提升纳米孔读段精度的同时,能够谨慎地保留源自父母本的两套染色体之间的真实遗传差异。这确保了最终组装出的基因组既高度准确,又完整地反映了生物个体的遗传全貌。这一技术进步使科学家能更全面地绘制基因组图谱,攻克那些用常规方法难以解析的复杂“盲区”。此外,准确性提升有助于更好地检测与遗传病、癌症等相关的重要结构变异。
HERRO通过简化工作流程、降低对DNA起始量的需求,推动基因组学在精准医疗、农业育种、生物多样性保护等领域的规模化应用。结合先进的组装算法,经HERRO校正后的数据能重构出端粒到端粒的完整人类染色体,包括难度较高的X和Y染色体。
团队在多个非人类生物基因组上的测试表明,由此获得的组装质量,与使用更繁琐、成本更高的多技术平台联合方案所得结果相当甚至更优。HERRO也证明了AI能够将超长纳米孔读段的精度,提升到足以绘制高质量完整基因组图谱的水平。
总编辑圈点
获得完整的基因组图谱对于理解生命蓝图至关重要。人类基因组含有逾30亿个DNA碱基对,分布于从父母双方继承的两套染色体中。准确无误地读取这套“说明书”,是探究遗传变异如何影响健康、疾病及生物多样性的基础。然而,当前的挑战在于如何有效区分真实的生物遗传差异与测序过程引入的技术错误。尤其人类是二倍体生物,两套染色体存在大量相似而非相同的区域,若纠错过程过于激进,可能“抹平”这些有生物学意义的天然差异。新AI工具就保护到了染色体间的真实差异,这对于构建复杂区域的准确图谱尤为关键。