让大AI模型读懂生命之书
所有版权归中国经济网所有。
中国经济网新媒体矩阵
网络广播视听节目许可证(0107190)(京ICP040090)
尽管人类基因组计划在2003年完成了解码,我们现在有了生命之书,但我们仍然面临着解读的困境。 10月23日,在第20届国际基因组大会上,华大生命科学与江所联合发布了全球首个可扩展百亿参数的通用核心基因组模型Genos,为破译这本“天书”提供了新的钥匙。与国内外同类模型相比,Genos的优势体现在解释能力和执行能力的双重提升。可解释性的提高主要来自于训练数据的扩展。现有的基因组模型主要基于一两个参考基因组,无法反映人类遗传资源的多样性。杰诺整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异计划(HGSVC)等多个权威公共资源,首次使用来自全球的636个高质量“端粒到端粒”人类基因组作为训练数据。这些数据涵盖了世界各地的不同人群,有助于更全面地了解人类遗传多样性,并从源头上提高人工智能解释的质量。实现能力的提升源于算法架构的设计。 Genos采用“混合专家”架构,对协同处理相关的“专家”算法进行精确编程,通过添加数百亿个参数,成功降低了推理成本和资源消耗,解决了大型模型“易用、难实现”的痛点。此外,Genos也是一个开源模型。它是完全开源的,并且在Hug等平台上开放gingFace 和 Moda。提供12亿参数和100亿参数两个版本以满足不同需求。临床试验结果也支持 Genos 的真实能力。 Genos 直接针对临床应用。它在解释已识别的致病变异的任务中的准确度为 92%。与基础科学模型相结合,准确率可达98.3%。多项综合评估表明,Genos 的性能优于现有最好的模型。人类基因组由大约 30 亿个碱基对组成。大规模解释和分析这些数据是大规模人工智能模型的专长。大规模人工智能模型将重塑基因组研究和临床应用的节奏,促进科学研究、临床实践和产业的三个飞跃,具有广阔的发展前景。在科研领域,人工智能可以将“大海捞针”转变为“精准导航”,极大地推动了科学研究的发展。加强寻找疾病致病部位的周期,指导罕见和复杂疾病机制的研究。在临床方面,人工智能将把基因报告从“天书”转变为“说明书”。它自动生成患者可以理解的文本,帮助医生快速完成临床级别的解读。在工业方面,人工智能可以将研发从“试错”转变为“基于设计”的创新,大幅减少不断增加的实验迭代次数,节省新药研发成本。展望未来,进一步开发人类基因组的大规模人工智能模型仍面临三大挑战。首先,必须不断扩大训练数据库,以包含更多的疾病样本和遗传数据,以提高解释复杂疾病的能力。其次,要建立更加完善的制度体系。伦理和安全标准确保模型解释结果的明确临床界限,av避免过度解释和隐私泄露的风险。第三,需要加强跨学科合作,促进AI与临床数据系统、生物实验平台的深度融合,通过“AI预测”反馈迭代+实验验证不断优化模型性能。让AI模型读懂生命之书,将加速精准医疗时代的到来,为健康保障筑起一道坚强的防线。Genos的发布只是一个序幕。 未来,谁能带头完成人类基因组“读、想、写、用”四步闭环,谁就将开启生物经济的下一扇大门。你将能够做到这一点。这需要大家的配合。只有学术界、工业界、政策制定者和公众共同努力,我们才能想象一个更加包容、更加健康、更加文明的未来。 (本文来源:经济日报 作者:佘惠民)
(编辑:王菊盆)