近日,谷歌DeepMind在其官方博客上發布了一項名為AlphaGenome的新模型,該模型在預測人類DNA序列中單個變異或突變的影響方面展現出了前所未有的全面性和準確性。據悉,DeepMind計劃通過API預覽版的形式,將這一創新工具提供給科研界。
AlphaGenome是一種全新的人工智能工具,專門設計用于處理長度可達100萬字母的DNA序列,并能預測數千個分子屬性,以揭示基因調控活動的復雜性。該模型的工作原理是通過對比突變序列與未突變序列的預測結果,對遺傳變異或突變的效果進行量化評分。
為了訓練AlphaGenome,DeepMind利用了ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共聯盟提供的數據。這些數據集涵蓋了數百種人類和小鼠細胞類型及組織的基因調控關鍵模式,為模型的訓練提供了堅實的基礎。
在模型架構上,AlphaGenome結合了多種技術。它使用卷積層來識別基因組序列中的短模式,利用變壓器傳遞序列中所有位置的信息,并通過一系列最終層將這些檢測到的模式轉化為對不同調控模式的預測。
AlphaGenome的幾大亮點包括:能夠處理超長序列并做出精細到單個字母分辨率的預測;具備全面的多種模式預測能力;高效地對變異進行評分;以及對剪接接點進行建模,這在同類模型中尚屬首次。
AlphaGenome的預測能力在多個科研領域都具有潛在的應用價值,包括疾病理解、合成生物學和基礎研究等。然而,盡管取得了顯著進步,該模型仍面臨一些挑戰,例如如何準確捕捉遠距離調控元素的影響等。