科技日報北京8月6日電 (記者張佳欣)DNA包含了維持生命所需的基礎信息。理解這些信息是如何存儲和組織的,一直是20世紀最大的科學挑戰之一。現在,借助GROVER這一基于人類DNA訓練的新型大型語言模型,研究人員有望解碼基因組中隱藏的復雜信息。GROVER由德國德累斯頓工業大學生物技術中心開發,它將人類DNA視為文本,通過學習其規則和上下文來提取DNA序列的功能信息。這一新工具有望徹底改變基因組學并加速個性化醫療的發展。相關研究論文發表在新一期《自然·機器智能》雜志上。
基于DNA序列訓練的大型語言模型(藝術圖)。
圖片來源:物理學家組織網
大型語言模型通過文本訓練,發展出了在多種語境下使用語言的能力。研究人員設想將生命代碼DNA當作一種語言,訓練了一個大型語言模型——GROVER。
在語言方面,人們談論的是語法、句法和語義。而對于DNA來說,這意味著學習核苷酸的序列等。就像GPT模型學習人類語言一樣,GROVER基本上學會了DNA“語言”。
研究表明,GROVER不僅能準確地預測接下來的DNA序列,還可用來提取具有生物學意義的上下文信息,例如識別DNA上的基因啟動子或蛋白質結合位點。此外,GROVER還學習了“表觀遺傳”過程,即在DNA序列不發生改變的情況下,基因表達的可遺傳變化。
GROVER有望解鎖DNA中蘊含著關于人類本質、疾病易感性以及對治療反應的關鍵信息。研究人員相信,通過語言模型理解DNA的規則,將有助于揭示隱藏在DNA中的生物意義,從而推動基因組學和個性化醫學發展。
化學是一門研究物質組成、結構、性質與變化規律的學科,其發展史是人類突破自然表象、揭示物質本質的歷史。從古代煉金術士對“點石成金”的癡迷,到現代科學家操控原子合成新物質,在好奇心的驅動下,人類正不斷向著......
一、文件制訂背景近年來,黨中央、國務院高度重視人工智能發展,2025年8月國務院印發《關于深入實施“人工智能+”行動的意見》(國發〔2025〕11號),要求探索推廣人人可享的高水平居民健康助手,有序推......
國家衛生健康委辦公廳、國家發展改革委辦公廳等五部門發布關于促進和規范“人工智能+醫療衛生”應用發展的實施意見通知。國衛辦規劃發〔2025〕30號各省、自治區、直轄市及新疆生產建設兵團衛生健康委、發展改......
10月31日,中國科學院第四屆職工技能大賽人工智能領域比賽決賽在中國科學院自動化研究所成功舉辦。院直屬機關黨委常務副書記、院工會主席房自正,院直屬機關黨委副書記、院工會常務副主席楊旭,自動化研究所所長......
工業和信息化部黨組書記、部長李樂成在《黨建》雜志發表署名文章《加快推進人工智能賦能新型工業化》。文章指出,“面對新一代人工智能技術快速演進的新形勢,要充分發揮新型舉國體制優勢,堅持自立自強,突出應用導......
2025年世界科技與發展論壇雖已落下帷幕,“人工智能促進科技與發展”的主題仍在全球科技界激蕩回響。在業界看來,這場論壇不僅展現了中國智造的技術硬實力,更清晰傳遞出一個核心信號:“開放合作”的包容姿態與......
近日,由中國科學技術協會主辦的2025年世界科技與發展論壇在北京舉行。作為中國科協“開放合作月”重要活動之一,本屆論壇以“人工智能促進科技與發展”為主題,圍繞人工智能與未來產業、開放科學與全球合作等四......
近日,記者從清華大學丘成桐數學科學中心獲悉,該中心副教授周源與清華大學智能產業研究院、電子工程系副教授馬劍竹合作,提出了一個可從觀測數據中自動推導出空間物理規律的神經符號模型——PhyE2E(Phys......
關于發布新一代人工智能國家科技重大專項2025年度第一批項目申報指南的通知各有關單位:為加快實施新一代人工智能國家科技重大專項(以下簡稱“重大專項”),根據重大專項階段性實施計劃部署,現將2025年度......
1812年,法國皇帝拿破侖一世從俄羅斯莫斯科撤退時,其大部分軍隊因饑餓、疾病和寒冷的冬天而損失殆盡。如今,對這撤退途中喪生的30萬士兵的部分遺骸的DNA的分析發現,兩種未曾預料到的細菌性疾病很可能增加......