2019-07-17 15:27:12
預(yù)測二元化基因表達(dá)量的卷積神經(jīng)網(wǎng)絡(luò)模型建立
本報見習(xí)記者 韓揚(yáng)眉
自從作物被馴化以來,培育集抗性強(qiáng)、優(yōu)質(zhì)、高產(chǎn)等性狀為一體的作物品種一直是育種家的夢想。DNA分子結(jié)構(gòu)模型的發(fā)現(xiàn)推動了分子生物學(xué)的發(fā)展,讓育種家們能夠從基因和分子水平上解碼作物的生命秘密,通過調(diào)控基因獲得特定表型,以期培育出最想要的作物品種。
然而,如何調(diào)控作物基因才能培育優(yōu)良品種?如何不用大規(guī)模田間試驗(yàn)就能預(yù)測基因變異后的作物生長狀況?時至今日,這些問題依然困擾著育種學(xué)家們。
近日,中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所副研究員汪海與合作者共同開發(fā)出從基因組DNA序列預(yù)測基因表達(dá)調(diào)控模式的人工神經(jīng)網(wǎng)絡(luò)模型,有望借助人工智能(AI)技術(shù)實(shí)現(xiàn)定向育種。相關(guān)成果發(fā)表在《美國科學(xué)院院刊》上。
從經(jīng)驗(yàn)到精準(zhǔn)定向
育種,從某種意義上來說,是把來自不同種質(zhì)資源的優(yōu)良等位基因聚合起來。
作物育種經(jīng)歷了漫長的改良之路。傳統(tǒng)育種是耕作者對作物表型變異的肉眼觀察,通過主觀判斷選出高產(chǎn)優(yōu)質(zhì)抗性強(qiáng)的育種材料。后來,職業(yè)育種家出現(xiàn),他們根據(jù)對作物遺傳規(guī)律的認(rèn)識,通過預(yù)先設(shè)計(jì)雜交育種試驗(yàn),再從后代中篩選出優(yōu)良栽培品種。
這些方法曾為作物改良、有效解決糧食安全問題作出了巨大的貢獻(xiàn)。但在某種程度上,卻都是基于經(jīng)驗(yàn)和觀察,完全根據(jù)表型對育種材料進(jìn)行選育的“經(jīng)驗(yàn)育種”。科學(xué)家曾“無奈”而又形象地將其形容為“一把尺子一桿秤,用牙咬,用眼瞪”。
“作物表型易受環(huán)境、氣候等因素影響,依賴于經(jīng)驗(yàn)育種效率低,且成本高、田間管理難度大。過去幾十年甚至上百年來,基本是沿用這種方式,并無大的突破。”華南農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院教授王海洋告訴《中國科學(xué)報》。
直到20世紀(jì)50年代,分子生物學(xué)與基因工程的誕生,打開了人類認(rèn)識生命本質(zhì)的大門。作物育種從經(jīng)驗(yàn)育種時代進(jìn)入了分子定向育種時代。這個時期,育種家可在明確基因型的表型效應(yīng)的情況下,有的放矢地把符合預(yù)期要求的基因型進(jìn)行組合。
“找到控制作物最佳性狀的基因,對其進(jìn)行標(biāo)記,在后代中監(jiān)測追蹤,從而有目的地對單一目標(biāo)性狀進(jìn)行基因改良,大大提高了育種效率和精確度。”王海洋說。
然而,伴隨著高通量基因組測序技術(shù)的發(fā)展,越來越多的作物全基因組密碼被解開。在海量的基因組數(shù)據(jù)面前,控制優(yōu)良性狀的基因是哪些?怎樣的基因組合才能產(chǎn)出最優(yōu)的作物品種?上述分子標(biāo)記有效利用與定向育種的先決條件,人們卻不得而知。
汪海表示,明確哪些分子標(biāo)記和哪些性狀相關(guān)聯(lián),需要借助機(jī)器學(xué)習(xí)模型或深度學(xué)習(xí)模型幫助育種家根據(jù)基因型預(yù)測表型。人工智能技術(shù)突破了人的經(jīng)驗(yàn),使作物育種更加精準(zhǔn)而高效。
深度學(xué)習(xí)模型幫助預(yù)測優(yōu)勢品種
機(jī)器學(xué)習(xí)是借助計(jì)算機(jī)算法建立模型并解析數(shù)據(jù),通過不斷學(xué)習(xí)數(shù)據(jù)的自身特征并訓(xùn)練模型,從而實(shí)現(xiàn)對目標(biāo)對象的判斷和預(yù)測。
汪海告訴《中國科學(xué)報》,傳統(tǒng)的基于線性模型的機(jī)器學(xué)習(xí)方法由于不考慮生物學(xué)過程背后的分子機(jī)制,造成模型不會“舉一反三”,在某個基因上學(xué)習(xí)到的特征不能運(yùn)用到相似分子機(jī)制的基因,而且不能有效預(yù)測低頻、罕見變異的表型效應(yīng)。以玉米為例,玉米自然群體中就有超過50%的變異屬于低頻、罕見變異。
以基因組序列為預(yù)測變量的深度學(xué)習(xí)模型可以克服這一難點(diǎn)。
研究人員以基因家族代替單個基因?yàn)閱挝浑S機(jī)分配訓(xùn)練集和測試集數(shù)據(jù),以解決“進(jìn)化依賴”造成的模型“過擬合”問題。接著進(jìn)一步利用多種算法對模型進(jìn)行解析,獲得了調(diào)控基因表達(dá)的關(guān)鍵DNA基序。在此模型基礎(chǔ)上,研究人員利用進(jìn)化上親緣關(guān)系較近的兩個物種,成功預(yù)測了同源基因的相對表達(dá)量,并進(jìn)一步獲得了調(diào)控同源基因相對表達(dá)量的關(guān)鍵DNA基序。
汪海表示,深度學(xué)習(xí)模型通過模擬分子生物學(xué)過程,可在自然群體中預(yù)測直接造成表型的因果變異,而非和因果變異緊密連鎖的變異。未來可以針對因果變異進(jìn)行基因組編輯,直接將有利自然變異引入現(xiàn)有的育種材料。
此外,與傳統(tǒng)高投入、大規(guī)模的田間試驗(yàn)相比,人工神經(jīng)網(wǎng)絡(luò)模型可在計(jì)算機(jī)中對基因組DNA序列進(jìn)行虛擬誘變,并利用模型預(yù)測變異的后果。“從而再挑選符合預(yù)期目標(biāo)的變異序列進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)現(xiàn)低成本定點(diǎn)定向設(shè)計(jì)育種。”汪海說。
智能化育種4.0時代
“這是作物優(yōu)良基因挖掘方法的突破,也代表了未來的發(fā)展方向。”中國農(nóng)業(yè)大學(xué)農(nóng)學(xué)與生物技術(shù)學(xué)院植物遺傳育種學(xué)系教授、國家玉米改良中心主任李建生告訴《中國科學(xué)報》。
以人工神經(jīng)網(wǎng)絡(luò)為代表的新一代人工智能技術(shù)具有更強(qiáng)大的數(shù)據(jù)挖掘能力,正推動作物育種走向智能化的“4.0”時代。
中國農(nóng)業(yè)大學(xué)作物基因組與生物信息學(xué)系教授王向峰撰文以玉米為例,對育種“4.0時代”進(jìn)行了詳細(xì)的闡釋:依托人工智能、基因組測序、基因編輯等相關(guān)技術(shù),實(shí)現(xiàn)玉米組學(xué)基因型與表型大數(shù)據(jù)的快速積累,通過遺傳變異等數(shù)據(jù)的整合,實(shí)現(xiàn)作物性狀調(diào)控基因的快速挖掘與表型的精準(zhǔn)預(yù)測,通過人工改造基因元器件與人工合成基因回路,使作物具備新的抗逆、高效等生物學(xué)性狀,并通過在全基因組層面上建立機(jī)器學(xué)習(xí)預(yù)測模型,創(chuàng)建智能組合優(yōu)良等位基因的自然變異、人工變異、數(shù)量性狀位點(diǎn)的育種設(shè)計(jì)方案,最終實(shí)現(xiàn)智能、高效、定向培育新品種。
在人工智能技術(shù)輔助育種方面,美國農(nóng)業(yè)公司已有應(yīng)用。比如原孟山都公司,通過人工智能篩選,只需對最具開發(fā)潛力的品種分子進(jìn)行田間測試,即可幫助農(nóng)民增收。此外,借助機(jī)器學(xué)習(xí)和預(yù)測建模技術(shù),快速為農(nóng)民提供數(shù)字化解決方案。
“中國要實(shí)現(xiàn)應(yīng)用還有一段路程要走。”李建生表示,與國外農(nóng)業(yè)公司種業(yè)集中度高、規(guī)模大相比,中國種業(yè)公司多為“作坊式”生產(chǎn)且分布分散,要實(shí)現(xiàn)高通量的基因篩選與預(yù)測,需要改良適合中國種業(yè)發(fā)展的模型和方法。
在研究方面,汪海坦承,目前,把深度學(xué)習(xí)等人工智能技術(shù)應(yīng)用于基因組學(xué)領(lǐng)域在國內(nèi)外都剛剛起步。
在他看來,阻礙人工智能技術(shù)在基因組學(xué)中廣泛應(yīng)用的因素之一是跨領(lǐng)域人才缺乏。“基因組學(xué)領(lǐng)域的人需要學(xué)習(xí)和掌握人工智能技術(shù)方法,并根據(jù)基因組學(xué)領(lǐng)域問題的特殊性,對人工智能技術(shù)進(jìn)行改造。”
除此之外,訓(xùn)練深度學(xué)習(xí)模型需要大量的數(shù)據(jù)。然而在農(nóng)業(yè)領(lǐng)域,作物的基因型和表型數(shù)據(jù)量卻積累不足。
王海洋建議,研究人員在育種后,除了留下優(yōu)質(zhì)品種數(shù)據(jù),也要保存非理想型品種的全套基因組和表型數(shù)據(jù),以便數(shù)據(jù)建模時進(jìn)行優(yōu)劣比較,找出調(diào)控優(yōu)良表型性狀的基因。
大數(shù)據(jù)時代下智能化育種的前提是標(biāo)準(zhǔn)化大數(shù)據(jù)體系。而農(nóng)業(yè)數(shù)據(jù)采之不易且不統(tǒng)一,王海洋表示,作物表型數(shù)據(jù)差異性較大,不同人采集的數(shù)據(jù)真實(shí)可靠性與準(zhǔn)確性也難以控制。除此之外,彼此數(shù)據(jù)不開放共享,使得研究中可比較的數(shù)據(jù)量少。“有數(shù)據(jù)是第一步。對數(shù)據(jù)進(jìn)行規(guī)范化采集處理、存儲與管理,并建立開放共享的數(shù)據(jù)庫更重要。”