十年前,Illumina基因組測(cè)序技術(shù)進(jìn)入市場(chǎng)時(shí),前所未有的龐大數(shù)據(jù)量淘汰了較早開(kāi)發(fā)的測(cè)序分析工具。
歷史總是重演。如今,第三代測(cè)序技術(shù)已經(jīng)達(dá)到低成本群體測(cè)序規(guī)模的臨界點(diǎn)。
英國(guó)時(shí)間12月9日,《自然—方法學(xué)》在線發(fā)表了第一個(gè)能夠跟上基因組測(cè)序產(chǎn)生速度的組裝算法。
這篇論文只有兩位作者,他們是中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)基因組研究所阮玨博士與美國(guó)哈佛大學(xué)醫(yī)學(xué)院李恒博士。這個(gè)新的第三代測(cè)序數(shù)據(jù)組裝算法被他們稱為Wtdbg。
三代測(cè)序的尷尬
20年前,破譯人類(lèi)遺傳密碼還是極具挑戰(zhàn)的大科學(xué)工程,當(dāng)時(shí)的人類(lèi)基因組測(cè)序計(jì)劃與曼哈頓原子彈計(jì)劃、阿波羅計(jì)劃并稱為三大科學(xué)計(jì)劃。
如今,完成一個(gè)人的全基因組測(cè)序已經(jīng)是普通實(shí)驗(yàn)室甚至家庭都可以負(fù)擔(dān)起費(fèi)用的“平?!笔虑?。用第三代測(cè)序技術(shù)完成個(gè)體全基因組測(cè)序僅需一天時(shí)間,費(fèi)用也已經(jīng)低于5萬(wàn)元。
2011年,PacBio公司正式宣布三代單分子測(cè)序開(kāi)始商業(yè)化。相比于二代測(cè)序每個(gè)序列的幾百堿基對(duì)測(cè)序讀長(zhǎng),三代測(cè)序的平均讀長(zhǎng)達(dá)到了幾萬(wàn)堿基對(duì),最長(zhǎng)可以達(dá)到數(shù)百萬(wàn)堿基對(duì)。
西北工業(yè)大學(xué)生態(tài)環(huán)境學(xué)院教授邱強(qiáng)告訴《中國(guó)科學(xué)報(bào)》,這一技術(shù)出現(xiàn)時(shí),科研人員期待利用它填補(bǔ)基因組序列中高重復(fù)高雜合的區(qū)域,挑戰(zhàn)高難度的基因組。然而,人們迅速發(fā)現(xiàn),這一新技術(shù)的普及和應(yīng)用遇到了很大的困難。
“這主要由兩個(gè)原因所導(dǎo)致。第一,三代測(cè)序的成本在初期要遠(yuǎn)高于二代測(cè)序;第二,由于三代測(cè)序錯(cuò)誤率較高,此前用于第二代基因組測(cè)序的組裝方法紛紛失效,缺乏有效率的組裝工具,特別是PacBio官方推出的falcon方法,消耗資源極多?!鼻駨?qiáng)介紹,數(shù)年后,Ont公司推出納米孔測(cè)序技術(shù),市場(chǎng)競(jìng)爭(zhēng)逐漸拉低了第三代測(cè)序的成本。而在基因組組裝方面,盡管已經(jīng)出現(xiàn)了canu、marvel等多個(gè)組裝軟件,“但組裝仍然是一個(gè)十分費(fèi)時(shí)費(fèi)力的過(guò)程,一個(gè)哺乳動(dòng)物基因組的組裝時(shí)間要以數(shù)周來(lái)計(jì)算”。
以人類(lèi)基因組組裝為例,在2014年需要消耗50萬(wàn)個(gè)CPU小時(shí),只能在超大計(jì)算機(jī)集群上進(jìn)行?!斑@種情況下,同時(shí)對(duì)大量個(gè)體進(jìn)行組裝分析是難以想象的。”但現(xiàn)實(shí)是,“以全基因組組裝方式對(duì)群體進(jìn)行測(cè)序分析已經(jīng)成為生物醫(yī)學(xué)研究的趨勢(shì)”,阮玨說(shuō)。
首次:數(shù)據(jù)分析比數(shù)據(jù)產(chǎn)生更快
“wtdbg和即將推出的工具可能會(huì)從根本上改變當(dāng)前測(cè)序數(shù)據(jù)分析的實(shí)踐?!比瞰k在接受《中國(guó)科學(xué)報(bào)》采訪時(shí)說(shuō)。
此前,“數(shù)據(jù)產(chǎn)出速度遠(yuǎn)高于數(shù)據(jù)分析速度?!币虼?,近年來(lái),生物信息學(xué)領(lǐng)域的科學(xué)家群體致力于改變這種尷尬狀況,不斷開(kāi)發(fā)出更高效的組裝分析算法。
例如,繼falcon、canu等算法之后,2019年4月,美國(guó)加利福尼亞大學(xué)圣地亞哥分校NIH計(jì)算質(zhì)譜中心主任Pavel A. Pevzner在《自然—生物技術(shù)》上發(fā)表了Flye算法,其速度遠(yuǎn)高于falcon、canu。
而阮玨和李恒正式發(fā)表的第三代測(cè)序數(shù)據(jù)組裝算法wtdbg,比之Flye算法,分析速度提升了5倍,也首次讓數(shù)據(jù)分析時(shí)間少于數(shù)據(jù)產(chǎn)出時(shí)間。
西北工業(yè)大學(xué)生態(tài)環(huán)境學(xué)院的科學(xué)家已經(jīng)用wtdbg組裝了十多個(gè)哺乳動(dòng)物基因組。西北工業(yè)大學(xué)教授陳壘在接受《中國(guó)科學(xué)報(bào)》采訪時(shí)說(shuō):“我們用過(guò)falcon和canu等組裝方法,相比較而言,wtdbg組裝運(yùn)算時(shí)間最快,占用資源少,能節(jié)省大量時(shí)間。組裝出的基因組連續(xù)性很高,組裝質(zhì)量均符合現(xiàn)在主流的基因組評(píng)估。”特別是,對(duì)超大型基因組的組裝,wtdbg應(yīng)該是目前為數(shù)不多的可以高效使用的組裝軟件。
“對(duì)于人類(lèi)基因組數(shù)據(jù),wtdbg比已發(fā)布的工具快幾十倍,同時(shí)實(shí)現(xiàn)了相當(dāng)?shù)倪B續(xù)性和準(zhǔn)確性。它代表了算法上的重大進(jìn)步,并為將來(lái)群體規(guī)模的組裝分析鋪平道路”阮玨說(shuō)。
模糊布魯因圖問(wèn)世
上世紀(jì)90年代,Pavel A. Pevzner將德布魯因圖(de Bruijn Graph)引入了基因組組裝領(lǐng)域。阮玨介紹,由于第二代測(cè)序錯(cuò)誤率低,大部分短串(k-mer)是正確的,相同的短串間可以利用德布魯因圖的原理合并起來(lái)構(gòu)成組裝圖。
但三代測(cè)序數(shù)據(jù)的錯(cuò)誤率非常高,如果還是使用短串k-mer的話,大部分短串帶有測(cè)序錯(cuò)誤,不可以合并起來(lái)。因此,德布魯因圖從未成功應(yīng)用在第三代測(cè)序數(shù)據(jù)。
突破性的方法基于突破性的理論基礎(chǔ)。
2013年開(kāi)始,阮玨和李恒著手解決三代測(cè)序組裝的問(wèn)題,分別開(kāi)發(fā)的SMARTdenovo和Miniasm在領(lǐng)域內(nèi)均有較好的表現(xiàn)。隨后在德布魯因圖基礎(chǔ)上,設(shè)計(jì)出一個(gè)新的組裝圖理論——模糊布魯因圖(Fuzzy Bruijn Graph)。他們重新定義了“短串”,將測(cè)序數(shù)據(jù)切分為固定長(zhǎng)度的新型短串k-bin,k-bin比k-mer的長(zhǎng)度更長(zhǎng),“新設(shè)計(jì)的模糊布魯因圖能夠容忍高噪音數(shù)據(jù),并隨后對(duì)生成組裝圖與恢復(fù)基因組序列做了大量相應(yīng)的重構(gòu),使其兼具高效率和高容錯(cuò)的優(yōu)點(diǎn)”阮玨說(shuō)。
“一般軟件組裝第三代測(cè)序數(shù)據(jù)的思路是,先對(duì)測(cè)序數(shù)據(jù)進(jìn)行比對(duì)糾錯(cuò),再進(jìn)行基因組序列的構(gòu)建?!鼻駨?qiáng)說(shuō),wtdbg則直接進(jìn)行基因組組裝,避免了需要提前糾錯(cuò)的耗時(shí)步驟,直接得到一個(gè)相對(duì)可靠的組裝結(jié)果。
“組裝費(fèi)時(shí)費(fèi)力這一問(wèn)題的真正改善,正是由阮玨和李恒所研發(fā)的wtdbg算法開(kāi)始”邱強(qiáng)說(shuō)。在他們的課題組中,wtdbg算法得到了廣泛使用,極大提高工作效率。不僅如此,他們還與阮玨進(jìn)行了深入溝通,對(duì)超大基因組組裝進(jìn)行了優(yōu)化,“我們得以獲取基因組大小40G左右的高質(zhì)量基因組序列”。
公眾參與下的技術(shù)改進(jìn)
2016年,為了讓基因組測(cè)序領(lǐng)域可以及時(shí)使用新技術(shù),阮玨和李恒將wtdbg研究成果對(duì)所有人免費(fèi)開(kāi)放使用。
3年來(lái),wtdbg不僅被幾十篇學(xué)術(shù)論文引用,還被國(guó)內(nèi)多家基因組測(cè)序分析公司作為主要組裝分析工具,并且在2019年世界大學(xué)生超算競(jìng)賽中做為性能測(cè)試賽題。
“我們通過(guò)郵件、GitHub網(wǎng)站等方式收到大量反饋,這些反饋不僅幫助我們修訂算法軟件中的漏洞,還給我們帶來(lái)新的想法和思路。換個(gè)角度來(lái)講,現(xiàn)在發(fā)表的論文已經(jīng)經(jīng)歷了3年多的‘公眾審稿’,感謝多年來(lái)參與和關(guān)注wtdbg開(kāi)發(fā)的同行。”阮玨說(shuō)。
邱強(qiáng)認(rèn)為,wtdbg算法不僅相對(duì)于更早的falcon、canu等算法具有效率和準(zhǔn)確性的優(yōu)勢(shì),相比此后出現(xiàn)的flye等組裝算法也具有更好的可靠性。“這一研究成果代表我國(guó)在基因組算法領(lǐng)域具有不輸于國(guó)際甚至引領(lǐng)國(guó)際的實(shí)力,也代表了我國(guó)科技發(fā)展的軟實(shí)力”。
現(xiàn)在,科學(xué)家們可以使用全基因組組裝的方式,對(duì)大群體開(kāi)展研究了。
相關(guān)論文信息:https://doi.org/10.1038/s41592-019-0669-3