中國科學家創(chuàng)新DNA存儲算法 讓敦煌壁畫再“活”兩萬年
DNA存儲的敦煌壁畫。天津大學供圖
科幻大片《侏羅紀公園》里講述了這樣一個故事:科學家找到一塊有史前蚊子的琥珀,,從蚊子血中獲得了恐龍的基因,,從而讓已滅絕了6000多萬年的恐龍復(fù)活。
恐龍的生物信息存儲在DNA中,,若干年后被提取并還原出來,。這聽上去似乎有些道理,卻也讓人倒吸一口涼氣,。
最近,,天津大學一項研究成果讓人們離想象又近了一些。該校合成生物學團隊將10幅精選敦煌壁畫存入DNA中,并通過加速老化等實驗,,發(fā)現(xiàn)這些壁畫信息在常溫下可保存千年,,在9.4℃下可保存兩萬年。
“如果在合適的溫度等條件下,,保存千萬年也是可以的,。”中國科學院院士、天津大學副校長元英進說,。
小小的DNA卻擁有驚人的存儲容量
人類文明進化史,,也是一部信息存儲技術(shù)發(fā)展史。
從結(jié)繩記事,、倉頡造字到磁帶,、硬盤等現(xiàn)代磁光電存儲技術(shù),數(shù)據(jù)存儲幫助人類延續(xù)了思想,,記錄下燦爛文明,。造紙與印刷術(shù)的發(fā)明,讓人類能夠存儲的數(shù)據(jù)量在幾百年內(nèi)獲得了大約5個數(shù)量級的提升,。到了計算機時代,,人類產(chǎn)生的數(shù)據(jù)呈爆發(fā)式增長。
“全世界都在建數(shù)據(jù)中心,,而數(shù)據(jù)中心的能耗是驚人的,。”元英進說。人們一直在不斷尋找更海量,、更穩(wěn)定,、更安全的存儲方式。
大自然鬼斧神工的絕妙之處就在于此——最好的存儲器或許就藏身于生命體之中,。
自地球上出現(xiàn)生命以來,,大自然一直用DNA來存儲信息,至今已有30多億年,。人類的五官在臉上如何擺放,,體內(nèi)的蛋白怎樣合成,眼睛是什么顏色……諸如此類紛繁復(fù)雜的人類基因組信息,,都記錄在比細胞還小得多的DNA上,,一代代沿用至今。
不同于各種人造存儲設(shè)備,,DNA極其精巧卻又如此經(jīng)久耐用,,它存儲了億萬年來無數(shù)生物的遺傳信息,造就生命繁衍,、進化演化及生物多樣性,。
那么,,假如把海量的信息,像存入U盤,、硬盤一樣,,“寫”到小小的DNA上,豈不是一舉多得,?事實上,,當人類發(fā)現(xiàn)DNA的雙螺旋結(jié)構(gòu)后,美俄科學家就先后提出了用DNA存儲數(shù)字信息的概念,。
元英進解釋說,,DNA存儲相較于磁、光,、電等常規(guī)的信息存儲介質(zhì)有3個最顯著的優(yōu)勢,。其中最大的優(yōu)勢在于存儲密度高。目前,,天津大學研究團隊將部分經(jīng)典視頻片段存儲在DNA中,,已實現(xiàn)了體積存儲密度比普通硬盤高出6個數(shù)量級。
與此同時,,存儲的信息可用時間非常長,。此次研究者將10幅敦煌壁畫信息存儲在DNA中,結(jié)合創(chuàng)新的算法,,可以實現(xiàn)DNA分子在室溫下保存超過千年,,在9.4℃條件下保存兩萬年。
這樣的長期保存需要的能耗卻很低,。元英進認為,DNA存儲被視為一種極具潛力的存儲技術(shù),,已經(jīng)成為應(yīng)對數(shù)據(jù)存儲增長挑戰(zhàn)的新機遇,。
DNA存儲技術(shù)概念圖。天津大學供圖
壁畫“變身”DNA需要幾步
DNA信息存儲的原理共分兩步——信息寫入和信息讀取,。
這個過程實際上跨越了極難逾越的鴻溝:它打破了有機與無機的界限,,連起生命和信息兩大系統(tǒng)。
DNA是脫氧核糖核酸的縮寫,,含有“A”“T”“C”“G”四種堿基,。如果用數(shù)字中的0、1,、2,、3分別代表一個堿基,就組成了一個四進制的存儲方式,,類似于計算機采用的0和1二進制代碼,。
通過編碼轉(zhuǎn)化,,“堿基四進制”和“計算機二進制”就可以實現(xiàn)“對話”。天津大學合成生物學前沿科學中心博士生韓明哲解釋說,,壁畫的數(shù)字圖像本質(zhì)上就是二進制的比特串,,“我們通過編碼將這些二進制的比特串,轉(zhuǎn)化為四進制的ATGC堿基序列,,再通過DNA合成技術(shù)將堿基序列寫入DNA中,,壁畫的數(shù)據(jù)圖像就‘變’為DNA了。”
此前,,該團隊成功在釀酒酵母中合成了一條額外的人工染色體,,并在上面存儲了兩張圖片及一段視頻信息,將其稱之為“酵母CD”,。隨著酵母的不斷繁殖擴增,,數(shù)字信息也隨之廉價且穩(wěn)定地復(fù)制。
“我們傳代培養(yǎng)酵母到100代,,依然可以完美地恢復(fù)出原始數(shù)據(jù),。”元英進說,假如腦洞更大一點,,將信息存儲到一棵樹中,,隨著樹生長千百年,人類的子孫后代都可以隨時從這棵樹中讀取到千百年前存儲的信息,。
這一次,,這支年輕團隊的創(chuàng)新之處在于,能實現(xiàn)更惡劣條件下可靠讀取信息,。韓明哲說,,存了壁畫信息的DNA,本質(zhì)上其實跟天然的DNA沒有什么不同,,同樣也存在長時間存放而產(chǎn)生的斷裂和降解等問題,,影響信息存儲的長期可靠性,這也成為亟待解決的關(guān)鍵科學問題,。
于是,,他們設(shè)計了基于德布萊英圖理論的序列重建算法來解決DNA斷裂等問題,可以從嚴重降解的DNA樣本中,,恢復(fù)原始的信息,。
為了驗證數(shù)據(jù)的長期可靠性,團隊制備了一個沒有任何特殊保護的DNA水溶液樣本,,隨后在70℃的溫度下加速樣本斷裂,、降解長達十周。韓明哲說:“這個過程使得DNA片段80%以上都發(fā)生了斷裂錯誤,,模擬了DNA在自然環(huán)境下千年萬年的降解情形,。”
隨后,,團隊依靠設(shè)計的序列重建算法,依然可以準確組裝并解碼96.4%以上的片段,,再通過一種編碼方式解決了少量片段丟失的問題,,使原始的敦煌壁畫圖片能夠完美恢復(fù)。
DNA存儲走向?qū)嵱没€有多遠
盡管DNA存儲還不被大眾所熟知,,但它正在努力走出實驗室,,“距離實用化并不遙遠。”元英進說,,驚人的數(shù)據(jù)存儲需求是新技術(shù)走向市場的最大推動力,。
據(jù)國際數(shù)據(jù)公司估計,到2025年全球數(shù)據(jù)總量將達到175ZB(1ZB為十萬億億字節(jié)),。到2024年,,全球?qū)⒂?0%的數(shù)字業(yè)務(wù)進行DNA存儲試驗。然而從目前來看,,DNA存儲想要大規(guī)模應(yīng)用,,尤其是在中國實用化還需要突破幾個關(guān)鍵瓶頸。
基于德布萊英圖理論設(shè)計的序列重建算法高效解決DNA斷裂,、降解問題,。天津大學供圖
團隊分析了當前DNA信息存儲面臨的主要挑戰(zhàn)。信息存儲成本高,、信息讀寫速度慢,,以及無法高效對接現(xiàn)有信息系統(tǒng)是三大主要限制因素。
根據(jù)測算,,目前DNA存儲寫入成本相當于20世紀80年代內(nèi)存的存儲成本,,而要達到當前數(shù)據(jù)存儲成本還需要降低7-8個數(shù)量級。
“DNA信息存儲成本在未來有很大下降的潛力,。”韓明哲認為,,今后可以從優(yōu)化合成反應(yīng)、改良芯片結(jié)構(gòu),、替換廉價耗材、優(yōu)化試劑分配量等方面著手,,大幅降低合成成本,。
與此同時,由于信息存儲領(lǐng)域市場規(guī)模巨大,,隨著半導(dǎo)體器件,、微納加工在DNA信息存儲領(lǐng)域的應(yīng)用,該領(lǐng)域的巨大投入將對DNA合成技術(shù)產(chǎn)生重大影響,,DNA合成技術(shù)與裝備快速迭代升級,,也有望使成本快速下降,。
DNA信息存儲的讀取依賴測序技術(shù),與磁,、光,、電等存儲相比,讀取速度較慢,。目前DNA測序儀的讀取速度與硬盤相比,,還存在3-4個數(shù)量級的差距——現(xiàn)有電、磁存儲技術(shù)通常每秒可讀取幾十到幾百兆字節(jié)數(shù)據(jù),。此外,,DNA存儲的標準尚待建立,面臨與現(xiàn)有數(shù)字存儲系統(tǒng)兼容的問題,。
“DNA信息存儲是一個新興的,、多學科深度交叉融合的研究方向。”元英進認為,,DNA存儲在未來極有可能成為龐大冷數(shù)據(jù)存儲的主要存儲介質(zhì),。
所謂冷數(shù)據(jù),就如同檔案館的歷史資料,,需要把海量信息保存好,,但平時又很少去使用。因為這些數(shù)據(jù)需要長期存儲,、耗能又大,,而電子存儲設(shè)備的壽命往往只有十年到幾十年,并需要不斷更新迭代,,難以滿足冷數(shù)據(jù)存儲的需要,。
DNA存儲走向?qū)嵱没悦媾R很多挑戰(zhàn)。元英進認為,,眼下的突破可能還只是冰山一角,,“技術(shù)進步需要十年磨一劍的耐心,還需要一點運氣,。”
(原標題:中國科學家創(chuàng)新DNA存儲算法 讓敦煌壁畫再“活”兩萬年)
【責任編輯:周小妹】
【內(nèi)容審核:曾 琪】
24小時熱聞
相關(guān)閱讀/RELATED READING