在未來,DNA存儲芯片能否替代傳統(tǒng)存儲硬盤?
我們正處于數(shù)據(jù)爆炸的時代,全球數(shù)據(jù)量呈指數(shù)級增長!國際數(shù)據(jù)機(jī)構(gòu)IDC預(yù)測,2025年,全球數(shù)據(jù)量將達(dá)到175ZB,5年平均復(fù)合增長率8%。1ZB等于1萬億GB,如果175ZB數(shù)據(jù)用容量1GB的移動硬盤來裝,至少需要175萬億個硬盤。
在未來,數(shù)據(jù)存儲問題將成為互聯(lián)網(wǎng)發(fā)展的痛點(diǎn)。為了解決數(shù)據(jù)存儲這一難題,受生物學(xué)的啟發(fā),研究人員瞄準(zhǔn)了人體內(nèi)的DNA。最大的人類染色體含有近2.5億個堿基對,如果每個堿基對上都能存儲數(shù)據(jù),理論上,麻省理工學(xué)院生物工程教授Mark Bathe說,一個裝滿DNA的咖啡杯就可以存儲世界上所有的數(shù)據(jù)。
這樣看來,存儲175ZB的數(shù)據(jù)也就不在話下了。這樣一個前景可觀的新興存儲技術(shù),在今年3月被寫進(jìn)“十四五”規(guī)劃綱要草案中。不僅如此,2021年層出不窮的相關(guān)研究及落地進(jìn)展,令DNA存儲技術(shù)愈發(fā)受到關(guān)注。
例如1月11日,Nature子刊上發(fā)表了哥倫比亞大學(xué)將hello world翻譯成堿基語言錄入大腸桿菌DNA的相關(guān)論文;5月26日,由中科院深圳先進(jìn)技術(shù)研究院孵化的中科碳元成立,專注于推進(jìn)DNA數(shù)據(jù)存儲研發(fā)及商業(yè)化;11月12日,東南大學(xué)劉宏團(tuán)隊將校訓(xùn)“止于至善”寫進(jìn)DNA的論文發(fā)表于Science Advances;11月24日,微軟公布首個納米級DNA存儲寫入器……需要注意的是,廣義上的DNA芯片是基因組學(xué)和遺傳學(xué)研究的工具,指在固相支持物上原位合成寡核苷酸或者直接將大量預(yù)先制備的DNA探針以顯微打印的方式有序地固化于支持物表面,然后與標(biāo)記的樣品雜交。因為其支持物表面常是計算機(jī)芯片,因此稱其為DNA芯片。
DNA芯片類型多樣,包括檢測基因、染色體或用于臨床診斷用的芯片,而其中模仿DNA分子結(jié)構(gòu)進(jìn)行數(shù)據(jù)存儲的是我們今天討論的重點(diǎn),也就是DNA存儲芯片。
01.堿基與二進(jìn)制對應(yīng),人手長的DNA鏈可存儲10億G數(shù)據(jù)
從遠(yuǎn)古石墻上刻的圖案到文字的出現(xiàn),再到最重要的信息載體書籍的產(chǎn)生,我們產(chǎn)生的信息其實并不多。但自從進(jìn)入信息時代,人類在過去50年里記錄的信息已經(jīng)遠(yuǎn)遠(yuǎn)超過過去2000年的信息。我們處在信息爆炸的大數(shù)據(jù)時代,所有互聯(lián)網(wǎng)中的信息都作為數(shù)據(jù)保存下來,從網(wǎng)頁、應(yīng)用程序到安防、衛(wèi)星領(lǐng)域應(yīng)有盡有。
根據(jù)國際數(shù)據(jù)組織IDC的數(shù)據(jù),2013年至2015年全球大數(shù)據(jù)存儲量分別為4.3ZB、6.6ZB、8.6ZB,增速維持在40%左右,而到2016年全球大數(shù)據(jù)存儲量達(dá)到16.1ZB,增長率達(dá)到87.21%。2017年至2019年全球大數(shù)據(jù)存儲量分別為21.6ZB、33ZB、41ZB,2020年全球數(shù)據(jù)量達(dá)到了60ZB。在大數(shù)據(jù)領(lǐng)域不斷發(fā)展的同時,為了滿足海量的數(shù)據(jù)存儲需求,存儲方式也在不斷發(fā)生變化。
▲IDC監(jiān)測2015-2020年全球數(shù)據(jù)量變化趨勢以及2025年預(yù)測
DNA是儲存遺傳信息的載體,攜帶有合成RNA和蛋白質(zhì)所必需的遺傳信息,它可以對生物的所有信息進(jìn)行編碼。上世紀(jì)50年代,就有研究人員發(fā)現(xiàn)了生物特征和人造物體的關(guān)系。DNA分子由四種堿基組成,數(shù)據(jù)由二進(jìn)制0和1組成;DNA用來儲存遺傳信息,數(shù)據(jù)正好需要一個介質(zhì)存儲,由此蘇聯(lián)物理學(xué)家米哈伊爾·薩莫伊洛維奇·內(nèi)曼(Mikhail Samoilovich Neiman)想到,是否可以參考DNA結(jié)構(gòu)來存儲數(shù)據(jù)?
與傳統(tǒng)的存儲介質(zhì)不同,DNA存儲技術(shù)有如下顯著優(yōu)勢。首先是DNA存儲密度高。一個DNA分子可以保留一個物種的全部遺傳信息,最大的人類染色體含有近2.5億個堿基對,那么就意味著一條和人手差不多長的DNA鏈,就可以存儲1EB(1EB=10.74億G)數(shù)據(jù)。
與硬盤和閃存的數(shù)據(jù)存儲密度相比,硬盤存儲每立方厘米約為1013位,閃存存儲約為1016位,而DNA存儲的密度約為1019位。其次是DNA分子存儲具有穩(wěn)定性。今年2月,國際頂級學(xué)術(shù)期刊Nature上的一篇論文稱古生物學(xué)家在西伯利亞東北部的永久凍土層中提取到距今120萬年猛犸象的遺傳物質(zhì),并對其DNA進(jìn)行了解析,這也進(jìn)一步刷新了DNA分子的保存年代紀(jì)錄。
據(jù)悉,DNA至少可保留上百年的數(shù)據(jù),相比之下,硬盤、磁帶的數(shù)據(jù)最多只能保留約10年。最后,DNA存儲維護(hù)成本低。以DNA形式存儲的數(shù)據(jù)易于維護(hù),和傳統(tǒng)的數(shù)據(jù)中心不同,不需要大量的人力、財力投入,僅需要保存在低溫環(huán)境中。在能耗方面,1GB的數(shù)據(jù)硬盤存儲能耗約為0.04W,而DNA存儲的能耗則小于10-10W。
02.低成本擴(kuò)大規(guī)??煞胖脭?shù)百萬個DNA序列
上個世紀(jì)50年代,科學(xué)家已經(jīng)提出創(chuàng)建人造物體與微觀世界的生物特征相似的想法,并且認(rèn)為該人造物體將具有更加廣泛的能力。不到十年,蘇聯(lián)物理學(xué)家米哈伊爾·薩莫伊洛維奇·內(nèi)曼(Mikhail Samoilovich Neiman)就獨(dú)立提出了可以利用DNA和RNA分子來進(jìn)行信息記錄、存儲和檢索的可能性。
DNA進(jìn)行數(shù)據(jù)存儲的應(yīng)用真正開始于1988年,藝術(shù)家喬戴維斯和哈佛大學(xué)的研究人員合作,在大腸桿菌的DNA序列中,將一張代表生命和女性地球的古代日耳曼符文圖片,通過5x7的矩陣存儲到DNA序列中。他們用二進(jìn)制中的1代表圖片中的暗像素,0代表圖片中的亮像素。在之后的研究中,研究人員提出了多種DNA存儲的編碼方式。
2011年,研究團(tuán)隊對一本659KB的書籍進(jìn)行編碼,通過一對一對應(yīng),由腺嘌呤或胞嘧啶表示二進(jìn)制中的0,鳥嘌呤或胸腺嘧啶表示1。然而,最后研究人員檢查數(shù)據(jù)存儲結(jié)果時發(fā)現(xiàn),在DNA中出現(xiàn)了22個錯誤。這種一一對應(yīng)的編碼方式的精度較低。DNA是由四種堿基結(jié)合成堿基對,并組成螺旋結(jié)構(gòu)。四種堿基分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C),然后依據(jù)堿基互補(bǔ)配對原則,來排列DNA分子儲存遺傳信息。這四個代碼也為DNA存儲芯片提供了一個合適的編碼環(huán)境。
▲DNA分子結(jié)構(gòu)示意圖
DNA存儲技術(shù)包括信息編碼、存儲、檢索、解碼四個步驟。在計算機(jī)中,數(shù)據(jù)存儲需要用二進(jìn)制0和1來表示,使用DNA來存儲數(shù)據(jù)首先需要將0和1轉(zhuǎn)化為DNA中的四個堿基A、C、T、G,創(chuàng)建具有正確堿基序列的DNA螺旋結(jié)構(gòu)。合成DNA后在體內(nèi)或體外進(jìn)行存儲。
在解碼時,DNA測序儀會轉(zhuǎn)錄該DNA結(jié)構(gòu)中的堿基序列,通過解碼軟件將其轉(zhuǎn)化為0和1,還原數(shù)據(jù)信息。2012年,哈佛大學(xué)的研究團(tuán)隊證實,DNA可以作為一種和硬盤驅(qū)動器、磁帶類似的存儲介質(zhì)。他們通過DNA對數(shù)字信息進(jìn)行編碼,包括53400字節(jié)的HTML草稿,11張JPG圖片和一個JavaScript程序,利用位與堿基一對一映射,但這種方式會使得相同堿基長時間運(yùn)行,測序過程容易出錯。
這種簡單的一對一編碼形式,在2013年得到了突破。歐洲生物信息學(xué)研究所(EBI)的研究人員在論文中稱,他們已經(jīng)實現(xiàn)了超過500萬位數(shù)據(jù)的存儲、檢索和復(fù)制,并且所有DNA文件都以99.99%到100%的準(zhǔn)確度再現(xiàn)了信息。在編碼過程中,研究小組加入了糾錯編碼方案,并采用了可通過序列識別的重疊短寡核苷酸的編碼方式。此后,哥倫比亞大學(xué)、華盛頓大學(xué)、帝國理工學(xué)院等研究團(tuán)隊都開展了一系列研究。
為了證明DNA編碼數(shù)據(jù)的長期穩(wěn)定性,2015年2月4日,蘇黎世聯(lián)邦理工學(xué)院的研究人員在國際頂級期刊Angewandte Chemie International Edition上發(fā)表了相關(guān)論文,研究人員通過Reed-Solomon糾錯編碼和溶膠、凝膠將DNA封裝在二氧化硅玻璃球中來增加冗余,而這可能是DNA存儲芯片的最早期形態(tài)。
2021年11月起,多個研究團(tuán)隊公布了DNA存儲芯片研究的新進(jìn)展,包括我國東南大學(xué)、微軟研究院、伊利亞諾州西北大學(xué)以及佐治亞理工學(xué)院的研究小組。11月12日,我國東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院、生物電子學(xué)國家重點(diǎn)實驗室的劉宏團(tuán)隊成功將校訓(xùn) “止于至善” 存入一段DNA序列中,該論文發(fā)表于Science Advances。
為了實現(xiàn)DNA存儲的微型化、集成化、自動化,該研究小組對測序過程進(jìn)行了優(yōu)化?;陔娀瘜W(xué)的單電極DNA合成和測序方法,通過電化學(xué)脫保護(hù)技術(shù)改進(jìn)傳統(tǒng)亞磷酰胺化學(xué)合成方法,并基于電荷震蕩現(xiàn)象對電極表面的DNA分子進(jìn)行測序,成功將校訓(xùn)進(jìn)行編碼和解碼。
▲劉宏團(tuán)隊基于電化學(xué)DNA合成與測序的DNA數(shù)據(jù)存儲系統(tǒng)流程圖(圖片來源為東南大學(xué)官網(wǎng))
11月24日,微軟研究院與華盛頓大學(xué)分子信息系統(tǒng)實驗室(MISL)合作在DNA存儲上取得突破的論文發(fā)表于Science Advances上,該研究小組公布首個納米級DNA存儲寫入器,DNA芯片上的分子控制器和DNA寫入配有PCIe接口,可以一次性構(gòu)建四股合成DNA,產(chǎn)生包含100個堿基的DNA鏈。微軟研究院稱,更長的DNA鏈會容易出現(xiàn)錯誤,但隨著硬件的發(fā)展,這都會得到改進(jìn)。
該項實驗證明了DNA螺旋結(jié)構(gòu)擴(kuò)大存儲規(guī)模的可能性。今年11月29日,伊利諾伊州西北大學(xué)合成生物學(xué)中心提出了將信息記錄到DNA的新方法發(fā)布于《基因組學(xué)研究(Technology Networks)》期刊中,在編碼環(huán)節(jié)他們試圖通過DNA本身具有的能力來創(chuàng)建一種新的數(shù)據(jù)存儲解決方案。
在實驗過程中,他們使用一種新的酶促系統(tǒng)來合成DNA,將快速變化的環(huán)境信號直接記錄到DNA序列中。西北大學(xué)工程學(xué)教授Keith EJ Tyo稱,通過直接控制合成DNA的酶,可以實現(xiàn)提前表達(dá)和連續(xù)存儲信息。為了使DNA數(shù)據(jù)存儲在擴(kuò)大存儲規(guī)模的同時能降低成本,12月1日,佐治亞理工學(xué)院(GTRI)高級研究科學(xué)家尼古拉斯·吉斯(Nicholas Guise)在接受外媒英國廣播公司(BBC)采訪時說:“我們新芯片上的功能密度大約比當(dāng)前的商業(yè)設(shè)備高出100倍。”他們設(shè)計的芯片可以以極低的成本,通過超密集格式使DNA鏈實現(xiàn)增長,獲得大規(guī)格的存儲容量。
這個微芯片配備了10組幾百納米深的“微孔”,使得DNA分子在這中間平行生長,最終在芯片上積壓了數(shù)百萬個DNA序列。相比于傳統(tǒng)的合成DNA制造過程,這種方法采用電化學(xué)局部激活合成,成本更加低廉。
▲佐治亞理工學(xué)院(GTRI)研究小組實驗編碼解碼過程(圖片來源為論文插圖)
03.合成2MB需要7000美元讀取需要2000美元
不斷的研究表明,DNA存儲技術(shù)將成為跨時代的存儲方式。但從上世紀(jì)50年代提出至今,其發(fā)展一直沒有重大的實質(zhì)性進(jìn)展。微軟研究院作為DNA數(shù)據(jù)存儲的早期入局者,2015年開始進(jìn)行相關(guān)研究,直到2019年才有研發(fā)進(jìn)展,他們展示了一個全自動系統(tǒng)來編碼和解碼DNA中的數(shù)據(jù)信息。DNA存儲芯片能夠?qū)崿F(xiàn)高密度、長時間的存儲特性,但目前該項技術(shù)還不能廣泛運(yùn)用于計算機(jī)領(lǐng)域,目前主要針對一些不常用但需要保存的內(nèi)容。
DNA存儲芯片無法商業(yè)化,大概有以下幾點(diǎn)原因。首先,DNA存儲數(shù)據(jù)的寫入和讀取成本高昂。2017年哥倫比亞大學(xué)的實驗顯示,合成2MB的DNA數(shù)據(jù)需要7000美元,而讀取數(shù)據(jù)需要2000美元,盡管這相比于2013年每兆12400美元的成本已經(jīng)大大降低,但如果用戶需要以DNA形式儲存1GB的電影,編碼大約需要花費(fèi)358萬美元,而讀取數(shù)據(jù)還需要102萬美元。其次,DNA存儲數(shù)據(jù)的解碼過程需要大型工具。目前DNA存儲技術(shù)的解碼過程,還需要依賴測序儀對DNA分子進(jìn)行排序,市面上量產(chǎn)的測序儀大多都用于小型實驗室、臨床應(yīng)用等時效性要求較高的場景,距日常使用還很遠(yuǎn)。
▲測序服務(wù)供應(yīng)商Illumina的測序儀產(chǎn)品iSeq 100(圖片來源為Illumina官網(wǎng))
此外,DNA存儲技術(shù)的讀寫速度慢。2021年12月初,佐治亞理工學(xué)院的研究將DNA存儲速度提升到了每天寫入20GB數(shù)據(jù),目前固態(tài)硬盤的讀寫速度大約為每秒500MB。IDC《數(shù)據(jù)時代2025》的報告顯示,全球每年產(chǎn)生的數(shù)據(jù)在2025年將達(dá)到175ZB,相當(dāng)于每天產(chǎn)生491EB的數(shù)據(jù)。即使DNA存儲芯片的密度足夠大,其實時讀取速度也無法滿足當(dāng)前的數(shù)據(jù)存儲需求。DNA存儲芯片是未來大容量存儲較為理想的介質(zhì),目前的研究進(jìn)展大部分都處于概念驗證階段,其硬件設(shè)備的落地還需要很長一段時間。
04.結(jié)語:DNA存儲商業(yè)化的關(guān)鍵,實現(xiàn)低成本、高密度
DNA存儲芯片存儲密度高、穩(wěn)定性高、易于維護(hù)的優(yōu)勢決定了它成為下一代存儲設(shè)備的可能。不過該項技術(shù)的進(jìn)一步商業(yè)化還有很多限制,例如成本高昂、存儲環(huán)境限制較多、實時讀取速度慢等,這些都表明其變成主流存儲設(shè)備還有很長一段路要走。
我們處于數(shù)字時代,從智能手機(jī)、平板、PC到可穿戴設(shè)備每天都會產(chǎn)生大量信息,因此這個現(xiàn)實條件決定,找到性能要求更高且更加低成本的存儲設(shè)備迫在眉睫。
DNA的半衰期為521年,在一個冰冷或合適的條件下,DNA可以持續(xù)存在數(shù)十萬年,甚至幾百萬年,如果DNA存儲技術(shù)真正實現(xiàn)商用,在未來,我們的數(shù)據(jù)檔案可能將變成“化石”留存下來。
作者 | 程茜
編輯 | Panken