複製鏈接
請複製以下鏈接發送給好友

生物計算

鎖定
生物計算是指利用生物系統固有的信息處理機理而研究開發的一種新的計算模式。生物計算研究包括器件和系統兩個方面。利用有機(或生物)材料在分子尺度內構成的有序體系、提供通過分子層次上的物理化學過程信息檢測、處理、傳輸和存儲的基本單元。稱為分子器件。生物計算系統的結構和計算原理不同於傳統的計算系統,它的結構一般是並行分佈式的。信息存儲往往是短時記憶和長時記憶的結合,是通過學習完成的。它的計算則表現為複雜的動態過程,不僅存在精確的時間同步,甚至要求在分維時間尺度上才能描述。
中文名
生物計算
外文名
Biocomputing
學    科
計算機科學
內    容
器件和系統
機    理
利用生物系統固有的信息處理
領    域
生物信息學

生物計算定義

生物計算是指以生物大分子作為“數據”的計算模型,主要分為3種類型:蛋白質計算、RNA計算和DNA計算,或指計算機科學和計算機工程的子領域,使用生物工程和生物學建造計算機,但是類似於生物信息學,這是一個跨學科的科學,使用計算機存儲和處理生物數據。蛋白質計算模型的研究始於20世紀80年代中期,Conrad首先提出用蛋白質作為計算器件的生物計算模型。1995年,Birge發現細菌視紫紅質蛋白分子具有良好的“二態性”,擬設計、製造一種蛋白質計算機。進而,Birge的同事,Syracuse大學的其他研究人員應用原型蛋白質製備出一種光電器件,它存貯信息的能力比電子計算機的存貯器高 300倍,這種器件含細菌視紫紅質蛋白, 利用激光束進行信息寫入和讀取。該蛋白質計算模型均是利用蛋白質的二態性來研製模擬圖靈機意義下的計算模型,應屬於納米計算機“家族”的一員。不同於蛋白質計算,RNA 計算與 DNA計算是利用生化反應,更確切地講,是以核酸分子間的特異性雜交為機理的計算模型。由於RNA分子不僅在實驗操作上沒DNA 分子容易,而且在分子結構上也不如DNA 分子處理信息方便,故對 RNA 計算的研究相對較少,蛋白質計算與RNA計算少有進展,但DNA計算發展很快 [1] 

生物計算DNA計算與DNA計算機

DNA計算是一種以 DNA 分子與相關的生物酶等作為基本材料,以生化反應作為信息處理基本過程的一種計算模式。DNA計算模型首先由Adleman 博士於 1994 年提出,它的最大優點是充分利用了 DNA 分子具有大量存儲的能力,以及生化反應的大量並行性。因而,以 DNA 計算模型為基礎而產生的 DNA 計算機,必有大量的存儲能力及驚人的運行速度。DNA計算機模型克服了電子計算機存儲量小與運算速度慢這兩個嚴重的不足,具有如下4個優點:
  • DNA作為信息的載體,其貯存的容量巨大,1立方米的 DNA 溶液可存儲 1 萬億億的二進制數據,遠遠超過全球所有電子計算機的總儲存量;
  • 具有高度的並行性,運算速度快,一台 DNA 計算機在一週的運算量相當於所有電子計算機問世以來的總運算量;
  • DNA 計算機所消耗的能量只佔一台電子計算機完成同樣計算所消耗的能量的十億分之一;
  • 合成的 DNA 分子具有一定的生物活性,特別是分子氫鍵之間的引力仍存在。這就確保DNA分子之間的特異性雜交功能。
DNA 計算模型一般原理圖 DNA 計算模型一般原理圖
DNA 計算的每項突破性進展,必將給人類社會的發展帶來不可估量的貢獻。第一,DNA 計算機的研究在國防領域具有極為重要的意義。由於 DNA 計算的巨大並行性所導致的驚人速度,使得密碼系統對於 DNA計算機而言已經失去意義。這就意味着,哪個國家在 DNA計算機的研製中首先取得成功,這個國家在軍事信息領域必將佔據領先地位;第二,DNA 計算機的研製對理論科學的研究具有無法估量的意義,特別是針對數學、運籌學與計算機科學。這是因為,在理論研究中,許許多多的困難問題在DNA計算機的面前可能顯得非常簡單,如著名數學家Erdös認為人類要解決 Ramsey 數 R(5,5)、R(6,6)是非常困難的。然而,若用 DNA 計算機,該問題將會很容易得到解決;第三,DNA 計算機必將極大地促使非線性科學、信息科學、生命科學等的飛速發展,進而推動諸如圖像處理、雷達信號處理等巨大的發展;蛋白質優化結構的更深層認識乃至第二遺傳密碼的解決、天氣預報更準確乃至整個氣象科學的巨大發展等;也必將促使諸如量子科學、納米科學等的巨大發展。
DNA 計算是以 DNA 分子作為信息處理的“數據”,相應的生物酶或生化操作作為信息處理“工具”的一種新型計算模型。基於DNA計算模型研製的 DNA 計算機,與電子計算機在硬件、原理等方面均不相同。DNA 計算模型的一般原理圖,可簡要地通過圖1所示的框圖來描述:輸入的是DNA 片斷和一些生物酶以及所需要的試劑等,然後通過可控的生化反應,輸出的是 DNA 片斷,這些DNA片斷就是所需問題的解。一般用DNA計算模型求解步驟如下:
  • 第一步 模型選擇:針對問題,選擇或建立DNA計算模型;
  • 第二步 編程:在已有模型的基礎上,進行編程;
  • 第三步 編碼:在 DNA 鏈的條數確定後,依據具體問題,建立相應約束條件(如解鏈温度值的約束,特異性雜交的約束,特別是要求鏈儘可能短等約束),進而進行編碼;
  • 第四步 合成DNA分子:對通過編碼確定的DNA鏈,進行合成,併購置所需的生物酶以及相關試劑等;
  • 第五步 建立計算平台:建立適應於生化反應、特異性雜交、無污染的良好生化操作環境;
  • 第六步 實施計算:將所需 DNA 鏈、探針以及相關試劑等按照生化處理程序進行;
  • 第七步 解的檢測:通過 PCR、測序、電鏡,甚至光電等綜合技術檢測出所需要的解。
DNA 計算機的研究可分為兩大方面:
(1)用於納米機器人的研製。這方面的主要工作是充分利用DNA分子之間的特異性雜交開展的自組裝技術。其研究成果重點應用於諸如疾病診斷治療的自動化問題、癌細胞的消除等。如在 2004 年,以色列科學家在理論與實驗上均證明了:DNA 計算機是進行疾病診斷治療的新有力手段;
(2)用於信息處理的計算機研製。主要研究快速實用化的、至少在某些方面超越電子計算機的新型計算機。

生物計算生物信息學

生物信息學研究生物信息的採集、處理、存儲、傳佈、分析和解釋等各個方面,它通過綜合數學、計算機科學與工程和生物學的工具與技術而揭示大量而複雜的生物數據所賦有的生物學奧秘。它作為一個交叉學科領域而薈萃了數學、統計學、計算機科學和分子生物學的科學家,目標就是要發展和利用先進的計算技術解決生物學難題。這裏所説的計算技術至少包括機器學習(machine learning)、模式識別(pattern recognition)、知識重現(knowledge representation)、數據庫、組合學(combinatorics)、隨機模型(stochastic modeling)、字符串和圖形算法、語言學方法、機器人學(robotics)、侷限條件下的最適推演(constraint satisfaction)和並行計算等。而生物學方面的研究對象覆蓋了分子結構、基因組學、分子序列分析、進化和種系發生、代謝途徑、調節網絡等諸多方面 [2]  。生物信息學也可以定義為對分子生物學中兩類信息流的研究:
第一類信息流源於分子生物學的中心法則:DNA序列被轉錄為mRNA序列,後者被翻譯為蛋白質序列。蛋白質序列繼而摺疊為具功能的三維結構。按照達爾文演化理論,這些功能被生物體的環境所選擇,從而驅動羣體中DNA序列的進化。因此,第一類的生物信息學應用關注於中心法則中任一階段的信息傳遞,包括DNA序列中基因的組織與控制、確定DNA中的轉錄單位、從序列預測蛋白質結構以及分子功能分析。
第二類信息流是基於科學方法:提出關於生物學活動的假設,設計實驗以驗證這些假設,評估結果與假設的兼容性,然後根據實驗數據對原假設作擴展或修正。第二類的生物信息學應用關注於這流程中的信息傳遞,包括產生假設、設計實驗、通過數據庫將實驗結果組織起來、檢驗數據與模型的兼容性以及修正假設的各個系統。
2022年2月,百度計算生物研究登上Nature子刊:將3D結構引入分子表徵,結果超越斯坦福MIT,已落地製藥領域 [3] 

生物計算系統結構

並行計算 
並行計算或稱平行計算是相對於串行計算來説的。並行計算(Parallel Computing)是指同時使用多種計算資源解決計算問題的過程。為執行並行計算,計算資源應包括一台配有多處理機(並行處理)的計算機、一個與網絡相連的計算機專有編號,或者兩者結合使用。並行計算的主要目的是快速解決大型且複雜的計算問題。
並行計算可以劃分成時間並行和空間並行。時間並行即流水線技術,空間並行使用多個處理器執行併發計算,當前研究的主要是空間的並行問題。以程序和算法設計人員的角度看,並行計算又可分為數據並行和任務並行。數據並行把大的任務化解成若干個相同的子任務,處理起來比任務並行簡單。
空間上的並行導致兩類並行機的產生,按照Michael Flynn(費林分類法)的説法分為單指令流多數據流(SIMD)和多指令流多數據流(MIMD),而常用的串行機也稱為單指令流單數據流(SISD)。MIMD類的機器又可分為常見的五類:並行向量處理機(PVP)、對稱多處理機(SMP)、大規模並行處理機(MPP)、工作站機羣(COW)、分佈式共享存儲處理機(DSM)。
分佈式計算
分佈式計算這個研究領域,主要研究分散系統(Distributed system)如何進行計算。分散系統是一組計算機,通過計算機網絡相互鏈接與通信後形成的系統。把需要進行大量計算的工程數據分區成小塊,由多台計算機分別計算,在上傳運算結果後,將結果統一合併得出數據結論的科學。
常見的分佈式計算項目通常使用世界各地上千萬志願者計算機的閒置計算能力,通過互聯網進行數據傳輸。如分析計算蛋白質的內部結構和相關藥物項目,該項目結構龐大,需要驚人的計算量,由一台電腦計算是不可能完成的。即使有了計算能力超強的超級電腦,但是一些科研機構的經費卻又十分有限。
分佈式計算比起其它算法具有以下幾個優點:
1、稀有資源可以共享。
2、通過分佈式計算可以在多台計算機上平衡計算負載。
3、可以把程序放在最適合運行它的計算機上。其中,共享稀有資源和平衡負載是計算機分佈式計算的核心思想之一。
參考資料