說起谷歌分析流感疫情,大家一定會聯想到大型數據庫、復雜的數據模型等等,你很難相信維多利亞時代的科學家們也能通過數據分析趕走霍亂,他們用一張張圖表把大量數據變得簡潔、直觀,使復雜的醫學問題得以解決;基因科學告訴我們:我們自身就是一個龐大的“數據庫”,通過超級計算機完成基因測序,也能解決醫學難題;還有越來越流行的醫學專家系統等等。這一切似乎告訴我們:醫生們要小心了,數據科學家也能搶走你的飯碗。
霍亂在維多利亞時代的英國是一個隱形殺手,一次又一次摧殘著社會的底層大眾。很難從單個患者身上弄明白人們是如何感染上這種疾病的,科學家們把目光轉移到死亡率的統計上。通過繪制大量的圖表和“地圖”,他們發現霍亂通過被污染的水傳播,也就是說清理城市管道系統可以有效地解決霍亂問題。
雖然對于這種疾病的認識早在19世紀50年代就取得了顯著進展,但當時的數據可視化即使放在現在也還是很吸引眼球。有一些可以在倫敦圖書館的展覽――Beautiful Science中看到,他們和現代醫藥科學、基因科學、氣象學等不同領域的可視化技術一起展出。
技術的進步將這些可視化明顯區分開了,其中許多交互式可視化以及基于存儲的可視化是維多利亞時代科學家所難以想象的。然而那些舊圖表和舊“地圖”――尤其是William Farr和John Snow的那些――和云計算時代仍然有著緊密的聯系,因為他們研究的領域更加精確。雖然Google Flu Trends規模龐大而且動態變化,我們仍然能夠用Farr和Snow的方法實現,他們的經驗可以幫助我們了解如何實現和應用數據可視化。
倫敦氣溫和死亡率相關圖――William Farr在一份報告中統計了1848年-1849年英國霍亂的死亡率
Farr和Snow對霍亂有著完全不同的兩套理論,而且證明的方法也完全不一樣。Farr是一個沉迷于數據的統計學家,其大量的圖表文檔表明了霍亂和海拔有聯系(他認為是瘴氣的原因)。Snow是一名醫生,他把注意力放在病人身上,其觀察顯示霍亂從胃部進入人體,這讓他相信是攝取食物或水的問題,最后他把問題指向了公共水源。他做了一張“地圖”,清楚地標出了公寓附近的水源和死亡率。很顯然,他想得到相應的數據。他是對的,但是還需要證明。
另一方面,Farr把霍亂歸因于瘴氣和海拔是錯誤的,他錯誤地理解數據。然而他的圖表并不會因為他的錯誤判斷而被低估。恰恰相反,可靠地統計死亡率及一切可以測量的屬性,這些對可視化的探索和發現還是值得肯定的(他自己后來也接受了Snow的理論)。
Snow的“地圖”其實是信息圖――一種基于特定信息對具體問題作出科學解釋的有力工具。Farr的多維圖表則不用局限于具體的某個問題,它們可應用的范圍更加廣泛。
其實,不僅在大范圍流行病的處理上用到了數據分析。科學家們發現很多疾病已經不再僅僅是醫學問題,在基因測序問題上困擾科學家的也是“大數據”。
醫學界已越來越多的轉向利用遺傳信息來了解、治療和預防人類疾病;然而僅分析單個基因組信息就要花去好幾個月的時間。現在,研究人員用世界上最快的超級計算機能在2天內得到240個完整基因組的全部信息。
來自芝加哥大學的研究人員們已在《生物信息學》期刊公布了分析結果。
“小獵犬號”是Cray XE6超級計算機――它能夠在短短2天內分析240個完整基因組
這臺超級計算機被命名為“小獵犬號”(很容易讓人聯想到達爾文在1831年那次著名的科學之旅),安置在伊利諾伊州Argonne國家實驗室的理論與計算科學大廈,“小獵犬號”可應用于生物醫學研究領域的計算、仿真和數據分析。
該團隊指出,生產DNA序列成本的降低使整個基因組測序進度加快。但由于一次分析好幾個基因組需要很大的計算量,這又帶來了“計算瓶頸”的問題。而有了超級計算機以后不用再局限于一次只能觀察一個基因組,它可以同時處理多個基因組。
這項研究的第一作者Megan Puckelwartz表示,“超級計算機主要被當作一種研究工具,用于完成全部基因組測序工作,一些研究成果可以即刻應用于臨床”。
醫學與人類遺傳學教授兼芝加哥大學心血管遺傳學臨床部門負責人Elizabeth McNally博士說:
這可以給病人帶來好處,而且隨著時間的推移,我們將更深入的了解基因引起疾病的原因。
為什么全基因組測序如此有用?
該小組稱由于基因組數量如此龐大,臨床遺傳學家都選擇了exome(外顯子組)測序,其中包括重點關注的基因組,這部分基因組少于2%,但將決定蛋白質的生成。
在這些基因組中85%的突變會導致疾病,其余15%的突變來自非編碼區。過去稱之為“垃圾DNA”,這些來自非編碼區基因突變現在也被證實會對人體產生影響。但分析這些基因組,需要對整個基因組測序。
為了測試“小獵犬號”,McNally博士和他的同事使用了61個人的基因測序數據并在超級計算機上分析。
只用了“小獵犬號”總計算能力的四分之一,該團隊就發現不僅測序的精度提高了,速度也大大加快了。
McNally博士說,這些改進降低了檢測基因組的成本,分析整個基因組成本甚至要比過去觀察一個基因組的片段還要低。此外,小組稱這種分析方法將又快又便宜,解決了困擾科學家們的瓶頸問題。
成果可“即刻應用于臨床”
McNally博士說,他們的研究結果立即可以應用到心血管遺傳學臨床,他們通過觀察病人和他們的家庭成員的基因來了解、治療或預防疾病。
她說:“我們已經開始檢測病人的基因,但當我們發現一個明顯的突變基因時,我們會考慮檢測整個家庭的基因,發現潛在的危險。”
McNally博士又補充說明:
在2007年,我們第一次檢測5個基因組,現在我們一次檢測50到70基因組,通常我們也就可以找到答案了。此時,它能以更低廉的成本有效檢測整個基因組。
她說通過研究病人的這些基因組和家族史,他們可以獲得關于遺傳疾病更多的信息。
她補充說:“密切關注有基因問題患者家屬,也許暫時尚未顯示出疾病的癥狀,這樣我們可以調查基因疾病的早期階段。在處理基因問題時,每個病人都是大數據問題。”相關鏈接:
London Exhibit Shows How Data Visualization Quashed Epidemics 150 Years Before Google
A supercomputer could change how diseases are treated(編譯/毛夢琪 審校/魏偉)