當前位置:首頁 > 科技 > 正文

科學研究的四種範式

圖靈獎得主,關系型數據庫的鼻祖吉姆·格雷(Jim Gray)也是一位航海運動愛好者。2007年1月28日,他駕駛帆船在茫茫大海中失聯了。而就是17天前的1月11日,在加州山景城召開的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大會上,他發表了留給世人的最後一次演講“科學方法的革命”,提出将科學研究分為四類範式(Paradigm,某種必須遵循的規範或大家都在用的套路),依次為實驗歸納,模型推演,仿真模拟和數據密集型科學發現(Data-Intensive Scientific Discovery)。其中,最後的“數據密集型”,也就是現在我們所稱的“科學大數據”。

人類最早的科學研究,主要以記錄和描述自然現象為特征,稱為“實驗科學”(第一範式),從原始的鑽木取火,發展到後來以伽利略為代表的文藝複興時期的科學發展初級階段,開啟了現代科學之門。

但這些研究,顯然受到當時實驗條件的限制,難于完成對自然現象更精确的理解。科學家們開始嘗試盡量簡化實驗模型,去掉一些複雜的幹擾,隻留下關鍵因素(這就出現了我們在學習物理學中“足夠光滑”、“足夠長的時間”、“空氣足夠稀薄”等令人費解的條件描述),然後通過演算進行歸納總結,這就是第二範式。這種研究範式一直持續到19世紀末,都堪稱完美,牛頓三大定律成功解釋了經典力學,麥克斯韋理論成功解釋了電磁學,經典物理學大廈美輪美奂。但之後量子力學和相對論的出現,則以理論研究為主,以超凡的頭腦思考和複雜的計算超越了實驗設計,而随着驗證理論的難度和經濟投入越來越高,科學研究開始顯得力不從心。

20世紀中葉,馮·諾依曼提出了現代電子計算機架構,利用電子計算機對科學實驗進行模拟仿真的模式得到迅速普及,人們可以對複雜現象通過模拟仿真,推演出越來越多複雜的現象,典型案例如模拟核試驗、天氣預報等。随着計算機仿真越來越多地取代實驗,逐漸成為科研的常規方法,即第三範式。

而未來科學的發展趨勢是,随着數據的爆炸性增長,計算機将不僅僅能做模拟仿真,還能進行分析總結,得到理論。數據密集範式理應從第三範式中分離出來,成為一個獨特的科學研究範式。也就是說,過去由牛頓、愛因斯坦等科學家從事的工作,未來完全可以由計算機來做。這種科學研究的方式,被稱為第四範式。

我們可以看到,第四範式與第三範式,都是利用計算機來進行計算,二者有什麼區别呢?現在大多科研人員,可能都非常理解第三範式,在研究中總是被導師、評委甚至是自己不斷追問“科學問題是什麼?”,“有什麼科學假設?”,這就是先提出可能的理論,再搜集數據,然後通過計算來驗證。而基于大數據的第四範式,則是先有了大量的已知數據,然後通過計算得出之前未知的理論。在維克托·邁爾-舍恩伯格撰寫的《大數據時代》(中文版譯名)中明确指出,大數據時代最大的轉變,就是放棄對因果關系的渴求,取而代之關注相關關系。也就是說,隻要知道“是什麼”,而不需要知道“為什麼”。這就颠覆了千百年來人類的思維慣例,據稱是對人類的認知和與世界交流的方式提出了全新的挑戰。因為人類總是會思考事物之間的因果聯系,而對基于數據的相關性并不是那麼敏感;相反,電腦則幾乎無法自己理解因果,而對相關性分析極為擅長。這樣我們就能理解了,第三範式是“人腦+電腦”,人腦是主角,而第四範式是“電腦+人腦”,電腦是主角。這樣的一種說法,顯然遭到了許多人的反對,認為這是将科學研究的方向領入歧途。從科學論文寫作角度來說,如果通篇隻有對數據相關性的分析,而缺乏具體的因果解讀,這樣的文章一般被認為是數據堆砌,是不可能發表的。

然而,要發現事物之間的因果聯系,在大多數情況下總是困難重重的。我們人類推導的因果聯系,總是基于過去的認識,獲得“确定性”的機理分解,然後建立新的模型來進行推導。但是,這種過去的經驗和常識,也許是不完備的,甚至可能有意無意中忽略了重要的變量。

這裡舉一個大家容易理解的例子。現在我們人人都在關注霧霾天氣。我們想知道:霧霾天氣是如何發生的,如何預防?首先需要在一些“代表性”位點建立氣象站,來收集一些與霧霾形成有關的氣象參數。根據已有的機理認識,霧霾天氣的形成不僅與源頭和大氣化學成分有關,還與地形、風向、溫度、濕度氣象因素有關。僅僅這些有限的參數,就已經超過了常規監測的能力,隻能進行簡化人為去除一些看起來不怎麼重要的,隻保留一些簡單的參數。那些看起來不重要的參數會不會在某些特定條件下,起到至關重要的作用?如果再考慮不同參數的空間異質性,這些氣象站的空間分布合理嗎,足夠嗎?從這一點來看,如果能夠獲取更全面的數據,也許才能真正做出更科學的預測,這就是第四範式的出發點,也許是最迅速和實用的解決問題的途徑。

那麼,第四範式将如何進行研究呢?多年前說這個話題,也許許多人會認為是天方夜譚,但目前在移動終端橫行和傳感器高速發展的時代,未來的趨勢似乎就在眼前了。現在,我們的手機可以監測溫度、濕度,可以定位空間位置,不久也許會出現能監測大氣環境化學和PM2.5功能的傳感設備,這些移動的監測終端更增加了測定的空間覆蓋度,同時産生了海量的數據,利用這些數據,分析得出霧霾的成因,最終進行預測也許指日可待。

這種海量數據的出現,不僅超出了普通人的理解和認知能力,也給計算機科學本身帶來了巨大的挑戰。因此當這些規模計算的數據量超過1PB時,傳統的存儲子系統已經難以滿足海量數據處理的讀寫需要,數據傳輸I/O帶寬的瓶頸愈發突出。而簡單地将數據進行分塊處理并不能滿足數據密集型計算的需求,與大數據分析的初衷是相違背的。因此,目前許多在具體研究中所面臨的最大問題,不是缺少數據,而是面對太多的數據,卻不知道如何處理。目前可見的一項技術,比如超級計算機、計算集群、超級分布式數據庫、基于互聯網的雲計算,似乎并沒有解決這些矛盾的核心問題。計算機科學期待新的革命!

你可能想看:

有話要說...

取消
掃碼支持 支付碼