當前位置:首頁 > 科技 > 正文

大國科技博弈,開放科學平台的“四步”開源之旅(科技創新與大國博弈)

編者按:

20世紀末,科學界發起了一系列體現“參與、包容、分享、合作、公開、透明”理念的開放科學運動,包括開源軟件、開放獲取、開放數據以及開放基礎設施和平台等。開放科學運動的發起是為了克服傳統封閉的科學模式造成的種種弊端,比如過高付費牆造成知識鴻溝與不平等。

當前,随着時代發展,從開放獲取邁向開放科學,已經成為全球共識,全球科研模式也因此發生深刻變革。但我國目前要實現開放科學還面臨着許多問題,如何構建開放科學的中國路徑、制定互惠共享的國際科技合作戰略是我國開放科學發展的未來思路。

本文約3562字,建議閱讀時間9分鐘。

導語

當代科技發展對數據和算力提出了極高要求。在傳統基礎技術研究領域,全球各大科研院所、高校的科研團隊普遍缺乏這方面的能力支撐。為了應對這一變化,近十年來,“開放科學平台”在歐美、非洲等地逐漸盛行,為科研社區提供包含開放數據及相關分析工具、開放算力平台、開放源代碼的各種支持。放眼全球,在科學技術競争激烈的大國時代,“開放科學平台”逐漸成為推動科技發展的關鍵變量。聯合國教科文組織發布的《開放科學建議書》中提到,開放科學應支持整個科學界、不同研究團體和學者,以及傳統科學界以外的廣大公衆和知識持有者的需求。

在疫情初始發現階段,阿裡雲就向全球公共科研機構免費開放了一切AI算力。任何針對新型冠狀病毒分析、疫苗新藥研發的公共科研機構、學校、醫院,都可以通過郵件聯系阿裡雲疫情公益小組,并在第一時間與阿裡雲取得聯系。同時,阿裡雲還與合作機構共同向全球科學共同體免費開放相關藥物研發資源,共同加速針對新型冠狀病毒的藥物研發。從實際應用上看,中國在這個領域還需要加大投入,才能實現科學範式轉變階段基礎科學平台建設的跟跑、并跑直到領跑。

從“Paradigm Shift”到“第四範式”

科學進步的軌迹是什麼樣的?早期,人們普遍認為,科學發展是循序漸進的,科學家不斷湧現,将已有科學理論向前推進從而推動科學發現越來越接近真理。1962年,美國學者托馬斯·庫恩在《科學革命的結構》一書中提出,以物理學曆史發展為例,科學發展存在有規律的不連續性。書中說,科學由一系列交替的“正常科學階段”和“科學革命”階段組成。在科學革命階段,伴随着概念層的突破,已有的理論框架被新科學範式全面颠覆并重構,例如從牛頓力學量子力學的轉變。庫恩創造了“範式轉變(Paradigm Shift)”這一科學哲學新概念。在庫恩定義的範式轉變理論中,科學發現遵循的是另一條五個階段的循環路徑:

“前範式階段”:幾個不相容和不完整的理論,并逐漸收斂到一種被科學界普遍接受主導範式

“正常科學階段”:在主導範式的背景下不斷解決科學難題,推進科學進步

“危機階段”:主導範式能未解決的異常現象,會在較長時期内不斷累積,最終導緻主導範式的信任危機

“範式轉變階段”:主導範式出現重大失敗後,科研基本假設被重新審視,進入新範式建立階段

“新範式階段”:科學革命後,新範式主導地位确立庫恩開創了一門名為科學史或科學社會學的新學科。社會學家和曆史學家開始把科學看成一種普通的亞文化。範式轉變推動科學發展已成廣泛共識。

庫恩之後,計算機領域的學界泰鬥、數據庫領域的傳奇科學家吉姆·格雷把科學技術發展史總結為四個範式階段

第一範式:經驗(empirical)證據。數千年文明史中,人類絕大多數技術發展源于對自然現象觀察和實驗總結。相比于宗教或神學中不允許被質疑的教條來說,基于觀察和實驗的經驗範式是科學技術發展中人類邁出的一大步。

第二範式:理論(theoretical)科學。相比于依賴觀察和實驗的第一範式可以做到“知其然”,第二範式的科學理論需要做到“知其所以然”,對自然界某些規律做出背後原理性的解釋。因此,理論必須滿足進一步的要求,如可證僞的預測能力、多個獨立來源的一緻性等。

第三範式:計算(computational)科學。随着計算機的運算能力越來越強大,它逐漸被用于科學研究領域。同前兩個範式不同,計算科學中誕生了一種嶄新的技術工具:計算模型與系統模拟。這一工具利用計算機的計算能力、基于大規模并行的計算機體系結構、通過設計算法并編制程序來模拟複雜過程,在大氣環流核反應過程、病毒感染過程。在經濟學、心理學、認知科學等缺乏簡單、直觀分析解決方案的領域獲得廣泛采用。

第四範式:數據科學(Data exploration)。從基因測序儀、深空望遠鏡到覆蓋全球的社交媒體,人類社會已經被深度數字化。每天在我們生活的數字地球裡每天都會産生海量的數據。據估計到 2025年,全球每天将新産生463EB的數據,相當于212,765,957 張 DVD,這些DVD疊在一起有30個珠穆朗瑪峰那麼高。在這樣一個數據爆炸的時代,基于數據的技術革命也正在發生,數據科學成為技術發展的最前沿。以數據為中心的計算平台、數據加工、處理與分享工具、算法與模型庫等一系列科學研究方式構成了技術發展的第四範式。

“開放科學平台”:更好應對第四範式的挑戰

在第四範式主導的科技時代,研究團隊除了研讀技術最前沿研究論文,同時也需要這些論文涉及的實驗數據集,以便複現實驗結果。巨量數據和龐大計算需求給創新帶來了新的挑戰。傳統科學交流僅限于論文和有限的公開數據集,為了促進新範式時代技術發展的持續性,加速科研團隊的合作共享,歐美開始興起了“開放科學”運動:arXiv:美國物理學博士保羅·金斯帕格1991在美國洛斯阿拉莫斯國家實驗室創建了分享arXiv存儲庫,幫助全球科研團隊分享研究論文預印本的全文數字版本。2008年,arXiv突破了50萬篇文章的裡程碑;2014年底達到100萬篇;今天, arXiv每月從全球科研社區獲得超過15000篇投稿。一些出版商還免費授予arXiv作者存檔同行評審後印本的權限。arXiv也鼓勵了更多科研機構,如美國國家醫學圖書館仿照arXiv建立了醫學領域的PubMed中央存儲庫。

Papers with Code:相比arXiv,Papers with Code在開放獲取領域則更進一步。這個平台不僅分享論文,還鼓勵科研團隊分享論文工作所對應的代碼和數據集。平台同時提供了相關評測環境,可以對提交的算法代碼在公共數據集合上做技術排名。Papers with Code不僅創建一個包含論文、代碼和數據集的開放集合,同時也提供了技術評估方法的免費開放平台,顯著促進了相關領域科研團隊技術分享與協作,加速科技創新進程。

NASA開源科學計劃:為了降低太空科學探索門檻,讓更多的科研團隊可以參加美國國家航空航天局的科學研究,NASA 提出了開源科學計劃 (OSSI)。OSSI的目标是在十年内建立一個開放科學社區,參與的科研團隊承諾在研發過程中開放和共享相關軟件、數據以及知識(包含算法、論文、文檔以及相關輔助信息),并充分利用協作工具和雲計算在内的技術工具提高NASA科學進步的速度和質量。

大國科技博弈:開放科學平台的重要性

在第四範式時代,爆炸式增長的數據在科技研發工作中扮演了極其重要的角色,它也給經曆這一次範式轉變中各個學科,尤其是非計算機領域的科研團隊帶來全新挑戰,涉及數據與模型的獲取與分享、計算模型與系統模拟的規模膨脹、大規模人工合成數據構造、多模态數據處理與分析的工具、數據抽取、轉換、加載、數據可視化與交互、人工智能工具集與算力平台等領域。

結語

今天,新一輪大國競争很大程度上體現為支撐科技發展的生态系統以及創新體系之間的競争,開放科學平台已成為促進科技研發重要的基礎能力之一。以第四範式驅動的新一代創新體系在歐美已經有先發優勢,從政府主導的科研項目到學術界的實踐已有十年經驗。我國需要在這個領域認識到自身不足,加速構建獨立自主的開放科學平台,從而實現科學範式轉變階段科技發展的跟跑、并跑直到領跑。

内容作者:阿裡研究院資深技術專家 蘇中

内容來源:阿裡研究院

你可能想看:

有話要說...

取消
掃碼支持 支付碼