折疊的蛋白質
加利福尼亞州大學的生物化學家格雷戈裡·韋斯(GregoryWeiss)在他的文章《可以吃的科學:關于食物10件你不知道的事》中表示,他們利用蛋白質折疊技術,可以讓熟雞蛋“重獲新生”。不過,研究蛋白質折疊并不僅僅是為了讓雞蛋重生,更重要的意義在于揭示生命體内的第二套遺傳密碼——折疊密碼。 蛋白質是生物體内一切功能的執行者,人體内的任何功能,從催化化學反應到抵禦外來病毒、細菌等都是蛋白質作用的結果,蛋白質折疊就是生命活動的最基本過程。随着對一些疑難病與罕見病研究的深入,研究人員發現,隻有蛋白質折疊形成正确的三維空間結構才可能具有正常的生物學功能,如果這些生物大分子的折疊在體内發生了故障,形成了錯誤的空間結構,不但将喪失其生物學功能,還會導緻上面這些疾病的發生。 細胞作為生命體的基本單位,每個活細胞執行功能的背後,都有大量的通過特殊途徑折疊的蛋白質在執行着非常專一的任務,但是如果此生物功能的源頭出現了錯誤就會引起麻煩,比如細胞的死亡帶來神經變性疾病,或者癌細胞不受控制的生長。因此,了解如何防止蛋白質的錯誤折疊,以及如何拯救錯誤折疊的蛋白質就成為分子生物學領域非常重要的研究課題。 這些研究與人類罕見病與疑難雜症的治療息息相關,比如“漸凍症”就是因為蛋白質的錯誤折疊而帶來的不良疾病。漸凍症會讓患者表現出進行性加重的骨骼肌無力、萎縮等,就像是一點點被凍住了一樣。漸凍症會讓患者在不失去思考能力的同時喪失行動能力。著名的物理學家霍金就不幸罹患了這一種疾病。 2014年,全世界掀起一場風靡全球的旨在關注漸凍症并為其患者捐款的公益活動——ALS冰桶挑戰賽”,總捐款超過2億美金。2019年,這項挑戰的發起者皮特弗雷茨在家人陪伴下離世,此前,他經曆了與漸凍症長達7年的抗争。 而經過科研人員多年的研究,研究人員發現,漸凍症的解法可能就在核孔蛋白上。科研人員們認為漸凍症和核孔蛋白組成的核孔複合體有着極強的關聯,如果能夠進一步了解核孔蛋白和核孔複合體,就有可能找到根治漸凍症的方案。 雖然确定核孔複合體的結構并不容易,核孔複合體由超過1000條、30多種不同的核孔蛋白組成,每條蛋白的大小隻有數納米,這些蛋白質以極其複雜的結構折疊并相互交錯。但不可否認研究蛋白質折疊的巨大價值——蛋白質折疊研究可以幫助人們按照自己的意願設計出需要的、具有特定功能的蛋白質,還可以找出阿茲海默症、漸凍症以及帕金森氏症等疾病的緻病原理和治療方法。 轉機的出現 在過去,雖然科學家們也清楚蛋白質對于人體生理功能的重要性,但由于一個蛋白質折疊的可能形狀太過龐大,因此,一直以來,科學家對于蛋白質結構的研究進展都非常緩慢。 一個隻有100個氨基酸的蛋白質,已經是一個非常小的蛋白質了,但就是這麼小的蛋白質,可以産生的可能形狀的種類依然是一個天文數字,大約是一個1後面跟着300個0。這也正是蛋白質折疊一直被認為是一個即使大型超級計算機也無法解決的難題的原因。 從1994年開始,為了監測這種超越超級計算機能力的蛋白質折疊過程,科學界每年都會舉辦一次蛋白質結構預測關鍵評估(CASP)大賽。直到2018年DeepMind的開發者們推出了一款人工智能——AlphaFold。 AlphaFold是一款可以通過挖掘大量的數據集來确定蛋白質堿基對與它們的化學鍵的角之間的可能距離的人工智能,而這也正是蛋白質折疊的基礎。 2018年,AlphaFold首次參加了CASP大賽,并摘得頭魁。在2018年的比賽中,AlphaFold需要與其他參賽的人工智能比賽,解決43個蛋白質折疊的問題。最終,AlphaFold答對了25個,而獲得第二名的人工智能隻勉強答對了3個。AlphaFold的誕生,成為了蛋白質結構解析領域裡程碑,也徹底改變了成千上萬生物學家的研究。 2020年,DeepMind發布了AlphaFold軟件的第二個版本。相較于第二個版本,2018年的更早版本并不夠好,不能取代使用實驗方法解析的結構,而AlphaFold2的預測結果平均而言已與實驗結果相差無幾。當時,AlphaFold2再一次在CASP大賽上一舉奪魁。 正是在AlphaFold的助力下,哈佛大學吳皓實驗室的彼得羅·豐塔納團隊在2022年攻克了破解漸凍症的關鍵——核孔蛋白這一天文級難題。豐塔納的研究團隊取得了關鍵性的進展:他們不僅成功預測出了之前沒有被探究清楚的一批核孔蛋白的結構,還首次繪制出了核孔複合體的胞質環的模型圖。這生物信息學突破,為攻克像漸凍症等罕見、難治的神經退行性疾病,點亮了希望。 更重要的是,如此關鍵的發現和研究,對于AlphaFold來說卻并不是一件難事。2021年7月,DeepMind這一谷歌旗下的人工智能公司就在《自然》中發表文章稱,其深度學習程序AlphaFold已經預測出了35萬種蛋白質結構,涵蓋了約98.5%的人類蛋白質組和20種生物的蛋白質,并開源了它的數據庫。這一舉動在生物學和計算機兩大領域掀起波瀾,并在當年入選《自然》年度十大科學事件。 科學家認為,DeepMind預測蛋白質3D結構的深度學習程序将颠覆生物學,讓藥物發現與蛋白質結構預測加速升級。僅一年後,AlphaFold的數據庫就實現了200倍擴容,截至目前,地球上已知的所有生物總共2.14億種蛋白質的結構都已經被AlphaFold預測出來。 蛋白質折疊技術的未來 AlphaFold的提出顯然對生命科學有巨大的促進作用。一方面,它能夠快速準确地根據氨基酸序列預測蛋白質的三維結構,因此可以有效彌補現有結構生物學技術的缺陷。另一方面,通過對AlphaFold的進一步研究,人們可以更好地理解蛋白質序列和結構間的映射關系,并對疾病有更深入的認識。 目前已有很多研究組開始把AlphaFold2應用于藥物開發和蛋白質設計領域。比如,2021年,DeepMind與EBI合作,建立了基于AlphaFold2預測結果的數據庫AlphaFold DB。該數據庫中已經儲備了近一百萬蛋白質的預測結構,為生命科學各個領域的科學家們提供重要的蛋白質結構信息。這一行為很可能會改變很多領域的科研範式,促進分子層面的研究從以序列為基礎轉變為基于序列和結構的研究,從而加快生命科學定量化的步伐。 當然,AlphaFold2還有一定的局限性。首先,它在很多蛋白上的預測精度還有待進一步提高,因為畢竟隻有十幾萬個蛋白質的空間構型,人類是确鑿無疑的知道是什麼樣的,而哪怕隻針對這十幾萬個蛋白質,AlphaFold2通過堿基序列預測的三維構型也和實測結果有所出入,有一些結果和實際情況偏差得非常離譜,盡管概率并不是很高。 因此,就算科學家對AlphaFold2比較信任,也依然不敢隻憑它的計算結果就開展後續的研發工作。比如研發新藥,科學家篩選新的蛋白質結構時,會用AlphaFold2跑出一個初步的結果,但這個結果隻是一個不錯的提示,告訴科學家哪些部位可能是關鍵。此後,科學家會再利用傳統方法精确測定。 其次,AlphaFold2模拟的是從多重序列比對到三維結構的映射關系,并沒有解決從單一序列到三維結構的映射關系,因此蛋白質折疊問題還沒有完美解決。最後,也是最重要的一點,針對一個特定的目标蛋白,AlphaFold2僅提供有限的結構模型,不能揭示其結構的動态變化。而動态結構才是真正決定功能的基礎。 但不可否認,蛋白質折疊技術的影響依然是巨大而深遠的。未來,人類對生命演化方面的理解會更加深刻。此前,演化是以基因突變為基礎的,于是基因型相似的物種就擁有演化上較近的親緣關系,依照這種方法,尤其适合判斷相鄰較近的幾種生物的親緣關系。 因為蛋白質構型變化的速度比堿基變化得慢。堿基序列的突變會導緻某個氨基酸的變化,但往往不會導緻更大結構的蛋白質發生功能上的徹底改變,還需要積累更多的基因突變,相應的蛋白質才會發生明顯改變。而使用AlphaFold2這樣的工具從蛋白質空間構型的差異上去判斷,就能找到時間跨度上更遠的親緣關系。 AlphaFold算法還包含植物、細菌、動物和其他生物的預測結構,為衆多重要問題的解決提供了許多新機會,包括可持續性發展、糧食不安全和被忽視的疾病等方面,已經對人類健康産生了重大而直接的影響。同時,伴随AI與蛋白質結構、功能的預測和設計結合愈加深入,相關産業中的應用空間也在逐漸打開。
有話要說...