2022年3月29日,賽諾菲的NikhilPillai等人在Drug Discov Today雜志發表文章,分析和反思了機器學習在臨床前小分子藥物發現中的多種應用,并簡要介紹了機器學習任務中的分子表征方法。
亮點
機器學習有可能減少藥物發現的時間和成本。
目前的機器學習方法主要集中在尋找hit、lead優化和分子生成。
我們讨論了機器學習應用于分子篩選和優化、候選藥物選擇的潛力。
介紹了當前藥代動力學預測和分子生成方面的進展。
摘要
機器學習方法已經在藥物發現的早期階段被廣泛采用,特别是在小分子候選藥物的研究中。盡管如此,在藥代動力學/藥效學 (PK/PD) 的應用領域,機器學習的使用仍然有限。在此,我們描述了臨床前藥物發現中使用機器學習的最新進展和作用。我們總結了根據小分子結構預測ADME特性的進展和當前的策略、根據分子篩選和優化所需的特性來預測結構的策略。最後,我們讨論了如何使用機器學習來預測PK,以對候選藥物達到适當暴露的能力進行排序,從而對安全性和有效性提供重要的見解。
引言
藥物發現是一項複雜而具有挑戰性的任務,有分析表明研發效率持續下降。目前的藥物發現模式是一個定義明确的過程,當化合物顯示出對生物靶點的活性時,從"靶點識别"到"lead識别"到"lead優化",最後到"候選藥物選擇"。整個過程可能是耗時和資源密集型的,高度依賴轉化方法,其中涉及的假設由于缺乏人類數據而可能無法驗證,因此對所研究的藥物而言可能是不正确的。由于這些假設,一個新的分子實體 (NME) 可能會在藥物開發的後期階段才知道它是否會在人類身上引起足夠的反應。這些後期階段的失敗導緻了巨大的資本損失和更高的藥物開發成本。
在藥物發現的lead優化階段,人們使用各種體外試驗對分子進行評估,以确定其效力、理化特性和ADME特性。随後進行臨床前體内研究,以确定藥代動力學 (PK) 和藥效學 (PD) 的特征。PK是對藥物動力學的研究,主要取決于體内的ADME過程,而PD則是對藥物在體内的影響進行量化,它可以包括多種動力學,如生物标志物反應、腫瘤進展、細胞因子釋放和其他。此外,身體的生理機能也會挑戰藥物的暴露,從而影響其療效。
跨研究産生的數據被整合到用于預測安全有效的臨床劑量和方案的轉化方法中。盡管很難根據化合物的内在特性或體内臨床前行為來預測臨床療效,但影響療效的主要因素通常歸因于藥物安全達到有效暴露的能力。
儀器和量化方法的技術改進使大量的分子能夠被篩選出效力和ADME特性,從而對大量的分子進行分流以确定高質量的候選藥物。這個過程産生了大量的數據集,可用于機器學習,根據分子結構預測各種特性。這些大型數據集可以被納入機器學習模型,在沒有實驗的情況下,可以降低NME的風險狀況。通過利用機器學習模型,人們可以增加篩選的化合物數量,并減少篩選時間。這種模式使研究人員能夠從完全依賴專家直覺的"試錯"方法轉向更有效和自動化的篩選和選擇策略。盡管在藥物發現管線的早期階段已經記錄了多種努力,如使用靶點識别和hit尋找,但這些技術在後期階段的應用潛力仍不清楚。我們相信,機器學習的應用可以大大減少目前在體外和體内的藥物反應表征方面的實驗負擔和時間。為此,現在有越來越多的工作試圖描述和捕捉存在于分子結構、特性和PK行為之間的隐性關系。
在這篇綜述中,我們試圖分析和反思這些不斷增長的工作,特别是關注機器學習在臨床前環境中,對減少選擇最佳臨床候選藥物的不确定性的作用。我們将重點讨論在臨床前環境中可以利用機器學習的小分子藥物發現的各個方面,特别是側重于分子篩選和優化以及候選藥物的選擇。為了進一步幫助讀者并幫助他們了解該領域的背景,我們在Box1中簡要介紹了機器學習任務中使用的分子表征方法,在Box2中概述了文中提到的機器學習算法。
Box1 機器學習模型中使用的分子表征方法
在為分子特性預測或生成任務設計機器學習算法時,一個重要的考慮因素是分子表征方法。這可以影響所使用的機器學習模型的架構,以及預先決定所需計算資源的計算複雜性。在此,我們簡要介紹一下大多數為藥物發現和開發任務設計的機器學習算法中使用的分子表征技術。
分子表征方法可分為三類。(i) 基于描述符;(ii) 基于自然語言;或(iii) 基于圖形嵌入 (圖1)。
基于描述符的分子表征方法又分為兩種,第一種是直接使用從分子結構中得出的定量屬性,比如通常由化學信息學軟件 (如RDCit) 計算出來的定量屬性。這些定量屬性編碼分子的特定功能屬性,可以是一維 (即隻編碼單一屬性,如分子量) 或多維 (即編碼分子的多個物理化學方面,如 eccentricity或spherocity)。第二種基于描述符的方法是利用分子指紋,它是映射化學空間的計算方法。這些指紋編碼了機器可讀的結構表征,一般是位向量,較少見的是計數向量 (圖1a)。
第二類分子表征是基于自然語言的原則,它應用正式的語法規則來定義分子結構,如SMILES或InChI (圖1b)。這些表征法常用于深度學習算法,用于屬性預測以及分子生成。這些方法的一個延伸是SMARTS (simplified molecular-input line-entry system),它指定了分子中的子結構模式。基于語言的表征法也常用于在分子數據庫中存儲信息,随後可用于轉換為分子描述符,用于随機森林或支持向量機等機器學習方法。
基于圖的方法是對圖論原理的自然調整。在圖論中,圖被視為節點和邊的集合,而分子可以被視為原子 (類似于節點) 和鍵 (類似于邊) 的集合 (圖1c)。近年來,基于圖的表征方法獲得了很大的發展。這些方法被用于基于圖的深度學習方法,如圖卷積網絡 (GCNs) 或消息傳遞神經網絡 (MPNNs),它們在屬性預測和分子生成任務中表現出卓越的性能。然而,這些表征方法仍然面臨着與表征立體異構體有關的問題,這些方法無法區分不同的立體異構體,因為它們具有同構結構。
圖1. 分子表征中使用的方法和該領域使用的機器學習模型概述。這裡,我們以阿司匹林為例,說明 (a) 基于描述符的方法,(b) 基于自然語言的方法和 (c) 基于圖的方法。
圖2. 機器學習方法主要分為:(a) 傳統的機器學習方法,包括随機森林、支持向量機和高斯過程等低數據 (low-data) 方法;以及(b) 利用神經網絡的深度學習方法。
Box2 用于藥物發現和開發的機器學習算法介紹
這裡讨論了兩組主要的機器學習方法。這些方法分為傳統的機器學習方法 (如基于樹的方法、潛在變量方法) 和深度學習方法 (圖2a、b)。我們為讀者提供了文中提到的方法的簡要描述。
最常用的機器學習方法包括決策樹或基于樹的方法。這些方法是非參數方法,用于回歸和分類。基于樹的算法的一個例子是随機森林,其中模型輸入變量的多個随機子集被用來生成多個決策樹,輸出是生成的樹的平均值 (回歸) 或模式 (分類) (圖2a)。另一種算法是支持向量機 (SVM),其操作的超平面概念要麼是對所分析的類别進行最佳劃分 (用于分類),要麼是适合最大數量的點。高斯過程是一種非參數貝葉斯方法,也非常常用。最後,潛變量方法,如部分最小二乘法,其中預測變量和目标變量方法被線性投影, 同時将兩者之間的關系聯系起來也用于QSAR模型。
深度學習方法是該領域内利用的第二類模型 (圖2b)。這類模型中使用的一些深度學習方法包括自動編碼器 (一種學習輸入空間的低維表征的神經網絡) 和循環神經網絡,它允許對時間關系進行建模,如語言模型 (或分子串表征)。其他深度學習方法是強化學習方法,這是一類不同于監督和無監督學習的模型。這些模型的目的是在給定的環境中使用試錯法使獎勵函數最大化,如在給定的設計空間中生成具有最佳特性的分子。
這些機器學習模型的使用取決于各種因素,包括任務的固有特征、數據的可用性和關于模型功能的基本假設。在早期的藥物發現中,大量的數據以分子候選搜索空間的形式存在,深度學習方法被發現特别有利,因為這些算法對數據的要求很高。在較小的數據域任務中,如體内建模,簡單的機器學習任務可能更有用,因為深度學習方法可能無法準确捕捉這些有限的數據體系中的潛在趨勢。關于模型參數的基本假設在算法選擇中也起着重要作用。例如,如果假設潛在的響應面是線性的,可以使用偏最小二乘法。然而,在非線性響應面的情況下,其他機器學習模型,如支持向量回歸、高斯過程或基于樹的方法更合适。
機器學習應用于分子篩選和優化
一旦确定了合适的靶點并決定了預期的生物标志物,藥物發現過程的下一步就是找到對特定靶點表現出治療活性的分子并優化這些潛在分子。這被稱為"hit-to-lead"生成階段。在尋找hit階段,HTS被用來從潛在的候選化合物庫中找出對靶點有活性的化合物。然而,盡管HTS是目前最先進的篩選方法,但它并不一定能産生一個可行的分子。當人們想起這種努力所帶來的廣泛的搜索空間時,這一點尤其正确。例如,ZINC數據庫包含了7.5億個可供篩選的化合物。
當處理這種大的和難以處理的空間時,使用機器學習技術可以大大增加可行的hit數量。作為一個例子,Mehta和他的同事展示了使用貝葉斯學習,以對接分數作為代理,對分子空間進行有效的搜索,在隻對6%的空間進行對接的情況下,能夠發現90%的top hits。他們為他們的貝葉斯優化框架測試了三種分子表征技術:擴展連接性指紋 (ECFP);Mol2Vec (一種無監督的預訓練方法,用于生成分子向量);以及連續和數據驅動的描述符 (CDDD)。為貝葉斯優化框架測試的代用機器學習模型 (surrogate model) 是高斯過程和深度高斯過程。作者在包含25萬個分子的ZINC-250 k數據集、包含210萬個分子的Enamine數據集和包含9600萬個分子的超大型對接庫上測試了他們的模型。虛拟篩選工作針對兩種蛋白質受體進行了測試:Tau-管蛋白激酶1 (TTBK1,通常是神經退行性疾病的靶點) 以及SARS-CoV-2的主要蛋白酶。作者發現,最佳的分子表征方法主要取決于被訪問的數據集的大小。代理模型的選擇也取決于搜索空間,但程度較輕。他們的工作揭示了目前分子科學的機器學習文獻中的一個重要問題,即分子表征法可以在很大程度上影響算法的性能,因此必須設計成與被分析的目标相匹配的表征方法。
在hit-to-lead優化階段利用的另一種常見方法是使用QSAR進行屬性預測。QSARs是用于揭示化合物的結構特性和生物活性之間關系的任何計算建模方法。為此目的使用準确的機器學習算法可以大大減少實驗負擔,告知藥物化學家對一個給定靶點的最佳候選藥物,而不需要進行體外和體内實驗,從而節省時間和資源。
這種方法的一個例子是Wang等人的工作,他們使用各種機器學習算法,以人類腺癌細胞系 (Caco-2) 的滲透系數作為細胞培養模型來預測人類腸道的滲透性。他們的工作使用了多元線性回歸、偏最小二乘回歸、支持向量機回歸和提升算法,發現提升算法最适合他們的應用。所有機器學習模型的輸入是193個二維和三維分子描述符。除了建立滲透性的預測模型外,他們還能夠利用描述符消減的方法确定哪些描述符是最重要的,并能夠确定和分析他們的模型能夠捕捉到的潛在生物機制。這些模型的優勢可以進一步被理解,特别是當人們考慮到進行實驗以估計體内藥物滲透性所需的傳統的高成本和長時間的細胞培養期 (21-24天)。
QSAR模型也有了很大的擴展,因此基于圖形用戶界面 (GUI) 的網絡平台可以用來分析潛在的hit以評估多種特性。
ADMETlab是一個平台,可以進行藥物相似性分析、ADME預測、系統評價和針對超過280,000個條目的大型數據庫的相似性搜索。用戶可以以SMILES字符串或SDF文件的形式上傳自己的輸入結構,或使用在線編輯器繪制結構。可能的分析包括使用Lipinski、Ghose、Oprea、Veber和Varma規則進行藥物相似性預測,以及使用DrugBank和CHEMBL數據庫的輸入結構開發的分類模型。藥物親和性分類模型是使用MACCS指紋作為輸入,并使用随機森林分類器作為基礎機器學習模型建立的。此外,該模塊有9個回歸模型和22個分類模型用于預測ADMET終點。所有模型都使用分子描述符和指紋作為輸入,并使用低數據機器學習方法,如随機森林、支持向量機和偏最小二乘法。
SwissADME是基于網絡的工具的另一個例子,它提供了預測藥物相似性、物理化學特性和PK行為的模型。與ADMETlab類似,該網絡工具包含使用理化描述符和開源指紋作為輸入的模型,以親脂性、大小、極性、溶解度、柔韌性和飽和度作為代表屬性來評估生物利用度。多種PK模型,包括使用Potts和Guy建議的多元線性回歸預測皮膚滲透性的QSARs,Daina和Zoete使用BOILED-Egg模型預測血腦屏障滲透性和人類胃腸道被動吸收,也是SwissADME模塊内的PK輸出。此外,人們可以評估合成的可及性、雜亂性 (使用PAINS過濾器) 以及使用Brenk過濾器對測試的分子進行"類lead性"分析以找到可優化的候選分子。這些模型和平台提供了可訪問的用戶界面,藥物化學家可以在其中評估大量的分子,并以合理的信心促進化合物的排序。QSAR模型的發展有了很大的提高,這些模型是針對某些靶點的,也是對小分子治療活性的普遍評價。Neves等人曾簡潔地總結了QSAR模型在虛拟篩選中的應用。
對預測一個給定分子的生物相關特性的任務的補充是反QSAR或分子生成問題,它涉及到生成具有感興趣的特定特性的新型化合物。為了更好地理解逆向QSAR的挑戰和由此采用的策略,有必要了解從分子搜索空間中闡明一個潛在候選藥物的過程。對所有可能的分子進行系統分析以找到最佳治療候選物是一項特别艱巨的任務,這主要是由于小分子領域内的大量搜索空間。在這個空間内,所有可能的候選分子估計在1020到1060個之間,這取決于搜索标準。最近在彙編小分子數據庫 (如ZINC29和ChEMBL) 方面的進展,以及在分子表征、計算方法和處理能力方面的進展,推動了重大進展和一些研究,這些研究主要是利用基于生成神經網絡的模型生成随機的類藥物分子和靶點特定分子。
在一項工作中,作者從目前最先進的自然語言處理模型中獲得靈感,這些模型是生成式預訓練 (GPT) 模型,利用掩蔽的自我注意力來訓練一個基于transformer的架構,以預測用于分子生成的SMILES字符串序列。他們表明,他們的模型能夠高度準确地代表化學空間,在分子多樣性、有效性和特定屬性方面,如拓撲極地表面積 (TPSA) 和分配系數,如logP等等。另一種用于這類問題的方法是強化學習。Popova等人利用生成性和預測性神經網絡來生成具有所需理化和生理特性的化學上可行的SMILES字符串。在這項研究中,作者使用SMILES字符串作為輸入分子表征,其中生成模型和預測模型分别使用監督學習方法進行訓練,然後在強化學習環境中進行聯合訓練,以生成針對特定理化性質 (如熔點或疏水性) 的新型分子,以及對Janus蛋白激酶2等靶點具有抑制活性的類似化合物。
除了生成新的治療分子外,人們還必須考慮可行性限制,如建議化合物的"可合成性",以确保産品在商業上可行。合成分析,即尋找合适的起始材料來生産一個特定的分子,是分子生成任務中的一個重要考慮因素。越來越多的工作現在已經促成了這樣一種狀态:現在有大量的數據庫和搜索算法,不僅能夠識别具有感興趣的特性的可合成分子,而且還能建議新的、更有效的合成路線。基于模闆的方法使用神經網絡對可能的化學反應途徑進行排序,這些途徑以前是手工編碼或從數據庫中得出的。相反,無模闆的方法對可能的反應途徑不做任何假設,并使用基于圖形或基于自然語言的方法來預測從市面上的起始材料到感興趣的分子的反應途徑。這些研究是确定和設計候選藥物的重要步驟,這些候選藥物不僅具有預期的藥用特性,而且實際上是可以合成的。
候選藥物選擇的混合方法
除了分子特性預測和逆向分子生成外,在設計時對人體PK和PD反應的預測也是非常重要的,可以确定最可能的候選藥物,提供足夠的藥物暴露,在臨床上引起預期的藥理作用。
實現這一目标的重要第一步是預測PK參數,如藥物濃度與時間曲線下的面積 (AUC) 、清除率 (CL) 、分布容積 (Vd) 、半衰期 (t1/2) 、最大濃度 (Cmax) 、達到Cmax的時間 (tmax) 和生物利用率 (F)。這些都是來自藥物濃度與時間曲線的變量,并給出了藥物在體内行為的總體信息。到目前為止,有幾項計算模型的研究,可以從化學結構中預測人類和動物的PK參數。
值得注意的是,Kosugi和Hosea表明,機器學習模型,特别是随機森林模型和徑向基函數模型 (在測試的8個機器學習模型中) 對大鼠的CL預測提供了一個很好的替代傳統方法 (如體外-體内推斷),有可能在藥物發現管線的早期使用。盡管這些模型獲得了相當的性能,但在大多數情況下,它們隻限于預測一個或兩個PK參數,更重要的是由于它們的黑箱性質,沒有納入對決定PK參數的基本ADME過程的理解。
為了解決機器學習模型的黑箱結構的局限性,目前正在研究使用機器學習和機理模型相結合的混合方法。特别是,這些方法将機器學習驅動的化合物相關信息,如ADME特性 (滲透性、pKA、親脂性、内在代謝等) 與基于生理學的藥代動力學 (PBPK) 模型框架相結合,這類框架使用一組常微分方程 (ODE) 和生理學參數,如血流、組織體積、血細胞比容和代謝酶表達,描述藥物通過血液在體内不同組織區間的運輸,以預測PK曲線。
Hosea和Jones證明,通過采用市面上的軟件包,如ADMET predictor和Gastroplus,可以利用計算和體外信息來預測PK曲線。Antontsev等人使用了一種混合方法,将機器學習優化和機理建模結合起來,模拟化合物的血漿濃度曲線,在改變logP (親脂性描述符) 的同時,能夠高度準确地證明藥物濃度時間曲線和組織分配系數。最後,Chen等人使用了一種混合方法來開發基于決策樹的方法,該方法在訓練數據集内納入了機械學的PK/PD方法。這種方法在較小的已知化合物數據集上訓練模型,以揭示ADME參數與較大的未知化合物樣本的PKPD或PBPK模型的輸出參數之間存在的關系。這些模型不僅在早期藥物發現管線中具有特殊的效用,主要是由于在這個空間中存在少量的數據點,而且盡管數據有限,也可以幫助識别濃度-時間曲線和預測的ADME特性之間的關系。
除了從ADME特性預測PK曲線外,從臨床前到臨床階段的PK和PD反應曲線的轉化在選擇候選藥物時也起着重要作用。盡管傳統的PK/PD方法已被證明在劑量預測方面是強大的,但由于缺乏數據和經過驗證的從臨床前模型到人體的轉化方法,它們的實施仍然是一個挑戰。這導緻在早期藥物發現中開發的模型必須包含許多假設,而這些假設的驗證是具有挑戰性的。因此,人們對利用機器學習技術來提供轉化建模工作中使用的參數的更可靠的預測越來越感興趣。
Lu等人開發了一個神經PK/PD模型,該模型預測的劑量反應曲線似乎是可推廣的,适用于未經測試的給藥方案。同樣,Kosugi等人将一個機械性的神經藥代動力學 (neuroPK) 模型與兩種機器學習方法 (随機森林回歸和高斯過程) 進行比較,以預測未結合分子的大腦-血漿的分配。他們的分析結論是,在化學适用性領域内與神經PK模型相比,機器學習模型表現更好,但在使用外部測試集時表現更差。這突出了機器學習模型的一個主要缺點,即當外推到所使用的訓練數據集之外時,預測能力下降,特别是在基于樹的方法 (如随機森林) 的情況。盡管如此,目前的機器學習方法在存在重大知識差距的情況下是非常有用的,如預測生物利用度,其值是不可預測和高度可變的,或者在個性化醫療領域,使用傳統的群體PK方法來區分個體患者并決定個體給藥策略可能具有挑戰性。
結語
近年來,機器學習方法在早期藥物發現中的應用越來越受到重視。分子表征、計算方法和計算能力的改進促進了這些方法的顯著改善和更廣泛的采用,特别是在早期藥物發現的範圍内。
在本文中,我們強調了這些領域的最新進展,重點是分子篩選和優化,以及候選藥物的選擇。越來越多的證據表明,利用QSAR模型進行ADMET預測、逆向分子生成和PK預測對于分子篩選和優化具有極其重要的意義。此外,機器學習模型的應用與機理模型一起可用于分子篩選和優化,最終有助于對候選藥物進行排序和闡釋。在這些領域應用機器學習的主要優勢包括提高取樣效率,減少實驗負擔和時間,以及改善安全和有效分子的識别。
盡管如此,該領域仍然存在挑戰,包括那些與臨床前和臨床數據的可用性、代表性和統一性有關的挑戰。數據标準化是該領域内鼓勵藥物發現和開發管線的不同階段之間交叉合作的一個巨大機會。此外,我們需要确保改善藥物開發各階段之間的溝通,并采取循序漸進的方法,實時采取糾正措施,防止無效的分子進入臨床開發的後期階段。這些挑戰需要得到解決,以促進這些建模框架在整個制藥業的采用。
參考資料
Pillai N, Dasgupta A, Sudaskorn S, Fretland J, Mavroudis PD. Machine-learning-guided early drug discovery of small molecules. Drug Discov Today. 2022 Mar 29:S1359-6446(22)00127-1. doi: 10.1016/j.drudis.2022.03.017
上一篇
《中醫特效處方集》
有話要說...