未來十年,AI藥物研發(fā)新范式和浪潮

未來十年,AI藥物研發(fā)新范式和浪潮的圖1
傳統(tǒng)的藥物研發(fā)高度依賴藥化專家的個人經(jīng)驗與創(chuàng)造力,不可避免地存在周期長、成本高、成功率低等問題。一個創(chuàng)新藥從 研發(fā)到最后上市,需要花費數(shù)十億美元和10~15年的時間 。鑒于種種痛點,如何將人工智能(AI)藥物研發(fā)新范式應(yīng)用于藥物研發(fā)領(lǐng)域是制藥行業(yè)一直以來探索的革新方向。隨著近年來AI在各個領(lǐng)域的巨大成功,基于AI的藥物研發(fā)勢必成為醫(yī)藥行業(yè)的革命性力量,有望從根本上改變傳統(tǒng)的試錯藥物設(shè)計流程,基于AI的藥物設(shè)計流程如圖1所示。
未來十年,AI藥物研發(fā)新范式和浪潮的圖2
圖1. AI可以通過不同的方式進行藥物開發(fā),包括藥物篩選、多向藥理學(xué)、藥物再純化、化學(xué)合成、藥物設(shè)計等
未來十年,AI藥物研發(fā)新范式和浪潮的圖3
目前,基于AI的藥物設(shè)計的確取得了可喜的進展。例如Insilico Medicine應(yīng)用深度學(xué)習(xí)技術(shù),發(fā)現(xiàn)了強效的DDR1抑制劑。英國Exscienceia公司開發(fā)了世界上第一個AI設(shè)計的藥物(DSP-1181),于2020年進入第I期臨床試驗,2021年又開發(fā)了另外兩種臨床試驗藥物。DeepMind的AlphaFold 則是另一個革命性的突破。其前所未有的結(jié)構(gòu)預(yù)測精度可以對基于結(jié)構(gòu)的藥物設(shè)計產(chǎn)生潛在的影響,特別是對于尚未從結(jié)構(gòu)上解決的新靶點。
 
盡管在以AI為基礎(chǔ)的藥物開發(fā)方面取得了上述令人興奮的成果,但我們?nèi)匀粺o法確定這些早期成果能否轉(zhuǎn)化為更有效、成功率較高的藥物。藥物開發(fā)中的關(guān)鍵問題是候選分子在臨床試驗中的失敗。提高臨床試驗的成功率可以說是降低總成本的最深刻因素,超過其他階段的節(jié)省。主要挑戰(zhàn)是識別不僅有效而且不會引起毒性和其他意想不到的副作用的候選分子。AI如何對此有所幫助?我們需要重新思考如何將AI納入藥物開發(fā)途徑。在這方面,我們強調(diào)兩種范式,即主動學(xué)習(xí)和可解釋的AI,作為基于AI的藥物發(fā)展的未來方向。
 
作為一種數(shù)據(jù)驅(qū)動的方法,基于AI的藥物研發(fā)的優(yōu)勢在于能夠挖掘大規(guī)模數(shù)據(jù)并提取對人類來說可能不太顯著或過于復(fù)雜的模式。因此,如何真正利用數(shù)據(jù)的價值是構(gòu)建成功的AI模型的關(guān)鍵。將AI用于藥物開發(fā)過程的一個常規(guī)和流行的范式是,從實驗數(shù)據(jù)(例如高通量篩選、試驗/動物驗證數(shù)據(jù))中線性調(diào)用AI模型,以方便預(yù)測。
未來十年,AI藥物研發(fā)新范式和浪潮的圖4
圖2.傳統(tǒng)的基于AI的藥物研發(fā)范式,AI與數(shù)據(jù)生成以線性方式連接
 
在這種范式中,AI模型通常被用來篩選潛在分子的虛擬庫,并預(yù)測那些可能具有理想特性的虛擬庫,這些特性可以通過下游實驗加以驗證。這種線性范式的主要局限在于新發(fā)現(xiàn)的效率:模型的預(yù)測雖然具有潛在的信息,但直到實驗驗證才是"受過訓(xùn)練的猜測"。不幸的是,用高通量篩選的巨大努力來徹底驗證預(yù)測模型往往是不可行的。為了應(yīng)對這一挑戰(zhàn),逐漸得到認可的一個很有前途的解決方案是主動學(xué)習(xí),它是AI的一個子領(lǐng)域,將數(shù)據(jù)和計算緊密結(jié)合起來,以改進預(yù)測模型。主動學(xué)習(xí)將傳統(tǒng)的基于AI的發(fā)展從線性過程轉(zhuǎn)變?yōu)榈妒饺鐖D3所示。
未來十年,AI藥物研發(fā)新范式和浪潮的圖5
圖3.基于AI的藥物開發(fā)主動學(xué)習(xí)范式,AI與數(shù)據(jù)生成形成迭代反饋回路
 
主動學(xué)習(xí)不是將AI和實驗生物學(xué)作為過程中的孤立工具,而是在兩者之間創(chuàng)建一個相互告知的互動反饋回路,以改善整體結(jié)果。例如,在對初始公共數(shù)據(jù)集進行訓(xùn)練并預(yù)測虛擬庫中分子的性質(zhì)后,AI模型可能會通過提出少數(shù)分子,包括預(yù)期成功的分子和預(yù)期失敗的分子來規(guī)劃下一步的步驟,以便進行實驗驗證。使主動學(xué)習(xí)具有吸引力的是藥物開發(fā)者可以迭代地利用AI生成的假設(shè)設(shè)計并執(zhí)行下一輪實驗的迭代循環(huán):AI模型可以先推薦分子進行合成和驗證,驗證結(jié)果再用于進一步修正或加強模型的預(yù)測能力,模型的新預(yù)測告知另一個測試和分析周期。這些數(shù)據(jù)計算相互作用從而更有效地指導(dǎo)藥物開發(fā)者發(fā)現(xiàn)具有理想性質(zhì)的新分子。此外,數(shù)據(jù)計算循環(huán)還允許生成專門針對AI應(yīng)用程序的數(shù)據(jù)。相比之下,現(xiàn)有數(shù)據(jù)存在與數(shù)量或質(zhì)量相關(guān)的局限性,可能并不適用于每一種AI算法。許多AI驅(qū)動的藥物發(fā)現(xiàn)公司,如Insitro已經(jīng)將AI與數(shù)據(jù)生成結(jié)合起來以發(fā)現(xiàn)新的治療藥物,而不是將其中一個放在另一個優(yōu)先位置上。
 
除了能夠充分挖掘數(shù)據(jù)的價值之外,這種范式的另一個優(yōu)點是AI與人類智能之間的協(xié)同作用,醫(yī)學(xué)化學(xué)家可以引導(dǎo)AI更精確和更有創(chuàng)造性,AI可以增強專家發(fā)現(xiàn)改進和新穎藥物的能力。然而,這需要對人類具有解釋力的AI模型,即揭示預(yù)測背后的內(nèi)在理據(jù)。由于AI支持的藥物設(shè)計是一個高疊層決策問題,因此,盡管模型的預(yù)測精度令人印象深刻,但對模型做出一定預(yù)測的原因的解釋卻要求很高。將機理可解釋性模型與高精度模型相結(jié)合是AI加速藥物發(fā)現(xiàn)的關(guān)鍵。
 
了解成功的AI設(shè)計分子的機理解釋將引導(dǎo)未來的藥物設(shè)計。設(shè)計新藥本質(zhì)上是一個通過改變分子結(jié)構(gòu)來優(yōu)化藥理活性的問題,識別與之相關(guān)的結(jié)構(gòu)元素至關(guān)重要。例如,在基于AI的抗體設(shè)計中,一個揭開抗體與抗原殘基之間存在相互作用的模型將解釋高性能抗體的結(jié)構(gòu)基礎(chǔ)。
 
大多數(shù)現(xiàn)代AI模型,如深度神經(jīng)網(wǎng)絡(luò),都是“黑匣子”,回避了人腦的可達性,這可能會妨礙科學(xué)家評估AI生成假設(shè)的新穎性或可靠性。以Insilico公司AI發(fā)現(xiàn)的DDR1抑制劑為例:發(fā)現(xiàn)該化合物與市售藥物Ponatinib高度相似。Ponatinib是一種DDR1抑制劑,針對許多其他激酶,由于其潛在的副作用,被美國FDA給出盒裝警告。鑒于其與Ponatinib的驚人相似性,Insilico化合物的選擇性和安全性應(yīng)該受到質(zhì)疑。這個例子突出了AI模型的可解釋性和透明性對于藥物發(fā)現(xiàn)的重要性。
未來十年,AI藥物研發(fā)新范式和浪潮的圖6
圖4. AI發(fā)現(xiàn)新DDR1抑制劑工作流程以及優(yōu)勢化合物結(jié)構(gòu)
 
最好的是,AI模型應(yīng)該揭示它如何達到特定的預(yù)測,例如,基于哪些數(shù)據(jù)集來訓(xùn)練分子。了解AI預(yù)測的洞察力和邏輯性,將有助于科學(xué)家避免錯誤原因的正確預(yù)測,揭示對人類心靈過于微妙的警示。可解釋AI是機器學(xué)習(xí)共同體中一個活躍的方向,它在藥物開發(fā)中的應(yīng)用將有利于創(chuàng)造AI、實驗生物學(xué)和人類反饋的迭代循環(huán)。
 
幾十年來,藥物開發(fā)一直都費時費力,且費用昂貴。AI令人印象深刻突破使我們的思維定勢轉(zhuǎn)向設(shè)計藥物的新范式。我們預(yù)計,未來十年基于AI的藥物開發(fā)將呈現(xiàn)出可解釋性AI方法和主動學(xué)習(xí)算法的深度介入,這些方法迭代地改進工作流程,產(chǎn)生科學(xué)家可以對藥物開發(fā)的每一個階段進行監(jiān)控、分析和理解的可解釋性見解。

未來十年,AI藥物研發(fā)新范式和浪潮的圖7
圖5. 部分國內(nèi)AI制藥公司融資情況
 
未來十年,AI藥物研發(fā)新范式和浪潮的圖8
2006年以來,在高性能計算和深度學(xué)習(xí)的推動下,人工智能發(fā)展迅速,進入第三次浪潮,開始廣泛應(yīng)用于圖像分類、語音識別、知識問答、人機對弈、無人駕駛等領(lǐng)域。也促使很多創(chuàng)業(yè)公司以及互聯(lián)網(wǎng)科技企業(yè)開始探索人工智能在藥物研發(fā)中的應(yīng)用。全球各大藥企紛紛布局AI藥物研發(fā),一些AI藥物研發(fā)公司借助這股浪潮紛紛開啟上市之路。

國內(nèi)AI制藥公司投資熱度也不斷高漲,多家公司兩輪融資時間間隔不超過一年,如晶泰科技從成立以來,已累計完成 6輪融資,其中C 輪在當(dāng)時創(chuàng)下全球AI藥物研發(fā)領(lǐng)域單筆融資額的最高紀錄。互聯(lián)網(wǎng)科技巨頭也紛紛布局AI制藥領(lǐng)域,如阿里巴巴、騰訊、字節(jié)跳動、百度、華為,他們依托自己的云計算服務(wù)平臺,自主研發(fā)AI藥物設(shè)計算法,阿里在基因測序以及醫(yī)學(xué)診斷方面表現(xiàn)出優(yōu)勢,騰訊在ADMET預(yù)測和分子合成路線預(yù)測方面的技術(shù)也日趨完善,國內(nèi)的AI制藥公司正處于萌發(fā)和快速成長階段。

 2020-2021上市的AI/計算制藥公司匯總

未來十年,AI藥物研發(fā)新范式和浪潮的圖9

未來十年,AI藥物研發(fā)新范式和浪潮的圖10
隨著各大AI制藥公司的茁壯成長,以及云計算平臺技術(shù)的進步,我們相信未來AI制藥一定會有著巨大的進步。這里我們再一次提及基于AI技術(shù)的AlphaFold2,它被科學(xué)家認為是AI技術(shù)在量變到質(zhì)變的一場革命。過去半個多世紀,生物學(xué)家主要利用X射線晶體學(xué)或冷凍電鏡(cryo-EM)等實驗技術(shù)來破譯蛋白質(zhì)的三維結(jié)構(gòu)。這些方法耗時長,失敗率高。如今,人類已經(jīng)發(fā)現(xiàn)生命體內(nèi)存在2億多個蛋白質(zhì),而其中只有約17萬蛋白質(zhì)的結(jié)構(gòu)經(jīng)實驗破解。AlphaFold2的問世,在一年之內(nèi)就實現(xiàn)了預(yù)測這些蛋白質(zhì)中58%的結(jié)構(gòu),因為無固定結(jié)構(gòu)的氨基酸比例很大,58%的結(jié)構(gòu)預(yù)測已經(jīng)接近極限了。
 
諸如北鯤云這類易用、快速、經(jīng)濟的云超算平臺的普及,越來越多的藥物研發(fā)工作者可以非常方便使用到這些最先進的AI技術(shù)工具。北鯤云超算平臺部署了AlphaFold2工具,而且借助最新硬件資源(如NVIDIA A100),預(yù)測2116個氨基酸的三維結(jié)構(gòu),只需要12個小時即可完成。快速、低成本的特性可以實現(xiàn)規(guī)模化預(yù)測,這無疑是AI制藥領(lǐng)域的一味催化劑。

借助北鯤云超算平臺,科學(xué)研究已無需自己配備高性能的計算機,只需要登錄北鯤云超算平臺在線操作即可,為科研的發(fā)展提供極大的助力。以下是北鯤云超算平臺比較吸引我的幾點優(yōu)勢,供大家參考。

  • 海量算力隨時調(diào)用,按需使用極大地節(jié)省計算成本
  • 支持多種作業(yè)提交方式,操作簡單
  • 24小時在線服務(wù),技術(shù)咨詢詳細耐心

  • 計算任務(wù)進度實時追蹤

  • 數(shù)據(jù)分級分權(quán)治理,數(shù)據(jù)安全有保障

掃碼注冊北鯤云,免費領(lǐng)取200算力金,快來體驗吧!


未來十年,AI藥物研發(fā)新范式和浪潮的圖11


未來十年,AI藥物研發(fā)新范式和浪潮的圖12
END


未來十年,AI藥物研發(fā)新范式和浪潮的圖13
未來十年,AI藥物研發(fā)新范式和浪潮的圖14
李建宗博士
畢業(yè)于四川大學(xué)生物信息學(xué)專業(yè),目前工作于成都倍特藥業(yè)有限公司,專注于新藥研發(fā)領(lǐng)域和計算機輔助藥物設(shè)計方法的應(yīng)用,已發(fā)表分子模擬方面的SCI論文10余篇。

未來十年,AI藥物研發(fā)新范式和浪潮的圖15
未來十年,AI藥物研發(fā)新范式和浪潮的圖16

未來十年,AI藥物研發(fā)新范式和浪潮的圖17

添加【大魚】 進入【北鯤云超算交流群】
參與技術(shù)進階討論

未來十年,AI藥物研發(fā)新范式和浪潮的圖18 未來十年,AI藥物研發(fā)新范式和浪潮的圖19

登錄后免費查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項目客服
  • 培訓(xùn)客服
  • 平臺客服

TOP