人工智慧設計新藥，有泡沫，也有啤酒花

►圖片來自singularityhub.com

編者按

新藥研發是一個高投入、高風險、高收益的行業，以至於每次在新技術誕生之後，追求者趨之如騖，如同注射了一劑“強心針”。備受關注的人工智慧能否應用於新藥研發領域，並帶來一場變革？上週二，來自瑞璞鑫生物科技有限公司李偉博士和北京生命科學研究所黃牛研究員，從人工智慧能否理解疾病以及如何應用在新機制和新靶點等方面，探討人工智慧在疾病診斷和新藥研發中的應用。本文將繼續探討人工智慧在新藥研發中的實與虛，它有哪些優勢，又有哪些不足？

撰文 | 李偉（瑞璞鑫（蘇州）生物科技有限公司）

黃牛（北京生命科學研究所）

責編 | 葉水送

●　●　●

新藥研發的目標是找到可調控機體生物學功能的實體物質，如小分子、大分子或生物活體等。以小分子新藥研發為例，從靶點的發現與驗證，到先導化合物的發現與優化，再到候選化合物的挑選及開發，最後進入到臨床研究，每一個階段都有多種可用的方法和技術，各自優缺並存， “擇其善者而用之”。

但每一階段的失敗率仍高居不下，新方法和新技術如果能有所幫助，自然博人眼球。近年來，人工智慧在生物醫藥研發領域異軍突起，目前主要集中於靶點的發現與驗證（如何理解疾病）和先導化合物的發現與優化（如何設計藥物）。人工智慧能否理解疾病，

此前筆者的一篇文章“人工智慧能否顛覆新藥研發”已有詳細論述。接下來這篇文章願與大家聊一聊人工智慧在藥物設計中的實與虛。

人工智慧需基於物理學原理的計算化學方法

透過現象看本質，藥物與靶標的結合是一個自由能驅動的物理學過程，無需任何化合物活性資料的第一性原理計算，無疑是最直接和最精確的方法。然而目前基於物理學原理的計算化學方法的速度和精度，還難以精確描述這樣一個分子識別過程，結合自由能計算結果不盡如人意。基於大資料而崛起的人工智慧，能填充這樣的空白嗎？因為人工智慧本身也是計算，所以資料驅動的人工智慧與基於物理學原理的計算化學方法或電腦輔助藥物分子設計（CADD）千絲萬縷斬不斷。

從歷史的時間線來看，上世紀80年代的CADD，其劈風斬浪之勢頭絲毫不遜色於當前的人工智慧。 1981年10月5日，《財富》雜誌就曾以“Next Industrial Revolution: Designing Drugs by Computer at Merck”的標題稱讚CADD興起的革命。可到了90年代，伴隨著高通量篩選和組合化學等新技術的發展（同樣經歷熱捧後跌落的過山車），以及CADD並沒有帶給製藥業期待的革命性進展（雖然在HIV蛋白酶抑制劑等藥物的研發的確發揮了重要作用）， CADD 在藥物研發中的地位時常顯得尷尬， “他們說這個化合物算出來不錯？那我們試試；他們說這個化合物算出來不好？那我們試試”。

從明日之星到明日黃花，不過匆匆十幾年的時間，人們並沒有那麼長的耐心。基於資料訓練集的人工智慧會讓人想起曾經的定量構效關係（QSAR）。

定量構效關係受限於演算法的直白、資料集的偏向性和過擬合，預測能力無法令人滿意。

但近些年來，計算能力的迅猛提高和新的演算法發展，對基於物理學原理的計算化學領域的發展有較大的推進作用，有望進入良性迴圈。與目前已有海量文獻顯示其實用效果的CADD技術相比，在早期新藥研發階段，人工智慧的勝算如何？

相比而言，小分子與靶標的體外相互作用資料（Ki、Kd、IC50等）是較高品質的資料集：相互作用體系簡單，資料標識清晰，獨立變數少，歷史積累的資料量大。如果說人工智慧要在新藥研發領域真正成為一個工具（tool）而不是一個玩具（toy），預測小分子與蛋白的結合一定是最先的突破點之一。

小分子藥物基本上都是通過與體內各種生物大分子進行分子識別和結合來發揮作用（藥效動力學）以及被作用（藥代動力學），所以如果能夠計算結合強弱，那麼除了活性預測，藥物的吸收、分佈、代謝、排泄和毒性（ADMET）以及老藥新用等等都可得益。這也是為什麼計算化學家一直在用基於物理學原理的方法，努力地把結合能的計算推動到更加精確，譬如近年來自由能微擾（FEP）在某些生物體系能精確到1 kcal/mol，接近試驗測量誤差。 FEP得益於演算法的改進和計算能力的迅猛進展，不過在真實世界的使用中，其速度、精度和廣度仍然有急需提升的必要，人工智慧能否參與其中加速其進展，是一個非常有意思的問題。

其實神經網路早在上世紀90年底就已運用於定量構效關係的活性預測，因為之前提到的多種原因而暫時擱淺，這幾年深度神經網路（DNN）又在這一領域抬起頭來。Merck和多倫多大學合作的發現，與之前的定量構效關係相比，DNN能較好地預測測試集中化合物的活性；基於深度卷積神經網路（DCNN）的Chemception在活性預測方面也表現較好，且無需提供傳統定量構效關係所需的分子描述符（疏水常數等理化特徵），而是僅僅基於化合物結構式提取相關特徵進行學習擬合。雖然前景喜人，但仍有問題需要回答。傳統定量構效關係本已詬病於其擬合的方程對後續理性設計的指導不足，而相比于傳統定量構效關係，人工智慧的問題在於，黑匣子更“黑”了：其多層神經網路對資料的處理和特徵的提取，常以人類理性無法理解的方式進行，這也許是人工智慧在真實世界應用的障礙之一。

除了在定量構效關係中用於活性及ADMET預測，人工智慧在分子對接（Molecular docking）的打分函數（Scoring function）上也有一定的進展。基於靶標結構的藥物設計（SBDD）需要依賴打分函數來預測小分子與蛋白的相互作用強弱及排序。傳統的打分函數主要基於力場（Force field-based）、經驗性函數（Empirical-based）和知識（Knowledge-based）。

隨著人工智慧的興起，基於人工智慧的打分函數也隨之而來。目前表現較好的人工智慧模型主要是先通過傳統的分子對接軟體產生大量小分子-蛋白質三維複合物結構作為訓練集，深度學習小分子與蛋白相互作用的關鍵特徵，類似於圖像的模式識別，獲得人工智慧打分函數。基於DCNN的Atomwise開發的 AtomNet以及IBM Watson開發的DeepVS基本原理都與上述類似，並且都在虛擬篩選的方法學測試中表現出一些優勢。

然而，制約資料驅動的人工智慧打分函數的關鍵是缺乏高品質的蛋白-配體複合物結構及其相應活性的大資料集，尤其是資料庫中絕大多數的非活性化合物的結合模式完全依賴于分子對接軟體預測的精度，及化學環境是否有足夠的多樣性、區分度和正確標識等都是值得探討的問題，而且這種打分函數本身並無合理處理蛋白質柔性的方案，還有小分子活性構象的能量計算，活性口袋水分子的取捨，長程相互作用等影響因素。需要強調的是，評估任何新計算方法的唯一標準是，是否能成功用於預測新的分子，今後這方面還需要加強資料共用以及同目前通用的分子對接方法進行頭對頭的比較。

本質上是物理過程的藥物和靶標結合，沒有理由人工智慧應該取代物理，也沒有理由物理應該排斥人工智慧。從物理學的基本原理來說，量子力學/化學的計算是目前我們可以達到的計算最高精度。然而在真實世界中，精確量化計算在生物體系中的計算量之巨大，是我們無法承擔的。高精度量化計算結合人工智慧會是革命性的進展。2007年，Jorg Behler和 Michele Parrinello 開創性利用高斯徑向函數和高斯角函數作為基組編碼原子位置資訊，引入神經網路來表徵量化計算（DFT）勢能面，比DFT的計算要快上好幾個數量級（2017年，ANI-1更進一步，使用修改後的2007年Behler和Parrinello的symmetry function建立single-atom atomicenvironment vectors 來表徵分子），所以深度學習可基於DFT量化計算結果進行訓練，學習產生的ANI-1可以計算比訓練集所含體系更大的體系，而且和DFT的量化計算準確程度基本一致，但是速度要快得多。量化計算+人工智慧，值得期待。

如何用人工智慧進行藥物設計與合成

上世紀90年代，全新藥物設計（De novo drug design）就已有相關的文獻報導，包括人工神經網路的應用。不過受限於分子生長和連接方式、成藥性、合成難易及計算資源的問題，全新藥物設計能直接成功的案例並不多，多數還是需要藥物設計人員在自動生成的分子上進行調整。藥物設計可被認為是一種模式識別，藥物化學家對於藥物分子結構的識別，對藥物分子合成路線的分析以及藥物分子的生物學活性分析。人工智慧要實現自動化的藥物設計，其中一種策略是類比藥物化學家的模式識別過程，包括基於原分子結構的新分子的生成（即化合物庫的產生，定向或不定向），新分子與靶標的相互作用的評估和排序（之前提及的打分函數等），以及新分子合成路線的評估（人工智慧設計合成路線，後續有討論）。如果人工智慧能在這三方面有所突破，再加上自動化和高通量的活性測定方法，在某些合適的專案上，人工智慧是有可能做到自主設計藥物分子的。而且藥物設計這一工作，正是人類智力的體現之一，雖然可能人工智慧實現的方式不同，但殊途同歸。

基於先導化合物分子結構來設計新分子，對藥物設計人員而言，通常是每次設計幾個、十幾個或者幾十個新化合物，但是對於人工智慧而言，涉及到一個化合物虛擬庫的產生及其化合物多樣性。化合物結構的多樣性一直是新藥研發的重要源頭，當年追捧的組合化學，和現如今加了標籤的DNA編碼庫（DEL），都是新藥研發人員為增加化合物多樣性做出的嘗試和努力。據化學家預測有1060的drug-like化合物可以被合成。伯恩大學的Reymond創造的Generated DataBase（GDB），從2006年的GDB-11包含2640萬個虛擬的最多11個原子的化合物，到2012年的GDB-17包含1660億個虛擬的最多17個原子的化合物，涵蓋著廣闊的成藥空間。對人工智慧而言，化合物資料標識清晰，適合深度神經網路的學習。迴圈神經網路（RNN）能夠接受序列資料作為輸入特徵，之前是用於自然語言處理領域，但如今在產生新化合物結構方面效果顯著。AstraZeneca的研究人員以常見的SMILES字串格式表徵化合物，RNN首先通過類似學習語言的方式學習大量的SMILES文本是如何表徵分子，由此擬合出的模型可以生成全新的SMILES字串，即全新的分子且無偏向性，適用於虛擬篩選等各種用途；其次再基於遷移學習，將之前訓練出的模型用某個針對性靶點的小分子資料集進行再度訓練，而且這個小分子資料集無需大量的資料；然後這個微調後的人工智慧模型，在針對兩種病原菌的藥物設計中，產生的分子與真實世界中藥物化學家設計的化合物能有部分重合。

但仍有問題需要回答。首先，人工智慧所產生的化合物，與藥物化學家所認可的符合藥化規則的化合物，差異有多大？如果都是成藥性差（如化學不穩定）的分子，也沒有繼續優化和開發的價值。其次，人工智慧所產生的化合物庫自身內部的多樣性，目前發表的人工智慧工作並沒有很好的探究，至少得比得上GDB-17的吧。努力擴展化學空間，從中尋找滄海遺珠，仍然是人類及人工智慧所應追尋的重要目標。

另一個方向則是人工智慧在有機合成領域的進展。化學體系比生物體系簡單，並且當前可供人工智慧學習的化學反應的數量巨大。目前合成路線的設計依賴于化學家的經驗和知識，最常用的策略是E. J. Corey提出的逆向合成。不過最近IBM開始研究通過學習海量的專利及文獻中的化學反應來預測化學反應，將人工智慧在語言分析中的演算法轉移到對化學反應的解構上，從而把預測化學反應的問題轉變為語言翻譯的問題。不過該方法只報導了準確度（在測試集上為80.1%，如果噪音更大，準確度還會進一步降低），並沒有常見的用於評測新方法的特異性和敏感度，在真實世界中的實用性上可能需要打折扣。

2018年，Segler等人也在Nature發表了相關的工作，採用深度學習結合蒙特卡洛演算法，通過學習大量已經被多次驗證過的化學反應後，即可像人類一樣採用逆向合成的策略來設計合成路線，挑選出合適的起始原料。更重要的是，他們還展示了該人工智慧方法比目前常用的電腦輔助合成路線設計方法要高效，而且在雙盲測試中得到研究生水準化學人員的肯定。除去特別罕見和複雜的分子，如果大部分普通的化合物能通過人工智慧設計出成功率較高的合成路線，那的確是實質性的進展。即使該人工智慧與優秀的有機化學家相比有差距，但藥物設計人員仍然可以利用該人工智慧軟體快速初步評估化合物的合成難易程度，將精力集中到可行性更大的化合物上，與有機合成人員的合作變得更加高效。

新藥研發的產品是藥物，而藥物保護其商業價值的方式是通過專利。專利保護和破解，有時像兩位高手過招，勝負常在不經意間。藥物專利，尤其是最核心的化合物專利，文本結構化，化合物的保護空間和層次都比較嚴謹，如果人工智慧能通過比較學習海量的首創型新藥（First-In-Class）的化合物專利與模仿創新（Me-too / Me-better）的化合物專利之間化學結構的變化模式，尋找到至少純化學空間（不討論簡單修飾導致意想不到的效果的情況）上的專利保護方式和突破方式，其實也是以另一種方式實現了學習藥物設計，不過目前暫無研究報導。

最後，仍然需要問的問題是，藥物設計已有多年歷史，從完全的人腦設計，到目前常用的CADD手段和技術，文獻報導的成功案例多如牛毛。剛剛起步的基於人工智慧的全新藥物設計，能在多大程度上PK人類優秀的藥物設計家和現有的CADD技術？即使人工智慧能自動化生成化合物結構、預測活性、設計合成路線，但評估分子好壞仍然是一個問題。因為除了活性，藥物分子還需要綜合考慮藥代動力學和毒性等各方面的性質，有些標準並不完全清晰，不同藥物化學家對同一分子的評價也常常存在分歧，挑選臨床前候選化合物時並無放之四海皆准的規則可以利用。這方面如何教好人工智慧？仍然任重道遠。

虛與實：讀書百遍，其義自見？

目前的人工智慧高度依賴於高品質有標識的大資料，這就要求資料點是清晰的，同時是低成本的。人工智慧作為分析資料，提出假說的工具，最受歡迎的領域應該是缺乏假說，但又是驗證假說的成本低的領域。似乎新藥研發的曲調與當前人工智慧的氣質搭配並不那麼融洽，尤其是體內生物學相關的工作，比如新靶點的驗證耗時耗力，而驗證體外活性和化學合成的預測可行性更大一些。不過人工智慧仍然在進化，在CNN領域做出重要貢獻的Yann LeCun，認為雖然目前的人工智慧的成就大都依賴於監督學習，但是人工智慧應該發展的方向是不依靠大資料的非監督學習，因為非監督學習更像是人類學習的方式；這與 UCLA的朱松純教授提出的“小資料、大任務範式（Small data for bigtasks）”，即不是用大量資料，而是用大量任務來訓練人工智慧（淺談人工智慧：現狀、任務、構架與統一 | 正本清源《視覺求索》）有異曲同工之妙。

簡單來看，新藥研發人員，並不需要學習他人無數的專案之後，才能學會做新的項目（否則早就被開掉了）；James Black（諾貝爾獎獲得者，提出理性藥物設計）在折騰西咪替丁和BruceRoth（藥物化學家，世界最暢銷藥Lipitor的發明人）在擺弄阿托伐他汀時，也並沒有身經百戰；而目前的人工智慧需要學習多少專案才能成為Vagelos（Merck前總裁，公認的醫藥界領袖）。新藥研發歷來輸多勝少，失敗的原因涵蓋每個環節。倘若人工智慧去學習新藥研發的所有案例，也許得出的模型是把藥廠統統關門大吉。

新藥研發路途艱險，真實世界中更是狀況不斷，難以預測，即使財大氣粗，仍苦不堪言。大海行舟，茫茫無岸，任何新技術的誕生，都是對疲倦不堪的工業界的一劑強心針。對於新技術，我們追捧的是未來，但我們消費的也是未來。追逐熱點永遠是落後於熱點。雲計算、大資料和人工智慧都已經熱了一圈，現在區塊鏈正當火熱，也許不久的將來，我們還能看到“區塊鏈技術顛覆新藥研發”的投資新聞。

新藥研發圈也是江湖，江湖總有虛虛實實，真真假假，大佬未必可靠，草莽亦有英雄。欺山趕海，披星追月，追逐新藥永遠在路上。頭頂的星辰和腳踏的實地，缺一不可。披荊斬棘，需要的是一把好刀，好用即可，好看那是錦上添花。人工智慧不是戈多，人工智慧是實實在在正在我們身邊興起的事物。人工智慧有很多優勢，但也有很多不足，我們能做的，就是：仰望星空、腳踏實地，不忘初心、砥礪前行。

作者簡介

李偉，北京生命科學研究所博士畢業，計算化學和分子設計專業。曾在康龍化成（北京）新藥技術有限公司擔任高級研究組長，現任職瑞璞鑫（蘇州）生物科技有限公司藥物化學主管。

黃牛，北京生命科學研究所高級研究員。基於物理學原理的計算化學理論和分子類比技術，研究在分子識別過程（蛋白－蛋白，蛋白－核酸和蛋白－配體相互作用）中的自由能和空間構象的變化，從而指導蛋白質結構和功能的改造，以及加速新藥的設計與開發。

製版編輯：黃玉瑩|

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

商務合作請聯繫