“要么換行業,要么擁抱人工智能。”這是互聯網企業員工的感慨嗎?不,這是一位科學家的啟悟。
2020年蛋白質結構預測模型AlphaFold2橫空出世,上海交通大學物理與天文學院、自然科學研究院教授洪亮大受震撼。彼時他是計算化學領域的專家,志在借助各類裝置“看清”蛋白質的結構,并用傳統計算方法解釋其結構特點。AlphaFold2顛覆了這一切——它能廣泛預測蛋白質的結構,準確程度不亞于真實實驗所獲。
不出所料,AlphaFold的開發者德米斯·哈薩比斯和約翰·江珀在2024年斬獲諾貝爾化學獎,與他們一起獲獎的戴維·貝克同樣是借人工智能“破譯了蛋白質的密碼”。
到此,您或許還覺得這些都只是象牙塔里的事。不過,接下來將帶給您一點點震撼:尋常如食品、寶貴如藥物、高價值如醫美產品、產業化如工業用酶……都已開始領略人工智能的力量。而且,不僅僅是預測,AI已經開始改造這個蛋白質支撐起的廣大世界。
改造蛋白質的浪潮已來
人類生活離不開蛋白質,這一點不懂生物學也能了解。但是,人類社會的需求越來越多樣,要求越來越高端,天然蛋白質未必能滿足我們,科學家就開始考慮改造蛋白質了。
但是,這談何容易!
傳統方法改造蛋白質主要是依靠專家經驗和高通量實驗篩選,一般需要2至5年的研發周期,實驗數據少則幾萬、多則上億,成本更是千萬元量級。
不過,洪亮團隊改造蛋白質可以做到數十個項目同時進行,而且效率還不一般……
金賽藥業是國內生長激素龍頭企業,其產品純化時需要用到一種抗體(蛋白質的一種)。但這種抗體耐堿性很差,純化所必需的強堿環境會破壞其結構,導致抗體消耗很大。
怎么辦?洪亮團隊僅用4個月,交給企業改造而得的新抗體,耐堿性提高4倍,企業成本一年就可節約1500萬元。
難道洪亮團隊有什么魔法?其實他們只是主動擁抱技術浪潮而已——團隊開發的基于預訓練的通用人工智能Pro大模型扛起了所有。使用這一次從序列直達功能的大模型,研發周期可以月計算,產品更為穩定,活性更高,更不必說實驗數據只需約100個,成本低至100萬元。人工智能,為生命科學的基本流程按下了“加速鍵”。
為什么人工智能手段更強
為什么傳統方法改造蛋白質很困難?這與蛋白質本身的復雜性有關。自然界中參與構成蛋白質的氨基酸有20種,一個蛋白質分子一般由幾十個乃至數百個氨基酸組成,這些氨基酸按照一定序列連接肽鏈,一條或多條肽鏈遵循某些規律折疊才能得到蛋白質。
不難發現,即使只改變序列中某一個特定的氨基酸,也有19種選擇。而隨著想改變的氨基酸數量增加,可選方案的數量指數級增長,找到理想方案無異于大海撈針。
那人工智能是怎么做的呢?以Pro大模型為例,最關鍵的第一步就不同凡響:研究人員將要被改造的“野生”蛋白質序列上傳給模型,1到2個小時后,模型會輸出大約30個方案。
洪亮介紹,在此過程中,模型完成了兩輪篩選,一是在眾多有可能的改造方案中選出符合自然規律的,類似于將篩選范圍從“大海”縮小到了“水盆”;二是以熱穩定性、活性、親和力、衰減耐受性等功能為指標,對“水盆”里的方案進行蛋白質功能打分,進而根據功能需求將范圍縮小到“水杯”。
模型能發揮以上兩大核心作用,要從數據驅動說起。簡單說就是,投喂給模型足夠多的數據,它就能從中總結出規律,從而預測新的答案。
洪亮介紹,團隊向Pro模型投喂了近8億蛋白質序列數據和接近1億的蛋白質功能標簽,其中超過5億蛋白質序列和所有蛋白質功能標簽來自團隊及合作機構的長期積累,這是他們的核心優勢。
值得一提的是,功能標簽是該模型的“獨門秘笈”,借助它可以為蛋白質序列與前文提到的熱穩定性、活性、親和力、衰減耐受性等功能找到合理的對應方式。此前AlphaFold2預測蛋白質結構一鳴驚人,就是因為它完美實現了蛋白質序列到結構的對應,而蛋白質序列到功能的良好對應有助于蛋白質實現更優異功能,可謂改造蛋白質的“勝負手”。
從蛋白質到底盤菌,有可能嗎
改造蛋白質的可選方案從“大海”縮小到“水杯”之后,還要做什么呢?
第一步:濕實驗驗證,也就是將第一步中模型產出的方案拿去驗證,并將驗證結果反饋給模型,供其學習和調整。
洪亮團隊正進行濕實驗驗證
第二步:模型重復第一步的預測,給出新一批方案,大約也是30個。
第三步一般也是最后一步:通過濕實驗,從新一批方案中選出理想方案。
在洪亮團隊位于上海張江的工作平臺,我們可以看到,這里有濕實驗所需的各類實驗室,人工智能研究人員的工位就在實驗室外,大家交流起來很方便。“雖然我們訓練模型用了幾年時間,但為后來工作的效率打好了基礎。”洪亮說,現在眾多蛋白質改造項目同時進行,人工智能環節卻只需要兩個人,其余十余人主要是負責濕實驗。
現在,更有提升空間的其實是濕實驗,每輪濕實驗驗證需要1至2個月,每輪模型預測只需要1至2個小時。如果濕實驗的機械化、智能化程度進一步提高,改造蛋白質的速度還會加快。
對于科學家來說,擁抱新技術的腳步一旦邁出,就不會輕易停歇。“蛋白質做得差不多了,我們在往縱深探索,下一步要攻關底盤菌的人工智能工程化方案。”洪亮指的是將蛋白質的人工智能改造,擴展到人工智能生產,通過改造底盤菌的基因組,讓其高效生產目標產品。
如果要往更深層次理解,人工智能“攻下”蛋白質,其實是在“破譯”生命的路上突飛猛進。以人工智能的顛覆性速度,或許要不了多久,我們就能目睹從“破譯”生命到“修正”生命的變革。
半月談記者:董雪 吳振東 編輯:范鐘秀