聚乳酸生物可降解材料(可降解材料有哪些) 怎么設置qq空間形象墻(如何設置qq空間照片墻) 陰陽師業(yè)火原怎么打(陰陽師的業(yè)原火怎么打) plenty of可以放在句首嗎?(plenty of修飾可數(shù)還是不可數(shù)) AE教程 如何制作全息影像特效動畫(ae怎么做全息投影) dnf55冰龍怎么打(深淵冰龍15怎么打) 酚酞溶液測碳化深度(碳化深度怎么測) 泡茶用什么杯子(茶葉用什么杯子泡好) 商務簽證辦理流程及材料(商務簽證辦理流程及材料要求) 咖啡怎么做好喝又簡單(咖啡怎么做出來的) 如何讓EXCEL表格打印每頁都顯示標題行(excel標題行 每頁都顯示怎么打印出來) 2018年黑龍江高校排名 2018年黑龍江大學排名(黑龍江省所有大學排名榜) 摩斯密碼怎么敲視頻教學(摩斯密碼怎么敲視頻) 魔獸世界雷霆小徑之戰(zhàn)任務怎么開始(魔獸世界雷霆小徑之戰(zhàn)任務怎么開始視頻) 怎么在電腦上查看手機版網頁 wap(怎么用手機查看電腦版網頁) 生的五筆怎么打(盛的五筆怎么打) 手工制作圣誕帽教案(手工制作圣誕帽教案大班) 阿里巴巴服裝加工訂單(找服裝加工訂單) 大閘蟹的正確做法圖解(大閘蟹的正確做法圖解大全) 抗訴的意思(抗訴是什么意思) 如何選購嬰兒內衣?嬰兒內衣哪種好啊(買什么兒童的內衣比較好) 烤魚片的做法(空氣炸鍋烤魚片的做法) frp是什么材料圖片(frp是什么材料) 倫敦奧運會官方游戲london2012 110米欄攻略(倫敦110米欄奧運視頻) 別來玩狼牙新系統(tǒng)境界提升玩法介紹(狼牙該如何使用) 關于逆境中成長的名言(逆境有利于成長名言) 爬樓梯有什么好處?(爬樓梯有什么好處嗎) 八字不合怎么辦(名字和八字不合怎么辦) 寧濫勿缺下一句(寧濫勿缺) dnf補丁wegame怎么找(wegame中dnf補丁在哪?) 什么手機游戲可以賺人民幣(什么手機游戲可以賺人民幣 手游 手機) PDF文件怎么拆分成多個文件(怎么合并多個pdf) 乘法是什么符號的意思(乘法是什么符號) IP電話如何使用(ip話機怎么使用) 海底世界資料大全(關于海底世界的資料) 怎樣自己動手包書皮(怎么自己包書皮) 如何設置瀏覽器的無痕瀏覽(如何設置瀏覽器的無痕瀏覽功能) 春風圖片大全(春風圖) 摩爾莊園怎么加好友?(摩爾莊園怎么加好友安卓和蘋果) 【孤島驚魂5新曙光】攻略之如何釣魚(孤島驚魂新曙光釣魚需要魚餌嗎) 歐陽詢觀古碑文言文翻譯過程(歐陽詢觀古碑文言文翻譯) 和平精英電音盛典怎么擊破氣球(和平精英打爆氣球) 杭州學廚師怎么樣?工資怎么樣?(杭州學廚師怎么樣?工資怎么樣啊) 凹凸的筆畫順序(凹的筆畫順序) 港行的iPhone5 A1429開啟聯(lián)通LTE教程(港版a1530支持聯(lián)通4g嗎) dnf疲勞藥怎么購買(dnf哪里可以兌換疲勞藥) 32位能用什么剪輯軟件(適合32位系統(tǒng)的視頻剪輯軟件) 如何使用支付寶里有的功能去超市能讓你更省錢?(支付寶如何在超市使用) 如何使用淘寶點外賣服務 (如何使用淘寶點外賣服務中心) 酚類化合物有哪些性質(酚類化合物有哪些呀)
您的位置:首頁 >國外科研 >

以最少的編碼對生物序列進行簡單的一體化分析 設計和解釋

導讀 由于測序技術成本的下降和可用計算能力的增加,如今科學家生成的數(shù)據(jù)量非常龐大。但是解析所有這些數(shù)據(jù)以發(fā)現(xiàn)有用的信息就像在大海撈針中尋

由于測序技術成本的下降和可用計算能力的增加,如今科學家生成的數(shù)據(jù)量非常龐大。但是解析所有這些數(shù)據(jù)以發(fā)現(xiàn)有用的信息就像在大海撈針中尋找分子針一樣。

機器學習(ML)和其他人工智能(AI)工具可以顯著加快數(shù)據(jù)分析過程,但大多數(shù)ML工具對于非ML專家來說很難訪問和使用。最近,開發(fā)了自動化機器學習(AutoML)方法,可以自動設計和部署ML工具,但它們通常非常復雜,并且需要ML的設施,而AI領域以外的科學家很少有這種設施。

哈佛大學和麻省理工學院Wyss生物啟發(fā)工程研究所的一組科學家現(xiàn)在通過構建一個新的、全面的AutoML平臺來滿足這一未滿足的需求,該平臺專為幾乎沒有ML經驗的生物學家設計。他們的平臺稱為BioAutoMATED,可以使用核酸、肽或聚糖序列作為輸入數(shù)據(jù),其性能可與其他AutoML平臺相媲美,同時需要最少的用戶輸入。該平臺在CellSystems上發(fā)表的一篇新論文中有所描述,可從GitHub下載。

“我們的工具適用于那些無法構建自己的自定義ML模型的人,他們發(fā)現(xiàn)自己會問這樣的問題,“我有這個很酷的數(shù)據(jù)集,ML是否適用于它?如何將其放入ML模型中?機器學習的復雜性阻礙了我進一步研究這個數(shù)據(jù)集,那么我該如何克服它呢?'”D.“我們想讓其他領域的生物學家和專家更容易地使用ML和AutoML的強大功能來回答基本問題,并幫助發(fā)現(xiàn)有意義的生物學。”

面向所有人的AutoML

像許多偉大的想法一樣,成為BioAutoMATED的種子不是在實驗室里種下的,而是在午餐時種下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一張餐桌上一起吃飯時,他們意識到盡管該研究所享有世界級生物研究目的地的聲譽,但只有少數(shù)在那里工作的頂級專家能夠構建和訓練ML模型可以大大有利于他們的工作。

Soenksen說:“我們決定我們需要為此做點什么,因為我們希望Wyss處于人工智能生物技術革命的前沿,我們也希望這些工具的開發(fā)由生物學家推動,為生物學家服務。”WyssInstitute的博士后研究員,也是科技領域的連續(xù)創(chuàng)業(yè)者。“現(xiàn)在,每個人都同意人工智能是未來,但四年前當我們有了這個想法時,它并不是那么明顯,特別是對于生物研究。所以,它開始作為我們想要構建的工具來服務我們自己和我們的Wyss同事,但現(xiàn)在我們知道它可以提供更多服務。”

雖然已經開發(fā)了各種AutoML系統(tǒng)來簡化從數(shù)據(jù)集生成ML模型的過程,但它們通常都有缺點;其中,每個AutoML工具都被設計為在搜索最佳解決方案時僅查看一種類型的模型(例如,神經網絡)。這將生成的模型限制在一組狹窄的可能性中,而實際上,完全不同類型的模型可能更優(yōu)化。另一個問題是,大多數(shù)AutoML工具并不是專門為將生物序列作為輸入數(shù)據(jù)而設計的。已經開發(fā)了一些使用語言模型來分析生物序列的工具,但這些工具缺乏自動化功能并且難以使用。

為了為生物學構建一個強大的一體式AutoML,該團隊修改了三個現(xiàn)有的AutoML工具,每個工具都使用不同的方法來生成模型:AutoKeras,用于搜索最佳神經網絡;DeepSwarm,它使用基于群體的算法來搜索卷積神經網絡;和TPOT,它使用多種方法搜索非神經網絡,包括遺傳編程和自學習。BioAutoMATED然后為所有三種工具生成標準化的輸出結果,以便用戶可以輕松地比較它們并確定哪種類型從他們的數(shù)據(jù)中產生最有用的見解。

該團隊構建的BioAutoMATED能夠將任何長度、類型或生物功能的DNA、RNA、氨基酸和聚糖(在細胞表面發(fā)現(xiàn)的糖分子)序列作為輸入。BioAutoMATED自動預處理輸入數(shù)據(jù),然后生成可以僅根據(jù)序列信息預測生物學功能的模型。

該平臺還具有許多功能,可幫助用戶確定他們是否需要收集額外數(shù)據(jù)以提高輸出質量,了解模型最“關注”序列的哪些特征(因此可能更具生物學意義),并為未來的實驗設計新的序列。

核苷酸和肽和聚糖

為了測試他們的新框架,該團隊首先使用它來探索改變一段稱為核糖體結合位點(RBS)的RNA序列如何影響核糖體與RNA結合并將其轉化為蛋白質的效率大腸桿菌。他們將序列數(shù)據(jù)輸入BioAutoMATED,BioAutoMATED確定了一個由DeepSwarm算法生成的模型,該模型可以準確預測翻譯效率。

該模型的性能與專業(yè)ML專家創(chuàng)建的模型一樣好,但生成時間僅為26.5分鐘,并且只需要用戶輸入10行代碼(其他模型可能需要750多行)。他們還使用BioAutoMATED來確定序列的哪些區(qū)域似乎對確定翻譯效率最重要,并設計可以通過實驗測試的新序列。

然后他們繼續(xù)試驗將肽和聚糖序列數(shù)據(jù)輸入BioAutoMATED,并使用結果來回答有關這些序列的特定問題。該系統(tǒng)生成了關于肽序列中的哪些氨基酸對于確定抗體與藥物雷珠單抗(Lucentis)結合的能力最重要的高度準確的信息,并且還根據(jù)其序列將不同類型的聚糖分為免疫原性和非免疫原性組.該團隊還使用它來優(yōu)化基于RNA的腳趾開關的序列,為新的腳趾開關的設計提供信息,用于實驗測試,用戶的輸入編碼最少。

“最終,我們能夠證明BioAutoMATED可以幫助人們1)識別生物數(shù)據(jù)中的模式,2)就該數(shù)據(jù)提出更好的問題,以及3)快速回答這些問題,所有這些都在一個框架內進行——無需成為ML專家自己,”凱蒂柯林斯說,她目前是劍橋大學的研究生,在麻省理工學院攻讀本科期間從事該項目。

與任何其他ML工具一樣,任何借助BioAutoMATED預測的模型都需要盡可能在實驗室中進行實驗驗證。但該團隊希望它可以進一步集成到不斷增長的AutoML工具集中,有朝一日將其功能擴展到生物序列之外的任何類似序列的對象,例如指紋。

“機器學習和人工智能工具已經存在了一段時間,但只是隨著最近用戶友好界面的發(fā)展,它們才開始流行起來,就像ChatGPT一樣,”JimCollins說,他也是麻省理工學院醫(yī)學工程與科學Termeer教授。“我們希望BioAutoMATED能夠讓下一代生物學家更快、更容易地發(fā)現(xiàn)生命的基礎。”

“使非專家能夠使用這些平臺對于能夠利用ML技術的全部潛力來解決生物學及其他領域長期存在的問題至關重要??铝炙箞F隊的這一進步是使AI成為關鍵合作者的重要一步對于生物學家和生物工程師來說,”Wyss創(chuàng)始董事DonIngber博士說,他也是哈佛醫(yī)學院和波士頓兒童醫(yī)院的JudahFolkman血管生物學教授,以及HansjörgWyss生物啟發(fā)工程教授哈佛大學JohnA.Paulson工程與應用科學學院(SEAS)。

標簽:

免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

最新文章