聚乳酸生物可降解材料(可降解材料有哪些) 怎么設(shè)置qq空間形象墻(如何設(shè)置qq空間照片墻) 陰陽師業(yè)火原怎么打(陰陽師的業(yè)原火怎么打) plenty of可以放在句首嗎?(plenty of修飾可數(shù)還是不可數(shù)) AE教程 如何制作全息影像特效動(dòng)畫(ae怎么做全息投影) dnf55冰龍?jiān)趺创?深淵冰龍15怎么打) 酚酞溶液測(cè)碳化深度(碳化深度怎么測(cè)) 泡茶用什么杯子(茶葉用什么杯子泡好) 商務(wù)簽證辦理流程及材料(商務(wù)簽證辦理流程及材料要求) 咖啡怎么做好喝又簡(jiǎn)單(咖啡怎么做出來的) 如何讓EXCEL表格打印每頁都顯示標(biāo)題行(excel標(biāo)題行 每頁都顯示怎么打印出來) 2018年黑龍江高校排名 2018年黑龍江大學(xué)排名(黑龍江省所有大學(xué)排名榜) 摩斯密碼怎么敲視頻教學(xué)(摩斯密碼怎么敲視頻) 魔獸世界雷霆小徑之戰(zhàn)任務(wù)怎么開始(魔獸世界雷霆小徑之戰(zhàn)任務(wù)怎么開始視頻) 怎么在電腦上查看手機(jī)版網(wǎng)頁 wap(怎么用手機(jī)查看電腦版網(wǎng)頁) 生的五筆怎么打(盛的五筆怎么打) 手工制作圣誕帽教案(手工制作圣誕帽教案大班) 阿里巴巴服裝加工訂單(找服裝加工訂單) 大閘蟹的正確做法圖解(大閘蟹的正確做法圖解大全) 抗訴的意思(抗訴是什么意思) 如何選購嬰兒內(nèi)衣?嬰兒內(nèi)衣哪種好啊(買什么兒童的內(nèi)衣比較好) 烤魚片的做法(空氣炸鍋烤魚片的做法) frp是什么材料圖片(frp是什么材料) 倫敦奧運(yùn)會(huì)官方游戲london2012 110米欄攻略(倫敦110米欄奧運(yùn)視頻) 別來玩狼牙新系統(tǒng)境界提升玩法介紹(狼牙該如何使用) 關(guān)于逆境中成長的名言(逆境有利于成長名言) 爬樓梯有什么好處?(爬樓梯有什么好處嗎) 八字不合怎么辦(名字和八字不合怎么辦) 寧濫勿缺下一句(寧濫勿缺) dnf補(bǔ)丁wegame怎么找(wegame中dnf補(bǔ)丁在哪?) 什么手機(jī)游戲可以賺人民幣(什么手機(jī)游戲可以賺人民幣 手游 手機(jī)) PDF文件怎么拆分成多個(gè)文件(怎么合并多個(gè)pdf) 乘法是什么符號(hào)的意思(乘法是什么符號(hào)) IP電話如何使用(ip話機(jī)怎么使用) 海底世界資料大全(關(guān)于海底世界的資料) 怎樣自己動(dòng)手包書皮(怎么自己包書皮) 如何設(shè)置瀏覽器的無痕瀏覽(如何設(shè)置瀏覽器的無痕瀏覽功能) 春風(fēng)圖片大全(春風(fēng)圖) 摩爾莊園怎么加好友?(摩爾莊園怎么加好友安卓和蘋果) 【孤島驚魂5新曙光】攻略之如何釣魚(孤島驚魂新曙光釣魚需要魚餌嗎) 歐陽詢觀古碑文言文翻譯過程(歐陽詢觀古碑文言文翻譯) 和平精英電音盛典怎么擊破氣球(和平精英打爆氣球) 杭州學(xué)廚師怎么樣?工資怎么樣?(杭州學(xué)廚師怎么樣?工資怎么樣啊) 凹凸的筆畫順序(凹的筆畫順序) 港行的iPhone5 A1429開啟聯(lián)通LTE教程(港版a1530支持聯(lián)通4g嗎) dnf疲勞藥怎么購買(dnf哪里可以兌換疲勞藥) 32位能用什么剪輯軟件(適合32位系統(tǒng)的視頻剪輯軟件) 如何使用支付寶里有的功能去超市能讓你更省錢?(支付寶如何在超市使用) 如何使用淘寶點(diǎn)外賣服務(wù) (如何使用淘寶點(diǎn)外賣服務(wù)中心) 酚類化合物有哪些性質(zhì)(酚類化合物有哪些呀)
您的位置:首頁 >國外科研 >

以最少的編碼對(duì)生物序列進(jìn)行簡(jiǎn)單的一體化分析 設(shè)計(jì)和解釋

導(dǎo)讀 由于測(cè)序技術(shù)成本的下降和可用計(jì)算能力的增加,如今科學(xué)家生成的數(shù)據(jù)量非常龐大。但是解析所有這些數(shù)據(jù)以發(fā)現(xiàn)有用的信息就像在大海撈針中尋

由于測(cè)序技術(shù)成本的下降和可用計(jì)算能力的增加,如今科學(xué)家生成的數(shù)據(jù)量非常龐大。但是解析所有這些數(shù)據(jù)以發(fā)現(xiàn)有用的信息就像在大海撈針中尋找分子針一樣。

機(jī)器學(xué)習(xí)(ML)和其他人工智能(AI)工具可以顯著加快數(shù)據(jù)分析過程,但大多數(shù)ML工具對(duì)于非ML專家來說很難訪問和使用。最近,開發(fā)了自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)方法,可以自動(dòng)設(shè)計(jì)和部署ML工具,但它們通常非常復(fù)雜,并且需要ML的設(shè)施,而AI領(lǐng)域以外的科學(xué)家很少有這種設(shè)施。

哈佛大學(xué)和麻省理工學(xué)院Wyss生物啟發(fā)工程研究所的一組科學(xué)家現(xiàn)在通過構(gòu)建一個(gè)新的、全面的AutoML平臺(tái)來滿足這一未滿足的需求,該平臺(tái)專為幾乎沒有ML經(jīng)驗(yàn)的生物學(xué)家設(shè)計(jì)。他們的平臺(tái)稱為BioAutoMATED,可以使用核酸、肽或聚糖序列作為輸入數(shù)據(jù),其性能可與其他AutoML平臺(tái)相媲美,同時(shí)需要最少的用戶輸入。該平臺(tái)在CellSystems上發(fā)表的一篇新論文中有所描述,可從GitHub下載。

“我們的工具適用于那些無法構(gòu)建自己的自定義ML模型的人,他們發(fā)現(xiàn)自己會(huì)問這樣的問題,“我有這個(gè)很酷的數(shù)據(jù)集,ML是否適用于它?如何將其放入ML模型中?機(jī)器學(xué)習(xí)的復(fù)雜性阻礙了我進(jìn)一步研究這個(gè)數(shù)據(jù)集,那么我該如何克服它呢?'”D.“我們想讓其他領(lǐng)域的生物學(xué)家和專家更容易地使用ML和AutoML的強(qiáng)大功能來回答基本問題,并幫助發(fā)現(xiàn)有意義的生物學(xué)。”

面向所有人的AutoML

像許多偉大的想法一樣,成為BioAutoMATED的種子不是在實(shí)驗(yàn)室里種下的,而是在午餐時(shí)種下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一張餐桌上一起吃飯時(shí),他們意識(shí)到盡管該研究所享有世界級(jí)生物研究目的地的聲譽(yù),但只有少數(shù)在那里工作的頂級(jí)專家能夠構(gòu)建和訓(xùn)練ML模型可以大大有利于他們的工作。

Soenksen說:“我們決定我們需要為此做點(diǎn)什么,因?yàn)槲覀兿M鸚yss處于人工智能生物技術(shù)革命的前沿,我們也希望這些工具的開發(fā)由生物學(xué)家推動(dòng),為生物學(xué)家服務(wù)。”WyssInstitute的博士后研究員,也是科技領(lǐng)域的連續(xù)創(chuàng)業(yè)者。“現(xiàn)在,每個(gè)人都同意人工智能是未來,但四年前當(dāng)我們有了這個(gè)想法時(shí),它并不是那么明顯,特別是對(duì)于生物研究。所以,它開始作為我們想要構(gòu)建的工具來服務(wù)我們自己和我們的Wyss同事,但現(xiàn)在我們知道它可以提供更多服務(wù)。”

雖然已經(jīng)開發(fā)了各種AutoML系統(tǒng)來簡(jiǎn)化從數(shù)據(jù)集生成ML模型的過程,但它們通常都有缺點(diǎn);其中,每個(gè)AutoML工具都被設(shè)計(jì)為在搜索最佳解決方案時(shí)僅查看一種類型的模型(例如,神經(jīng)網(wǎng)絡(luò))。這將生成的模型限制在一組狹窄的可能性中,而實(shí)際上,完全不同類型的模型可能更優(yōu)化。另一個(gè)問題是,大多數(shù)AutoML工具并不是專門為將生物序列作為輸入數(shù)據(jù)而設(shè)計(jì)的。已經(jīng)開發(fā)了一些使用語言模型來分析生物序列的工具,但這些工具缺乏自動(dòng)化功能并且難以使用。

為了為生物學(xué)構(gòu)建一個(gè)強(qiáng)大的一體式AutoML,該團(tuán)隊(duì)修改了三個(gè)現(xiàn)有的AutoML工具,每個(gè)工具都使用不同的方法來生成模型:AutoKeras,用于搜索最佳神經(jīng)網(wǎng)絡(luò);DeepSwarm,它使用基于群體的算法來搜索卷積神經(jīng)網(wǎng)絡(luò);和TPOT,它使用多種方法搜索非神經(jīng)網(wǎng)絡(luò),包括遺傳編程和自學(xué)習(xí)。BioAutoMATED然后為所有三種工具生成標(biāo)準(zhǔn)化的輸出結(jié)果,以便用戶可以輕松地比較它們并確定哪種類型從他們的數(shù)據(jù)中產(chǎn)生最有用的見解。

該團(tuán)隊(duì)構(gòu)建的BioAutoMATED能夠?qū)⑷魏伍L度、類型或生物功能的DNA、RNA、氨基酸和聚糖(在細(xì)胞表面發(fā)現(xiàn)的糖分子)序列作為輸入。BioAutoMATED自動(dòng)預(yù)處理輸入數(shù)據(jù),然后生成可以僅根據(jù)序列信息預(yù)測(cè)生物學(xué)功能的模型。

該平臺(tái)還具有許多功能,可幫助用戶確定他們是否需要收集額外數(shù)據(jù)以提高輸出質(zhì)量,了解模型最“關(guān)注”序列的哪些特征(因此可能更具生物學(xué)意義),并為未來的實(shí)驗(yàn)設(shè)計(jì)新的序列。

核苷酸和肽和聚糖

為了測(cè)試他們的新框架,該團(tuán)隊(duì)首先使用它來探索改變一段稱為核糖體結(jié)合位點(diǎn)(RBS)的RNA序列如何影響核糖體與RNA結(jié)合并將其轉(zhuǎn)化為蛋白質(zhì)的效率大腸桿菌。他們將序列數(shù)據(jù)輸入BioAutoMATED,BioAutoMATED確定了一個(gè)由DeepSwarm算法生成的模型,該模型可以準(zhǔn)確預(yù)測(cè)翻譯效率。

該模型的性能與專業(yè)ML專家創(chuàng)建的模型一樣好,但生成時(shí)間僅為26.5分鐘,并且只需要用戶輸入10行代碼(其他模型可能需要750多行)。他們還使用BioAutoMATED來確定序列的哪些區(qū)域似乎對(duì)確定翻譯效率最重要,并設(shè)計(jì)可以通過實(shí)驗(yàn)測(cè)試的新序列。

然后他們繼續(xù)試驗(yàn)將肽和聚糖序列數(shù)據(jù)輸入BioAutoMATED,并使用結(jié)果來回答有關(guān)這些序列的特定問題。該系統(tǒng)生成了關(guān)于肽序列中的哪些氨基酸對(duì)于確定抗體與藥物雷珠單抗(Lucentis)結(jié)合的能力最重要的高度準(zhǔn)確的信息,并且還根據(jù)其序列將不同類型的聚糖分為免疫原性和非免疫原性組.該團(tuán)隊(duì)還使用它來優(yōu)化基于RNA的腳趾開關(guān)的序列,為新的腳趾開關(guān)的設(shè)計(jì)提供信息,用于實(shí)驗(yàn)測(cè)試,用戶的輸入編碼最少。

“最終,我們能夠證明BioAutoMATED可以幫助人們1)識(shí)別生物數(shù)據(jù)中的模式,2)就該數(shù)據(jù)提出更好的問題,以及3)快速回答這些問題,所有這些都在一個(gè)框架內(nèi)進(jìn)行——無需成為ML專家自己,”凱蒂柯林斯說,她目前是劍橋大學(xué)的研究生,在麻省理工學(xué)院攻讀本科期間從事該項(xiàng)目。

與任何其他ML工具一樣,任何借助BioAutoMATED預(yù)測(cè)的模型都需要盡可能在實(shí)驗(yàn)室中進(jìn)行實(shí)驗(yàn)驗(yàn)證。但該團(tuán)隊(duì)希望它可以進(jìn)一步集成到不斷增長的AutoML工具集中,有朝一日將其功能擴(kuò)展到生物序列之外的任何類似序列的對(duì)象,例如指紋。

“機(jī)器學(xué)習(xí)和人工智能工具已經(jīng)存在了一段時(shí)間,但只是隨著最近用戶友好界面的發(fā)展,它們才開始流行起來,就像ChatGPT一樣,”JimCollins說,他也是麻省理工學(xué)院醫(yī)學(xué)工程與科學(xué)Termeer教授。“我們希望BioAutoMATED能夠讓下一代生物學(xué)家更快、更容易地發(fā)現(xiàn)生命的基礎(chǔ)。”

“使非專家能夠使用這些平臺(tái)對(duì)于能夠利用ML技術(shù)的全部潛力來解決生物學(xué)及其他領(lǐng)域長期存在的問題至關(guān)重要。柯林斯團(tuán)隊(duì)的這一進(jìn)步是使AI成為關(guān)鍵合作者的重要一步對(duì)于生物學(xué)家和生物工程師來說,”Wyss創(chuàng)始董事DonIngber博士說,他也是哈佛醫(yī)學(xué)院和波士頓兒童醫(yī)院的JudahFolkman血管生物學(xué)教授,以及HansjörgWyss生物啟發(fā)工程教授哈佛大學(xué)JohnA.Paulson工程與應(yīng)用科學(xué)學(xué)院(SEAS)。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章