久久精品国产欧美成人,最好看的免费观看高清视频

由于測序技術(shù)成本的下降和可用計算能力的增加，如今科學家生成的數(shù)據(jù)量非常龐大。但是解析所有這些數(shù)據(jù)以發(fā)現(xiàn)有用的信息就像在大海撈針中尋找分子針一樣。

機器學習(ML)和其他人工智能(AI)工具可以顯著加快數(shù)據(jù)分析過程，但大多數(shù)ML工具對于非ML專家來說很難訪問和使用。最近，開發(fā)了自動化機器學習(AutoML)方法，可以自動設(shè)計和部署ML工具，但它們通常非常復雜，并且需要ML的設(shè)施，而AI領(lǐng)域以外的科學家很少有這種設(shè)施。

哈佛大學和麻省理工學院Wyss生物啟發(fā)工程研究所的一組科學家現(xiàn)在通過構(gòu)建一個新的、全面的AutoML平臺來滿足這一未滿足的需求，該平臺專為幾乎沒有ML經(jīng)驗的生物學家設(shè)計。他們的平臺稱為BioAutoMATED，可以使用核酸、肽或聚糖序列作為輸入數(shù)據(jù)，其性能可與其他AutoML平臺相媲美，同時需要最少的用戶輸入。該平臺在CellSystems上發(fā)表的一篇新論文中有所描述，可從GitHub下載。

“我們的工具適用于那些無法構(gòu)建自己的自定義ML模型的人，他們發(fā)現(xiàn)自己會問這樣的問題，“我有這個很酷的數(shù)據(jù)集，ML是否適用于它?如何將其放入ML模型中?機器學習的復雜性阻礙了我進一步研究這個數(shù)據(jù)集，那么我該如何克服它呢?'”D.“我們想讓其他領(lǐng)域的生物學家和專家更容易地使用ML和AutoML的強大功能來回答基本問題，并幫助發(fā)現(xiàn)有意義的生物學。”

面向所有人的AutoML

像許多偉大的想法一樣，成為BioAutoMATED的種子不是在實驗室里種下的，而是在午餐時種下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一張餐桌上一起吃飯時，他們意識到盡管該研究所享有世界級生物研究目的地的聲譽，但只有少數(shù)在那里工作的頂級專家能夠構(gòu)建和訓練ML模型可以大大有利于他們的工作。

Soenksen說：“我們決定我們需要為此做點什么，因為我們希望Wyss處于人工智能生物技術(shù)革命的前沿，我們也希望這些工具的開發(fā)由生物學家推動，為生物學家服務。”WyssInstitute的博士后研究員，也是科技領(lǐng)域的連續(xù)創(chuàng)業(yè)者。“現(xiàn)在，每個人都同意人工智能是未來，但四年前當我們有了這個想法時，它并不是那么明顯，特別是對于生物研究。所以，它開始作為我們想要構(gòu)建的工具來服務我們自己和我們的Wyss同事，但現(xiàn)在我們知道它可以提供更多服務。”

雖然已經(jīng)開發(fā)了各種AutoML系統(tǒng)來簡化從數(shù)據(jù)集生成ML模型的過程，但它們通常都有缺點;其中，每個AutoML工具都被設(shè)計為在搜索最佳解決方案時僅查看一種類型的模型(例如，神經(jīng)網(wǎng)絡)。這將生成的模型限制在一組狹窄的可能性中，而實際上，完全不同類型的模型可能更優(yōu)化。另一個問題是，大多數(shù)AutoML工具并不是專門為將生物序列作為輸入數(shù)據(jù)而設(shè)計的。已經(jīng)開發(fā)了一些使用語言模型來分析生物序列的工具，但這些工具缺乏自動化功能并且難以使用。

為了為生物學構(gòu)建一個強大的一體式AutoML，該團隊修改了三個現(xiàn)有的AutoML工具，每個工具都使用不同的方法來生成模型：AutoKeras，用于搜索最佳神經(jīng)網(wǎng)絡;DeepSwarm，它使用基于群體的算法來搜索卷積神經(jīng)網(wǎng)絡;和TPOT，它使用多種方法搜索非神經(jīng)網(wǎng)絡，包括遺傳編程和自學習。BioAutoMATED然后為所有三種工具生成標準化的輸出結(jié)果，以便用戶可以輕松地比較它們并確定哪種類型從他們的數(shù)據(jù)中產(chǎn)生最有用的見解。

該團隊構(gòu)建的BioAutoMATED能夠?qū)⑷魏伍L度、類型或生物功能的DNA、RNA、氨基酸和聚糖(在細胞表面發(fā)現(xiàn)的糖分子)序列作為輸入。BioAutoMATED自動預處理輸入數(shù)據(jù)，然后生成可以僅根據(jù)序列信息預測生物學功能的模型。

該平臺還具有許多功能，可幫助用戶確定他們是否需要收集額外數(shù)據(jù)以提高輸出質(zhì)量，了解模型最“關(guān)注”序列的哪些特征(因此可能更具生物學意義),并為未來的實驗設(shè)計新的序列。

核苷酸和肽和聚糖

為了測試他們的新框架，該團隊首先使用它來探索改變一段稱為核糖體結(jié)合位點(RBS)的RNA序列如何影響核糖體與RNA結(jié)合并將其轉(zhuǎn)化為蛋白質(zhì)的效率大腸桿菌。他們將序列數(shù)據(jù)輸入BioAutoMATED，BioAutoMATED確定了一個由DeepSwarm算法生成的模型，該模型可以準確預測翻譯效率。

該模型的性能與專業(yè)ML專家創(chuàng)建的模型一樣好，但生成時間僅為26.5分鐘，并且只需要用戶輸入10行代碼(其他模型可能需要750多行)。他們還使用BioAutoMATED來確定序列的哪些區(qū)域似乎對確定翻譯效率最重要，并設(shè)計可以通過實驗測試的新序列。

然后他們繼續(xù)試驗將肽和聚糖序列數(shù)據(jù)輸入BioAutoMATED，并使用結(jié)果來回答有關(guān)這些序列的特定問題。該系統(tǒng)生成了關(guān)于肽序列中的哪些氨基酸對于確定抗體與藥物雷珠單抗(Lucentis)結(jié)合的能力最重要的高度準確的信息，并且還根據(jù)其序列將不同類型的聚糖分為免疫原性和非免疫原性組.該團隊還使用它來優(yōu)化基于RNA的腳趾開關(guān)的序列，為新的腳趾開關(guān)的設(shè)計提供信息，用于實驗測試，用戶的輸入編碼最少。

“最終，我們能夠證明BioAutoMATED可以幫助人們1)識別生物數(shù)據(jù)中的模式，2)就該數(shù)據(jù)提出更好的問題，以及3)快速回答這些問題，所有這些都在一個框架內(nèi)進行——無需成為ML專家自己，”凱蒂柯林斯說，她目前是劍橋大學的研究生，在麻省理工學院攻讀本科期間從事該項目。

與任何其他ML工具一樣，任何借助BioAutoMATED預測的模型都需要盡可能在實驗室中進行實驗驗證。但該團隊希望它可以進一步集成到不斷增長的AutoML工具集中，有朝一日將其功能擴展到生物序列之外的任何類似序列的對象，例如指紋。

“機器學習和人工智能工具已經(jīng)存在了一段時間，但只是隨著最近用戶友好界面的發(fā)展，它們才開始流行起來，就像ChatGPT一樣，”JimCollins說，他也是麻省理工學院醫(yī)學工程與科學Termeer教授。“我們希望BioAutoMATED能夠讓下一代生物學家更快、更容易地發(fā)現(xiàn)生命的基礎(chǔ)。”

“使非專家能夠使用這些平臺對于能夠利用ML技術(shù)的全部潛力來解決生物學及其他領(lǐng)域長期存在的問題至關(guān)重要?？铝炙箞F隊的這一進步是使AI成為關(guān)鍵合作者的重要一步對于生物學家和生物工程師來說，”Wyss創(chuàng)始董事DonIngber博士說，他也是哈佛醫(yī)學院和波士頓兒童醫(yī)院的JudahFolkman血管生物學教授，以及HansjörgWyss生物啟發(fā)工程教授哈佛大學JohnA.Paulson工程與應用科學學院(SEAS)。

標簽：

免責聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風險自擔。如有侵權(quán)請聯(lián)系刪除！

以最少的編碼對生物序列進行簡單的一體化分析設(shè)計和解釋

猜你喜歡

最新文章