2021年6 月 20 日——一種名為 molDiscovery 的計(jì)算機(jī)算法使用來(lái)自小分子的質(zhì)譜數(shù)據(jù)來(lái)預(yù)測(cè)未知物質(zhì)的身份,這可能會(huì)節(jié)省研究人員尋找具有醫(yī)療用途的新天然產(chǎn)品的時(shí)間和金錢。6 月 17 日,Nature Communications報(bào)道了這種新方法。
小分子是低分子量的有機(jī)化合物,大小約為 1 nm。確定特定樣品中存在或不存在哪些分子以及這些分子是否已知的能力在整個(gè)生命科學(xué)中具有廣泛的應(yīng)用。
例如,在醫(yī)學(xué)中,醫(yī)生在患者血液或組織樣本中尋找小分子生物標(biāo)志物以進(jìn)行疾病診斷和預(yù)后,而流行病學(xué)家則在人群飲食和環(huán)境中尋找小分子以識(shí)別疾病風(fēng)險(xiǎn)因素。在藥理學(xué)中,小分子因其作為治療藥物的潛力而受到關(guān)注。
molDiscovery 算法基于預(yù)訓(xùn)練的概率模型將小分子與其質(zhì)譜相匹配,從而提高了小分子識(shí)別的效率和準(zhǔn)確性。
由于其速度,該算法能夠在科學(xué)家們的研究早期提醒他們是偶然發(fā)現(xiàn)了一個(gè)真正獨(dú)特的分子,還是只是重新發(fā)現(xiàn)了已知的東西。
“科學(xué)家們浪費(fèi)了大量時(shí)間來(lái)分離已知的分子,基本上是重新發(fā)現(xiàn)青霉素,”共同作者、卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院助理教授 Hosein Mohimani 博士在一份聲明中說(shuō)。“早期檢測(cè)分子是否已知可以節(jié)省時(shí)間和數(shù)百萬(wàn)美元,并有望使制藥公司和研究人員更好地尋找可能導(dǎo)致新藥開(kāi)發(fā)的新型天然產(chǎn)品。”
可以由一組質(zhì)量峰表示的質(zhì)譜作為小分子的“指紋”或唯一標(biāo)識(shí)符。molDiscovery 算法的工作原理是將從樣品中獲取的質(zhì)譜與小分子數(shù)據(jù)庫(kù)中的數(shù)百萬(wàn)個(gè)分子結(jié)構(gòu)進(jìn)行比較。
molDisocovery 核心的概率模型是根據(jù)北美大眾銀行 (MoNA) 的參考光譜和美國(guó)國(guó)立衛(wèi)生研究院 (NIH) 天然產(chǎn)物圖書館的分子光譜對(duì)進(jìn)行訓(xùn)練的。
概率模型采用 P(logRank∣bondType) 形式,其中 logRank 表示相應(yīng)小分子片段的質(zhì)量峰強(qiáng)度,bondType 是 SC、OP、PC、CC、NC、OC 或這些的成對(duì)組合債券。
為了測(cè)試該系統(tǒng),研究人員在全球天然產(chǎn)物社會(huì)分子網(wǎng)絡(luò) (GNPS) 存儲(chǔ)庫(kù)中的超過(guò) 800 萬(wàn)個(gè)光譜上運(yùn)行了 molDiscovery,這是一個(gè)用于共享質(zhì)譜數(shù)據(jù)的開(kāi)放獲取知識(shí)庫(kù)。molDiscovery 系統(tǒng)能夠以 0% 的錯(cuò)誤發(fā)現(xiàn)率 (FDR) 識(shí)別 3,185 個(gè)獨(dú)特的小分子,與基于化學(xué)領(lǐng)域知識(shí)的現(xiàn)有方法相比增加了 6 倍。
在具有已知基因組的 GNPS 存儲(chǔ)庫(kù)的一個(gè)子集上,molDiscovery 能夠正確地將 19 個(gè)已知和三個(gè)假定的生物合成基因簇與其分子產(chǎn)物聯(lián)系起來(lái)。
作者還指出,與以前的方法相比,molDiscovery 適用于更廣泛的分子質(zhì)量,對(duì)于非常小的分子(< 400 Da)表現(xiàn)不佳,并且對(duì)于重小分子(> 1000 Da)在計(jì)算上變得不足。
molDiscovery 系統(tǒng)可以處理質(zhì)量高達(dá) 2000 Da 的分子,這是 Dereplicator+ 處理質(zhì)量的兩倍,Dereplicator+ 是 Mohimani 實(shí)驗(yàn)室開(kāi)發(fā)的早期系統(tǒng),用于根據(jù)化學(xué)結(jié)構(gòu)搜索質(zhì)譜。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!