一種新的統(tǒng)計(jì)方法提供了一種更有效的方法來揭示跨越多種條件的基因組數(shù)據(jù)中具有生物學(xué)意義的變化——;例如細(xì)胞類型或組織。
全基因組研究產(chǎn)生大量數(shù)據(jù),從數(shù)百萬個(gè)單獨(dú)的 DNA 序列到關(guān)于數(shù)千個(gè)基因中的表達(dá)位置和數(shù)量的信息,再到整個(gè)基因組中功能元件的位置。由于數(shù)據(jù)的數(shù)量和復(fù)雜性,比較不同的生物學(xué)條件或跨不同實(shí)驗(yàn)室進(jìn)行的研究可能具有統(tǒng)計(jì)學(xué)上的挑戰(zhàn)性。
當(dāng)您有多個(gè)條件時(shí),困難在于如何以統(tǒng)計(jì)上強(qiáng)大且計(jì)算高效的方式一起分析數(shù)據(jù)?,F(xiàn)有方法計(jì)算成本高或產(chǎn)生難以從生物學(xué)解釋的結(jié)果。我們開發(fā)了一種稱為 CLIMB 的方法,該方法改進(jìn)了現(xiàn)有方法,計(jì)算效率高,并產(chǎn)生生物學(xué)可解釋的結(jié)果。我們在從造血細(xì)胞收集的三種基因組數(shù)據(jù)上測試了該方法——;與造血干細(xì)胞有關(guān) -;但該方法也可用于分析其他‘組學(xué)’數(shù)據(jù)。”
李群華,賓夕法尼亞州立大學(xué)統(tǒng)計(jì)學(xué)副教授
研究人員在 11 月 12 日在線發(fā)表在《自然通訊》雜志上的一篇論文中描述了 CLIMB(復(fù)合似然經(jīng)驗(yàn)貝葉斯)方法。
“在有這么多信息但來自相對較少的個(gè)人的實(shí)驗(yàn)中,能夠盡可能有效地使用信息是有幫助的,”研究時(shí)賓夕法尼亞州立大學(xué)的研究生,現(xiàn)在是高級統(tǒng)計(jì)學(xué)家的希拉里·科赫說。在摩德納。“能夠一起查看所有內(nèi)容,甚至使用來自相關(guān)實(shí)驗(yàn)的信息,具有統(tǒng)計(jì)優(yōu)勢。CLIMB 讓我們能夠做到這一點(diǎn)。”
CLIMB 方法使用兩種傳統(tǒng)技術(shù)的原理來分析多種條件下的數(shù)據(jù)。一種技術(shù)使用條件之間的一系列成對比較,但隨著附加條件的添加,解釋變得越來越具有挑戰(zhàn)性。
一種不同的技術(shù)將每個(gè)受試者跨條件的活動(dòng)模式組合成一個(gè)“關(guān)聯(lián)載體”,例如,一個(gè)基因被上調(diào)、下調(diào)或在許多細(xì)胞類型中的每一種都沒有變化。關(guān)聯(lián)向量直接反映了條件特異性的模式,易于解釋。然而,由于即使只有少數(shù)幾個(gè)條件也可能有許多不同的組合,因此計(jì)算的計(jì)算量非常大。為了克服這一挑戰(zhàn),第二種方法本身就如何簡化并不總是正確的數(shù)據(jù)做出假設(shè)。
“CLIMB 使用了這兩種方法的各個(gè)方面,”科赫說。“我們最終會(huì)分析關(guān)聯(lián)向量,但首先我們使用成對分析來識別可能預(yù)先存在的模式。我們不是對數(shù)據(jù)做出假設(shè),而是使用成對信息來消除數(shù)據(jù)不強(qiáng)烈支持的組合。這極大地減少了跨條件可能模式的空間,否則會(huì)使計(jì)算變得如此密集。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!