日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 一個基于Transformer的深度學習架構(gòu),在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

          一個基于Transformer的深度學習架構(gòu),在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

          發(fā)布人:機器之心 時間:2022-11-19 來源:工程師 發(fā)布文章
          編輯 | 蘿卜皮

          通過組蛋白修飾對轉(zhuǎn)錄控制的定量表征受到許多計算研究的挑戰(zhàn),但其中大多數(shù)只關(guān)注啟動子周圍的狹窄和線性基因組區(qū)域,留下了改進的空間。

          韓國首爾大學的研究人員提出了 Chromoformer,這是一種基于 Transformer 的三維染色質(zhì)構(gòu)象感知深度學習架構(gòu),它在基因調(diào)控中組蛋白代碼的定量破譯方面實現(xiàn)了最先進的性能。Chromoformer 架構(gòu)的核心本質(zhì)在于注意力操作的三個變體,每個變體都專門模擬轉(zhuǎn)錄調(diào)控的個體層次,涉及從核心啟動子到通過三維染色質(zhì)相互作用與啟動子接觸的遠端元件。

          對 Chromoformer 的深入解釋表明,它自適應地利用了與轉(zhuǎn)錄起始和延伸相關(guān)的組蛋白修飾之間的長程依賴性。研究表明,Chromoformer 可以捕獲轉(zhuǎn)錄工廠和 Polycomb 基團的定量動力學。總之,這項研究突出了基于注意力的表觀基因組中復雜相互作用的深度建模的巨大優(yōu)勢。

          該研究以「Learning the histone codes with large genomic windows and three-dimensional chromatin interactions using transformer」為題,于 2022 年 11 月 5 日發(fā)布在《Nature Communications》。

          圖片

          基因表達的控制由不同組的調(diào)節(jié)因子進行,包括轉(zhuǎn)錄因子、共激活因子、輔助抑制因子以及基因組序列元件。然而,這些因素相互作用背后的基本前提是在相關(guān)基因組區(qū)域中組蛋白尾部或組蛋白修飾(HMs)的共價修飾的適當配置,因為它們在染色質(zhì)可及性的調(diào)節(jié)中起關(guān)鍵作用。因此,可以設(shè)想一定數(shù)量的 HM 及其組合編碼了附近基因組區(qū)域的調(diào)節(jié)潛力。

          這個概念被稱為「組蛋白密碼假說」。已經(jīng)有許多計算和定量方法來破解由 HM 編碼的基因表達的調(diào)控代碼。它們中的大多數(shù)是預測模型,利用轉(zhuǎn)錄起始位點(TSS)周圍啟動子的 HMs 水平來預測相應基因的表達水平。值得注意的是,最近的研究表明,在這項任務(wù)中,深度學習模型與傳統(tǒng)機器學習模型相比具有卓越的性能。

          兩個挑戰(zhàn)

          迄今為止,深度學習已經(jīng)在計算生物學的各個領(lǐng)域取得了顯著的突破,從表征結(jié)合 DNA 和 RNA 結(jié)合蛋白的特異性,到長期存在的基于氨基酸序列的蛋白質(zhì)結(jié)構(gòu)預測問題。如果沒有新的模型架構(gòu)的發(fā)明以及它們對復雜生物學問題的巧妙應用,就無法在生物學中取得深度學習的這些成功。從這個意義上說,組蛋白代碼的高度復雜性確實使其成為深度學習的一個很好的目標,如現(xiàn)有方法所示,但它們?nèi)匀淮嬖趦蓚€主要的限制,推動了新方法的開發(fā)。

          首先,他們只能在 TSS 周圍使用狹窄的基因組窗口。這是因為這些模型所基于的深度學習架構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在對長序列內(nèi)的依賴關(guān)系進行建模時效果不佳。CNN 高度專業(yè)于學習數(shù)據(jù)的局部模式,但對它們來說學習模式之間的遠距離依賴關(guān)系具有挑戰(zhàn)性。

          盡管 RNN 架構(gòu)是為對序列數(shù)據(jù)進行建模而開發(fā)的,但由于嵌入在單個位置的信息逐漸被稀釋并被污染,而模型計算沿著兩個遙遠位置之間的位置傳播,RNN 架構(gòu)也難以清楚地捕獲遠程依賴關(guān)系。事實上,諸如門控循環(huán)單元或長短期記憶 (LSTM) 之類的 RNN 單元的高級形式部分地改善了這個問題,但是由于循環(huán)而對長序列進行建模的內(nèi)在低效率仍然存在。

          其次,大多數(shù)深度學習模型不考慮由三維(3D)染色質(zhì)折疊介導的遠端順式調(diào)節(jié),盡管眾所周知,核心啟動子和遠端順式調(diào)節(jié)元件之間的物理相互作用會嚴重調(diào)節(jié)基因表達。換言之,組蛋白代碼所傳達的調(diào)控信息不僅可以在本地傳播,還可以通過 3D 染色質(zhì)相互作用在遙遠的基因組位點之間跳躍。

          幸運的是,Hi-C 等高通量測量技術(shù)的最新進展成功地提供了千堿基規(guī)模的 3D 染色質(zhì)相互作用的高分辨率視圖,并為研究人員提供了前所未有的機會,來利用這些有價值的信息來模擬基因調(diào)控的綜合觀點。很少有新興研究明確考慮 3D 染色質(zhì)相互作用來預測基因表達。一個這樣的例子是 GC-MERGE,這是一種圖神經(jīng)網(wǎng)絡(luò) (GNN),用于在相互作用的基因組區(qū)域之間傳播信息以預測基因的表達水平。

          雖然它是一個概念驗證模型,不能應用于沒有任何染色質(zhì)相互作用的基因,并且只能執(zhí)行 10 kbp 基因組 bin 級別的預測,但不能在基因級別進行預測,它仍然強調(diào)了對遠端基因組區(qū)域以及啟動子的表觀基因組環(huán)境進行建模的前景。

          Transformer 也許是****方

          與此同時,最初為自然語言處理而開發(fā)的名為 Transformer 的深度學習模型架構(gòu),在理解 DNA 序列、氨基酸序列甚至它們的比對的潛在語法方面表現(xiàn)出巨大的潛力。在這項研究中,研究人員注意到 Transformer 架構(gòu)的兩個主要功能非常適合解決上述兩個挑戰(zhàn)。

          首先,Transformer 可以精確地建模序列數(shù)據(jù)中的長期依賴關(guān)系。這是通過向輸入序列添加位置編碼來優(yōu)雅地完成的。這些包含位置信息的輸入特征被獨立處理,并被輸入到隨后的自注意力模塊中,該模塊計算輸入特征之間的所有成對依賴關(guān)系。因此,可以在不受位于對之間的特征干擾的情況下捕獲遠程依賴關(guān)系。

          其次,Transformer 架構(gòu)也可以應用于建模無序的實體集以及它們之間的交互。值得注意的是,對于大多數(shù)深度學習架構(gòu)來說,這并不簡單,因為包含它們的操作取決于輸入位置。另一方面,構(gòu)成變換器的操作基本上是置換不變的。

          輸入特征之間的交互僅在 self-attention 操作中考慮,所有其他操作都以位置方式完成,因此它們可以應用于模型的無序特征集??傊?,Transformer 架構(gòu)的這兩個優(yōu)勢使其成為組蛋白代碼定量建模的有希望的選擇,因為它允許研究人員同時在多個遠端調(diào)控區(qū)域利用 TSS 附近更寬的基因組窗口和組蛋白代碼。

          基于Transformer 的深度學習架構(gòu) Chromoformer

          圖片

          圖示:Chromoformer 模型架構(gòu)。(來源:論文)

          在這里,首爾大學的研究人員提出了一種名為 Chromoformer 的基于 Transformer 的深度學習架構(gòu),以模擬組蛋白代碼在基因表達調(diào)控中的定量作用。Chromoformer 通過對涉及核心啟動子和 pCRE 的三級順式調(diào)節(jié)層次進行建模,極大地提高了基因表達預測的性能。

          通過對 self-attention 權(quán)重、潛在嵌入動力學和幾個特征消融研究的分析,研究人員對 Chromoformer 模型的行為提供了深入的生物學解釋。

          圖片

          圖示:促成 Chromoformer 卓越性能的因素。(來源:論文)

          由于 Transformer 能夠理解序列中的遠距離依賴性,Chromoformer 可以成功地學習關(guān)注基因體內(nèi)的特定區(qū)域,在該區(qū)域中,與基因表達相關(guān)的 HM 在高表達和低表達基因之間最為獨特。有趣的是,對基因體的關(guān)注程度取決于 TSS 的表觀遺傳背景,這意味著 Chromoformer 模型捕獲了放置在 TSS 和基因體的 HM 的遠距離依賴性。

          另一方面,通過使用 Transformer 對一組無序特征中的成對關(guān)系進行建模,Chromoformer 可以了解由組蛋白代碼介導的信息如何通過 3D 染色質(zhì)折疊從 pCRE 傳播到核心啟動子以調(diào)節(jié)基因表達。對模型學習的組蛋白密碼的潛在表示的分析強調(diào),持家基因和細胞類型特異性基因的表達通過與增強子的相互作用得到加強,而發(fā)育基因的表達主要通過與 PRC2 結(jié)合的消音器的相互作用受到抑制。

          該團隊使用 3D 染色質(zhì)相互作用的預編譯知識來指導 Chromoformer 學習。那些通過實驗測量的交互頻率被用來確定將參與模型訓練的 pCRE 的優(yōu)先級,這些 pCRE 被顯式地注入到自我注意得分矩陣中。

          然而,僅從基因組序列信息中推斷 pCRE 和核心啟動子之間的相互作用頻率似乎也是可能的。這是因為順式調(diào)控相互作用的特異性很大程度上取決于 DNA 結(jié)合蛋白對 DNA 序列基序的識別,包括轉(zhuǎn)錄因子或 CCCTC 結(jié)合因子 (CTCF),它們作為分隔 3D 基因組構(gòu)象的絕緣體。因此,嵌入基因組中的那些結(jié)合基序可以作為隱藏的詞匯表,允許僅基于 DNA 序列推斷所需的染色質(zhì)構(gòu)象。

          圖片

          圖示:Chromoformer 學習的順式調(diào)節(jié)特征。(來源:論文)

          同時,來自最近名為 Enformer 的模型的結(jié)果強烈支持,當使用更廣泛的序列信息時,pCRE 的這種從頭排序更有效,從而表明通過使用 Transformer 架構(gòu)整合基因組和表觀基因組特征,實現(xiàn)基因表達調(diào)控的完全數(shù)據(jù)驅(qū)動建模的令人興奮的可能性。該團隊將這種基于 Transformer 的多組學集成作為進一步的工作。

          從活躍的 TSS 跳轉(zhuǎn)到基因體的嵌入 Transformer 所學到的注意力表明,在預測穩(wěn)態(tài)基因表達水平時,放置在基因體上的 HM 確實是有用的,即使不是最關(guān)鍵的信息。從這個結(jié)果中,研究人員考慮使用分布在單個基因中的整個組蛋白代碼景觀,可以進一步提高穩(wěn)態(tài) mRNA 水平的預測準確性的可能性。

          此外,由于研究所用的 H3K36me3 的外顯子比內(nèi)含子豐富得多,因此利用全長基因注釋將是模型訓練的另一個有效指導。由于基因長度和外顯子-內(nèi)含子分布顯示出很大的可變性,研究人員需要對這種生物學先驗知識進行一些巧妙的表示。

          同樣,Transformer 架構(gòu)將是最強大的選擇之一,因為可以靈活地應用掩碼來處理可變長度輸入,還可以擴展位置編碼以形成復合編碼,同時包含基因組位置和基因結(jié)構(gòu)注釋的信息。

          為 Chromoformer 模型提出的訓練方案具有高度可擴展性。例如,該團隊展示了 Chromoformer 模型可以針對來自人類以外物種的細胞類型進行訓練,即小鼠胚胎干細胞,使用相關(guān)的組蛋白 ChIP-seq 和 Hi-C 配置文件,通過跨物種預測性能證明了兩個物種之間組蛋白代碼語法之間的總體相似性。

          圖片

          圖示:Chromoformer 的跨物種和跨細胞類型預測性能。(來源:論文)

          此外,跨細胞類型預測實驗表明,在一種細胞類型中訓練的 Chromoformer 模型在一定程度上仍適用于其他細胞類型(相對驗證AUC?>?92%),相似細胞類型的交叉預測性能更高。

          這意味著以細胞類型特異性方式訓練的 Chromoformer 不僅學習了基因調(diào)控的細胞類型特異性特征,而且仍然捕獲了可普遍應用于其他細胞類型的一般規(guī)則。如果它可以表示為全基因組信號值的數(shù)組,則可以擴展顯色體訓練以包含任何額外的表觀基因組特征。這些特征包括轉(zhuǎn)錄因子 ChIP-seq 信號或用于隔間識別的第一主成分 (PC1) 信號。

          圖片

          圖示:在 Chromoformer 訓練中加入 CTCF 結(jié)合信號。(來源:論文)

          論文中介紹,CTCF 結(jié)合是 3D 基因組結(jié)構(gòu)的關(guān)鍵決定因素,并且通過遠端增強子 - 啟動子相互作用在基因激活中也突出了啟動子 - 近端 CTCF 結(jié)合,如上圖所示。該團隊證明,包括 CTCF 在內(nèi)的 Chromoformer-clf 性能有邊際但一致的增加,而嵌入 Transformer 的 Chromoformer-clf 模型的增加更大。

          另一方面,使用 PC1 值作為附加特征通知 Chromoformer 細胞類型特異性基因組劃分狀態(tài)不會導致顯著的整體性能提升。盡管區(qū)室化與基因表達水平相關(guān),但由于關(guān)聯(lián)的絕對水平(皮爾遜相關(guān)系數(shù) 0.12–0.19)不夠大,該團隊認為,區(qū)室級特征的預測能力沒有超過基因級 HM 特征的預測能力。

          圖片

          圖示:在 Chromoformer 訓練中納入基因組劃分狀態(tài)。(來源:論文)

          總之,Chromoformer 是另一個示例性應用,它強調(diào)了 Transformer 架構(gòu)在生物序列建模方面的巨大潛力。該研究還強調(diào)了開發(fā)有效嵌入生物先驗知識的專業(yè)深度學習架構(gòu)的重要性,不僅可以提高預測任務(wù)的性能,還可以定量表征生物實體之間的復雜關(guān)系。

          論文鏈接:https://www.nature.com/articles/s41467-022-34152-5


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉