2012年9月5日,DNA元素百科全書”計劃(簡稱ENCODE)獲得了迄今zui詳細的人類基因組分析數據,其成果以30【Nature(6篇)、Genome Research(18篇)和Genome Biology(6篇)】論文的形式同時發表在Nature,Science,Genome Research,Genome Biology雜志等一系列學術期刊上,文章作者就達442位,迅速成為各大媒體和生物科學界熱議的話題。以下是各篇文章的中文摘要和原文鏈接。
1. 轉錄因子的足跡分析
對41種不同的細胞和組織類型進行基因組DNase I足跡分析(genomic DNase I footprinting),研究人員在DNA調節區內鑒定出4500萬個轉錄因子結合事件,從而代表著這些轉錄因子與840萬個不同的短DNA序列元件存在差異性地結合。他們還發現影響等位基因染色質狀態的基因變異體集中分布在這些足跡之中,并且這些序列元件優先得到DNA甲基化的保護。他們鑒定出一個固定不變的50個堿基對長的足跡,并且這種足跡地確定著上千個人啟動子內的轉錄起始位點。zui后,他們描述了一個新的調節因子識別基序集合,其中這些基序在序列和功能上是高度保守的。<<<原文An expansive human regulatory lexicon encoded in transcription factor footprints(10.1038/nature11212)
2. 人基因組DNA元件集成百科全書
ENCODE項目系統性地描繪出人基因組上的轉錄區域、轉錄因子結合、染色質結構和組蛋白修飾。根據這些數據,研究人員將生化功能分配到80%的人基因組,特別是在已得到很好研究的蛋白編碼序列之外的區域。<<<原文An integrated encyclopedia of DNA elements in the human genome(10.1038/nature11247)
3. 人細胞轉錄全景圖
RNA是基因組編碼的遺傳信息的直接輸出。細胞的大部分調節功能都集中在RNA的合成、加工和運輸、修飾和翻譯之中。研究人員證實,75%的人基因組能夠發生轉錄,并且觀察到幾乎所有當前已標注的RNA和上千個之前未標注的RNA的表達范圍與水平、定位、加工命運、調節區和修飾。總之,這些觀察結果表明人們需要重新定義基因的概念。<<<原文Landscape of transcription in human cells(10.1038/nature11233)
4. 人基因組中可訪問的染色質全景圖
DNase I超敏感位點(DNase I hypersensitive sites, DHSs)是調節性DNA序列的標記物。研究人員通過對125個不同的細胞和組織類型進行全基因組譜分析而鑒定出大約290萬個人DHSs,并且大范圍地繪制出人DHSs圖譜。<<<參見原文(10.1038/nature11232)
5. 人基因組調控網絡結構
為了確定人轉錄調節網絡的作用原理,研究人員在450多項基因組實驗中研究了119個轉錄相關因子的結合信息。他們發現轉錄因子的組合性結合是高度環境特異性的:轉錄因子的不同組合結合在特異性的基因組位置上。他們對所有的轉錄因子進行組裝而產生一個層次結構,并且將它與其他基因組信息整合在一起而形成一個嚴密而又龐大的調節性網絡。<<<參見原文(10.1038/nature11245)
6. 基因啟動子的遠距離相互作用全景圖
在ENCODE項目中,研究人員選擇1%的基因組作為項目試點區域,并且利用染色體構象捕獲碳拷貝(chromosome conformation capture carbon copy, 簡稱為5C)技術來綜合性地分析了這個區域中轉錄起始位點和遠端序列元件之間的相互作用。他們獲得GM12878、K562和HeLa-S3細胞的5C圖譜。在每個細胞系,他們發現啟動子和遠端序列元件之間存在1000多個遠距離相互作用。<<<參見原文(10.1038/nature11279)
7. 果蠅和人的轉錄因子結合位點變異分析
研究人員將ENCODE項目產生的轉錄因子結合圖譜、他們之前發布的數據以及其他的人和果蠅等基因系中基因組變異數據來源結合在一起,來研究轉錄因子結合位點(transcription factor binding sites, TFBSs)的變異性。他們引入一種TFBS變異性的衡量標準和依據不斷出現的每個人的轉錄因子結合數據來證實TFBS突變,尤其是在進化保守性位點上發生的那些突變,能夠被有效地緩解從而確保轉錄因子結合水平保持一致性。<<<參見原文(10.1186/gb-2012-13-9-r49)
8. 轉錄因子TCF7L2通過GATA3結合到基因組上
TCF7L2轉錄因子與很多人類疾病相關聯,如II型糖尿病和癌癥。研究人員利用高通量測序技術ChIP-seq在6個人細胞系中對TCF7L2進行分析。他們鑒定出11.6萬個非冗余性TCF7L2結合位點,但是只有1864 個位點在這6個細胞系中是相同的。他們還證實被H3K4me1和H3K27Ac標記的很多基因組區域也被TCF7L2結合。對細胞類型特異性的TCF7L2結合位點進行生物信息學分析揭示富集多種轉錄因子,包括在HepG2細胞中富集HNF4alpha和FOXA2基序,而在MCF7細胞中富集GATA3基序。轉錄組測序(RNA-seq)分析提示著TCF7L2通過GATA3結合到基因組上從而抑制轉錄。<<<參見原文(10.1186/gb-2012-13-9-r52)
9. 構建定量模型研究染色質特征和基因表達水平之間關系
通過構建出一個新的研究染色質特征和基因表達水平之間關系的定量模型,研究人員不僅證實之前在多個細胞系的研究中發現的一般性關系,而且還對它們之間的關系提出一些新的建議。<<<參見原文(10.1186/gb-2012-13-9-r53)
10. GENCODE假基因資源
作為GENCODE標注人基因組的一部分,研究人員基于大規模的人工標注和計算機運算來*次針對蛋白編碼的基因進行全基因組假基因分配。他們將假基因標注和廣泛性的ENCODE功能性基因組學信息整合在一起。特別的是,他們確定了每個假基因的表達水平、轉錄因子與RNA聚合酶II結合以及與之相關聯的染色質標記。<<<參見原文(10.1186/gb-2012-13-9-r51)
11. 對人啟動子的轉錄因子結合位點進行功能性分析
為了大規模地描述轉錄因子結合位點功能,研究人員預測了人啟動子中的455個結合位點,并對它們進行突變。在四個不同的永生化人細胞系中,他們利用瞬時轉染和熒光素酶報告檢測在這些位點上對主要的轉錄因子CTCF, GABP, GATA2, E2F, STAT和YY1進行功能性的測試。在每個細胞系中,36%到49%的結合位點提高啟動子活性,并且在這些細胞系中的任何一個當中,觀察到這種提高啟動子活性的功能的整體發生率為70%。<<<參見原文(10.1186/gb-2012-13-9-r50)
12. 基于轉錄相關因子的結合位點對人基因組區域進行分類
研究人員通過機器學習方法構建出統計學模型來捕獲三種匹配類型的區域的基因組特征:活性結合或不活性結合的區域;高程度共同結合區域(high degree of co-binding, HOT)和低程度共同結合區域(low degree of co-binding, LOT);位于基因近端或遠端的調節性組件。總之,這種區域在染色體位置、染色質特征、結合到它們之上的轉錄因子和細胞類型特異性上存在復雜的差異。<<<參見原文(10.1186/gb-2012-13-9-r48)
13. 利用RegulomeDB標注個人基因組中的功能性變異
研究人員開發出一種新的方法和數據庫,即調節物組數據庫(RegulomeDB),從而能夠指導人們理解人基因組中調節性序列上發生的變異。調節物組數據庫包括來自ENCODE和其他來源的高通量的實驗數據,以及利用計算預測和人工標注來鑒定出潛在的調節性序列變異體。<<<參見原文(10.1101/gr.137323.112)
14. 制定ChIP-seq工作標準和指導準則
根據研究人員進行ChIP-seq實驗的經歷,ENCODE和modENCODE(model organism ENCODE, 模式生物ENCODE)為經常更新的ChIP-seq實驗制定出一套工作標準和指導準則。<<<參見原文(10.1101/gr.136184.111)
15. 利用RT-PCR-seq和RNA-seq統計所有人基因組編碼的基因元件
在ENCODE項目中,GENCODE旨在通過人工管理和計算方法來準確地標注人基因組中所有編碼蛋白的基因、假基因和非編碼性的轉錄座位。利用一種被稱作RT-PCR-seq(即先進行RT-PCR擴增,然后進行高通量多重測序)的方法可以來預測外顯子連接(exon–exon junction)。研究人員驗證了73%的預測結果,從而證實了1168個新的基因,其中大多數是非編碼性的。<<<參見原文(10.1101/gr.134478.111)
16. 細胞內RNA深度測序證實大多數RNA進行共轉錄剪接
研究人員分析了K562細胞系中通過RNA-seq測序而獲得的細胞內RNA組分。他們發現在人基因組中,RNA剪接主要是在轉錄期間完成的。通過引入coSI 測量方法,他們證實在細胞質polyA+ RNA中,剪接幾乎*完成。因此,大多數RNA在被轉錄的同時進行剪接,即共轉錄剪接。<<<參見原文(10.1101/gr.134445.111)
17. 發現上百個小鼠和人剪接來源的miRNA
非典型的miRNA模板并不適合經常用來標注典型miRNA的策略。通過對737個小鼠和人類小RNA數據集進行大規模分析,研究人員采取嚴格且保守性的策略對237個小鼠剪接來源miRNA(splicing-derived miRNAs, mirtrons)和240個人mirtrons進行標注。在哺乳動物中,這些mirtrons可以分為三類:常規性的mirtrons、5'加尾mirtrons和3'加尾mirtrons。<<<參見原文(10.1101/gr.133553.111)
18. GENCODE:ENCODE項目的人基因組參照標注
GENCODE項目旨在利用計算分析、人工標注和實驗驗證來鑒定出人基因組中所有的基因特征。GENCODE第七版(GENCODE v7)公開發布了基因組標注數據集,包含了20687個蛋白編碼的RNA基因座位、9640個長鏈非編碼RNA基因座位,并且擁有33977個在UCSC基因數據庫和RefSeq數據庫中不存在的編碼性轉錄本。它還對公開獲得的長鏈非編碼RNA(long noncoding RNA, lncRNA)進行zui全面的標注。<<<參見原文(10.1101/gr.135350.111)
19. 發現人基因組中疾病相關的功能性SNP
研究人員系統性地研究了多種類型的ENCODE數據與疾病相關基因SNP(single nucleotide polymorphism, 即單核苷酸多態性)之間的關聯性,并且發現在當前鑒定出的疾病關聯當中,存在功能性SNP的顯著性富集。<<<參見原文(10.1101/gr.136127.111)
20. 在兩種人細胞系中,lncRNA很少表達
ENCODE項目發現被鑒定為lncRNA的9640多個人基因組位點中,迄今為止只有大約100個得到深入的研究以便確定它們在細胞中的作用。通過共同分析ENCODE項目zui近產生的兩個數據集:將表達的肽鏈映射到它們的編碼性基因組位點的串聯質譜數據;ENCODE在細胞系K562和GM12878中對長polyA+和polyA-組分進行RNA-seq測序產生的數據,研究人員利用機器學習方法RuleFit3將肽鏈數據與RNA表達數據對應起來。他們發現大約92%的GENCODE v7發布的lncRNA在這兩種細胞系中并不表達。除極少例外,核糖體能夠區分編碼性RNA轉錄本和非編碼性RNA轉錄本,因而在lncRNA組(lncRNAome)中,異位表達和隱性mRNA都是罕見的。<<<參見原文(10.1101/gr.134767.111)
21. 關于個人和群體的基因組調節性序列變異的基因組學
為了更好地界定人基因組調節性序列變異的模式,研究人員選擇了來自不同地理位置的53個人的全基因組序列,將他們的138個細胞和組織類型的DNase I超敏感位點(DNase I hypersensitive sites, DHSs)標記的全基因組調節性DNA序列圖譜結合起來。研究人員估計相比于蛋白編碼的DNA序列,每個人可能擁有很多更加具有功能重要性的調節性DNA序列變異體,盡管平均而言,它們可能產生更加小的影響。<<<參見原文(10.1101/gr.134890.111)
22. 利用開放構象染色質區域來預測細胞類型特異性的基因表達
研究人員利用來自19項不同的人細胞類型的DNase-seq數據來鑒定全基因組范圍的近端和遠端調節性序列元件。通過匹配表達數據,他們將基因分為三類:細胞特異性的上調表達的基因、細胞特異性的下調表達的基因和組成性表達的基因。總之,他們成功地利用開放構象染色質的信息來解決利用調節性序列直接預測哺乳動物細胞特異性表達時存在的問題。<<<參見原文(10.1101/gr.135129.111)
23. 探究ENCODE人RNA-seq數據中的RNA編輯
研究人員分析了來自ENCODE項目對14個人細胞系開展研究所獲得的長串RNA-seq數據(這些數據經過PolyA選擇,沒有形成雙鏈,且經過深度測序)以便鑒定出潛在的RNA編輯事件。他們發現RNA編輯和特異性的基因之間存在較強的關聯。<<<參見原文(10.1101/gr.134957.111)
24. 細胞類型特異性的轉錄因子結合的序列和染色質決定簇
為了研究DNA序列信號、組蛋白修飾和DNase對細胞類型特異性的結合位點的可訪問性所發揮的作用,研究人員分析了ENCODE項目所開展的286項ChIP-seq實驗。與之前的研究相一致的是,他們發現DNase可訪問性能夠解釋很多轉錄因子的細胞類型特異性結合。不過根據他們建立的模型,他們還發現10個轉錄因子擁有顯著性的細胞類型特異性的結合模式,4個轉錄因子表現出顯著不同的細胞類型特異性的DNA序列偏好性。<<<參見原文(10.1101/gr.127712.111)
25. 119個人轉錄因子結合的基因組區域附近的序列特征和染色質結構
通過對ENCODE項目在研究119個人轉錄因子時所獲得的大約457個ChIP-seq數據集進行整合分析,研究人員在大多數數據集中鑒定出高度富集的序列基序,揭示出新的基序和驗證已知的基序。<<<參見原文(10.1101/gr.139105.112)
26. 分析人lncRNA的基因結構、進化和表達
研究人員分析了迄今為止zui為完整的由GENCODE項目產生的人lncRNA標注:人工標注了產生14990個RNA轉錄本的9277個基因。他們的分析結果表明lncRNA是通過類似于蛋白編碼基因的轉錄途徑而被產生的。而且通過在多種人器官和大腦區域所開展的lncRNA綜合性表達分析,他們發現相對于蛋白編碼的基因,lncRNA通常較低地表達。<<<參見原文(10.1101/gr.132159.111)
27. 染色質信號存在廣泛的異質性
在許多種細胞系中,研究人員將14個染色質信號(12個染色質標記、DNase和核小體定位)與119個DNA結合蛋白的結合位點相關聯在一起。他們開發出一種被稱作CAGT(Clustered AGgregation Tool)的方法來解釋染色質標記在信號強度、形狀和隱性鏈定位上的異質性。<<<參見原文(10.1101/gr.136366.111)
28. 對轉錄因子結合數據進行整合分析來理解轉錄調節
利用對ENCODE項目產生的大量數據進行統計學模型分析來研究轉錄因子的轉錄調節。研究結果揭示不同技術和RNA抽提實驗程序所捕獲的轉錄起始位點在表達水平的預測準確度上存在顯著性的差異。<<<參見原文(10.1101/gr.136838.111)
29. CTCF結合的廣泛可變性與DNA甲基化相關聯
CTCF是一個廣泛表達的調節因子。研究人員通過研究19項不同人細胞類型的ChIP-seq數據來分析CTCF的全基因組結合模式。他們觀察到高度重復性的但同時可變性非常大的基因組結合全景圖,表明著CTCF結合受到高度細胞選擇性的調節。<<<參見原文(10.1101/gr.136101.111)
30. 細胞HepG2中高度整合的轉錄因子PPARGC1A結合網絡
PPARGC1A是一個轉錄共激活因子。它結合并共同激活多種轉錄因子來調節大多數基因的表達。在這項研究中,研究人員在經過毛喉素(forskolin)處理的HepG2細胞中描述了一種核心的PPARGC1A轉錄調節網絡。他們利用ChIP-seq描繪了PPARGC1A的全基因組結合位點,并且揭示出過多表達的對應于已知和新的PPARGC1A網絡成員的DNA序列基序。他們然后利用ChIP-seq構建出6個位點特異性的轉錄因子結合伴侶的基因表達譜。重要的是,他們發現不同的轉錄因子組合結合到一套不同的功能性基因上,從而有助于揭示代謝性過程和其他細胞過程的組合性調節