前面的小編給大家詳細(xì)介紹了一下TCGA這個數(shù)據(jù)庫,以及如何從這個數(shù)據(jù)庫下載并合并表達(dá)譜數(shù)據(jù)。然后進(jìn)行差異表達(dá)分析和構(gòu)建ceRNA網(wǎng)絡(luò)。
?如何合并TCGA表達(dá)譜數(shù)據(jù)
?零代碼合并TCGA表達(dá)譜數(shù)據(jù)
?零代碼TCGA差異表達(dá)分析
?R代碼TCGA差異表達(dá)分析
?一文掌握ceRNA網(wǎng)絡(luò)構(gòu)建
最近發(fā)現(xiàn),TCGA的RNAseq這些數(shù)據(jù)似乎已經(jīng)更新了。這應(yīng)該是2022年4月初發(fā)生的事情。讓我們來看看具體的區(qū)別。我們?nèi)匀徽J(rèn)為CHOL以這套數(shù)據(jù)為例,解釋如何下載和處理新版本TCGA中的RNAseq數(shù)據(jù)。miRNA數(shù)據(jù)沒有變化。
1.打開TCGA官網(wǎng)https://portal.gdc.cancer.gov/.輸入搜索框chol,選擇第一個PR(project),TCGA-CHOL
2.單擊跳轉(zhuǎn)頁面RNA-Seq后面的數(shù)字
3. 點(diǎn)擊新打開的頁面左上角Files
4.接下來是不同的地方,你可以看到workflow type里面沒有HTSeq-Counts取而代之的是STAR-Counts。我們選擇這個STAR-Counts。
你會發(fā)現(xiàn)STAR-Counts有88份文件,其中44份是Gene Expression Quantification,這是我們合并表達(dá)譜所需的文件。剩下的44份文件是Splice Junction Quantification,這主要是檢測新的轉(zhuǎn)錄本或集成文件。此外,這44份文件屬于controlled下載文件需要申請權(quán)限。
5.勾選Gene Expression Quantification,點(diǎn)擊右邊的Add All Files to Cart。
6. 這個時(shí)候在我們的購物車(右上角)里面就會出現(xiàn)剛才選擇的44個文件。
我們需要在這里下載sample sheet,點(diǎn)擊Sample Sheet。下載的文件打開如下,可以看到新版本TCGA的counts文件的名稱不再是帶有的htseq.counts.gz后綴的壓縮文件變成了star_gene_counts.tsv為后綴的文本文件。
還需要下載包含表達(dá)譜數(shù)據(jù)的所有內(nèi)容star_gene_counts.tsv文件。點(diǎn)擊Download,點(diǎn)擊下拉框中的Cart。將下載壓縮文件。
解壓后會有44個文件夾
每個文件夾都有一個star_gene_counts.tsv,我們可以隨意打開一個,這個文件的內(nèi)容與舊版本完全不同,包含更多的信息。甚至包括RNA類型很容易區(qū)分mRNA和lncRNA此外,你不必?fù)?dān)心基因的名稱ID轉(zhuǎn)換問題。
這里除了有STAR-counts,還有TPM,F(xiàn)PKM和FPKM_UQ。這些數(shù)據(jù)的具體計(jì)算方法可以參考TCGA官方文檔https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
STAR-counts計(jì)算比較直接,就是有幾個reads比較相應(yīng)的基因,counts就是幾。
TPM,F(xiàn)PKM和FPKM_UQ定義如下。
FPKM The fragments per kilobase of transcript per million mapped reads (FPKM) calculation aims to control for transcript length and overall sequencing quantity.Upper Quartile FPKM The upper quartile FPKM (FPKM-UQ) is a modified FPKM calculation in which the protein coding gene in the 75th percentile position is substituted for the sequencing quantity. This is thought to provide a more stable value than including the noisier genes at the extremes.TPM The transcripts per million calculation is similar to FPKM,but the difference is that all transcripts are normalized for length first. Then,instead of using the total overall read count as a normalization for size,the sum of the length-normalized transcript values are used as an indicator of size.
TPM,F(xiàn)PKM和FPKM_UQ計(jì)算方法如下。
官方網(wǎng)站還給出了詳細(xì)的例子,幫助您理解計(jì)算過程
Examples Sample 1: Gene AGene length: 3,000 bp1,000 reads mapped to Gene A1,000,000 reads mapped to all protein-coding regionsRead count in Sample 1 for 75th percentile gene: 2,000Number of protein coding genes on autosomes: 19,029Sum of length-normalized transcript counts: 9,000,000FPKM for Gene A = 1,000 * 10^9 / (3,000 * 50,000,000) = 6.67FPKM-UQ for Gene A = 1,000) * 10^9 / (3,000 * 2,000 * 19,029) = 8.76TPM for Gene A = (1,000 * 1000 / 3000* 1,000,000 / (9,000,000)= 37.04
今天的分享先到這里,我們將介紹如何合并新版本TCGA數(shù)據(jù)庫中的counts表達(dá)譜矩陣。
TCGA數(shù)據(jù)庫悄悄更新—RNAseq沒有HTSeq-Counts了