或Pseudo-alignment。所以首先需要獲取參考基因組和參考轉錄組信息。Ensembl(http://www.ensembl.org/info/data/ftp/index.html)是常用的信息齊全的參考基因組和GTF文件下載網站。下圖列出了幾個常用動物物種的DNA序列和GTF格式的基因組注釋。Ensembl提供的參考基因組有2種組裝形式和3種重復序列處理方式錛 分別是primary錛 toplevel和unmasked (dna)、soft-masked (dna_sm)和masked (dna_rm)。一般選擇dna.primary或dna_sm.primary。為什麼選擇PrimaryPrimary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is **b****est used for performing sequence similarity searches **where patch and haplotype sequences would confuse analysis.為什麼不選擇maskedMasked基因組是指所有重復區和低復雜區被N代替的基因組序列,這樣比對時就不會有reads比對到這些區域。一般不推薦用masked的基因組,因為它造成了信息的丟失,由此帶來的一個問題是uniquely比對到masked基因組上的reads實際上可能不是unique的。而且masked基因組還會帶來比對錯誤,使得在允許錯配的情況下,本來來自重復區的reads比對到基因組的其它位置。另外檢測重復區和低復雜區的軟件不可能是完美的,這就造成遮蓋住的重復序列和低復雜區並不一定是100%準確和敏感的。soft-masked基因組是指把所有重復區和低復雜區的序列用小寫字母標出的基因組,