<progress id="2gnsh"></progress>

        歡迎登陸巖之瀾醫學官方網站
        學習中心
        NGS專區 當前您所在的位置:首頁 > 學習中心 > NGS專區
        高通量測序錯誤
         最后更新:2018-11-22  瀏覽:2052次

        高通量測序錯誤總結

        一、生信分析部分

        1)Q20/Q30

         

        堿基質量分數與錯誤率是衡量測序質量的重要指標,質量值越高代表堿基被測錯的概率越小。Q30代表堿基的正確判別率是99.9%,錯誤率為0.1%。 同時我們也可以理解為1000個堿基里有1個堿基是錯誤的。Q20代表該位點堿基的正確判別率是99%,錯誤率為1%。 對于整個數據來說,我們可以認為100個堿基里可能有一個是錯誤的, 在堿基質量模塊報告的坐標圖中,背景顏色沿y-軸將坐標圖分為3個區:最上面的綠色是堿基質量很好的區,Q值在30以上。中間的橘色是堿基質量在一些分析中可以接受的區,Q值在20-30之間。最下面紅色的是堿基質量很差的區。 在一些生信分析中,比如以檢查差異表達為目的的RNA-seq分析,一般要求堿基質量在Q在Q20以上就可以了。但以檢查變異為目的的數據分析中,一般要求堿基質量要在Q30以上。

         

        一般來說,測序質量分數的分布有兩個特點:

        1.測序質量分數會隨著測序循環的進行而降低。

        2.有時每條序列前幾個堿基的位置測序錯誤率較高,質量值相對較低。

         

        在圖中這個例子里,左邊的數據堿基質量很好,而右邊的數據堿基質量就比較差,需要做剪切(trimming), 根據生信分析的目的不同,要將質量低于Q20或者低于Q30的堿基剪切掉。

         

         

        2)序列的平均質量

         

        這個是堿基序列平均質量報告圖。橫坐標為序列平均堿基質量值,縱坐標代表序列數量。通過序列的平均質量報告,我們可以查看是否存在整條序列所有的堿基質量都普遍過低的情況。一般來說,當絕大部分堿基序列的平均質量值的峰值大于30,可以判斷序列質量較好。如這里左邊的圖,我們可以判斷樣品里沒有顯著數量的低質量序列。但如果曲線如右邊的圖所示,在質量較低的坐標位置出現另外一個或者多個峰,說明測序數據中有一部分序列質量較差,需要過濾掉。

         

        3)GC含量分布

        這個是GC含量分布報告圖。GC含量分布檢查是檢測每一條序列的GC含量。將樣品序列的GC含量和理論的GC含量分布圖進行比較,用來檢測樣品數據是否有污染等問題。理論上,GC含量大致是正態分布, 正態分布曲線的峰值對應基因組的GC含量。如果樣品的GC含量分布圖不是正態分布,如右圖出現兩個或者多個峰值,表明測序數據里可能有其他來源的DNA序列污染,或者有接頭序列的二聚體污染。這種情況下,需要進一步確認這些污染序列的來源,然后將污染清除。

        4)序列堿基含量

        堿基含量模塊是統計在序列中的每一個位置,四種不同堿基占總堿基數的比例。它的目的是檢測有無AT、GC分離的現象,而這種現象可能是測序或建庫的系統誤差所帶來的,并且會影響后續的生信分析。理論上,在隨機的DNA文庫中,G和C含量以及A和T含量在每個測序循環上應分別相等,而且整個測序過程穩定不變。所以堿基含量的四條線應該是基本平行的水平線(圖A)。而現實中,由于建庫PCR擴增時PCR引物的最初幾個堿基不能很好地和模板DNA結合,常常會導致測序結果序列開始的大約前10個堿基位置,堿基含量有較大的波動。這種波動存屬于技術誤差(圖B)。如果在整個測序過程中,四條堿基含量線都出現波動,可能是樣品庫里有過多的接頭序列的二聚體(圖C,D)。在建庫過程中,如果加入的接頭序列過量,兩個接頭序列可能會連在一起,中間沒有要測序的插入序列,形成接頭序列二聚體。這些二聚體可以利用adapter trimmer 軟件去除。

         

        5)過量出現的序列

         

        過量序列模塊是查看數據是否有污染的另一種方法。如果某個序列的數量占全部序列的0.1%以上,FASTQC就定義該序列為over-represented。這些over-represented序列通常標示著污染序列的存在。這種污染如果是建庫測序中的接頭序列,fastqc可以檢測并標示出可能的來源(possible source)。但如果污染是由于其他來源的DNA,比如其他生物的DNA,FASTQC就沒法判斷污染序列的來源。這就需要生信分析人員利用其他方法找出污染源。比如將大量出現的序列和NCBI的DNA數據庫進行blast,看看污染序列是否來自其他物種。

         

        6)過量出現的Kmer

         

        檢查是否有接頭序列,還可以查看k-mer含量。如果有些k-mer過量出現,很有可能有序列污染。過量出現的k-mer可能會有三種情況:序列5'-端,序列中間,或者序列3'-端。5’-端過量出現的k-mer是建庫PCR擴增時PCR引物無法和DNA模板很好地結合導致的,是技術誤差。出現在中間的k-mer比較少見,可能是接頭序列拼接到測序序列中間導致的。3'-端出現過量k-mer往往標示著接頭序列的污染。

         

         

        7)接頭序列含量

         

        對接頭序列污染的查看還有一個更直觀的模塊,就是接頭序列含量。這里的兩個例子中,左圖沒有顯著的接頭序列污染,右圖的接頭序列污染就比較顯著。

         

         

         

        8)去除duplication序列

         

        重復序列是怎么來的呢? 在全基因組或全外顯子組測序的建庫過程中,需要進行多輪的PCR擴增。由于擴增引物和不同模板結合力的差異,有些地方的序列擴增產物大于1。這些重復序列的存在會造成等位基因頻率的定義以及基因型識別不準確。去除重復序列的原理是將所有比對到完全相同位置的序列對減少至一對。一般用picardtools軟件里的Markduplcate功能去除重復序列。

         

        堿基質量分數重新校正

         

        對原始比對結果的另一個質量控制是對堿基的質量分數進行校正。為什么要對堿基質量進行校正呢?這是因為由于各種系統誤差,測序儀報告的堿基質量不精確,比實際質量分數偏高或者偏低。系統誤差和隨機誤差不同,不像隨機誤差,它其實是一種error。這可能來自于測序反應中的物理化學原因,也可能是測序儀本身存在的缺陷造成。堿基質量分數校正的原理是:利用機器學習的方法建立誤差模型,根據建立的模型對堿基分數進行調整。調整后更精確的堿基質量分數能夠提高后續變異識別的準確率,減少假陽性和假陰性的變異識別。堿基質量的校正一般使用GATK的recalibration功能。需要說明的一點是:堿基質量分數校正不能糾正堿基。也就是說,我們無法通過這個方法確定一個低質量的A是否應該為T。但可以告訴變異識別軟件,它可以在多大程度上信任這個堿基A是正確的。

         

         

         

        二、實驗分析部分

        測序錯誤主要有三大類,分別來自樣品制備、文庫制備,以及測序和成像。參考文獻:The role of replicates for error mitigation in next-generationsequencing

        1)來源于樣品制備的測序錯誤 

        1.  用戶錯誤;例如,貼錯標簽。雖然這是個低級錯誤,但肯定不會沒犯過。在芯片分析中,貼錯標簽和樣品搞混可都是真事,有文獻可查。

        2.  DNA或RNA的降解;例如,組織自溶,福爾馬林固定石蠟包埋(FFPE)組織制備過程中的核酸降解和交聯(甲醛固定樣品會隨機產生C-T轉化,導致肺癌T790M假陽性增多)。

        3.  異源序列的污染;例如,那些支原體和異種移植的宿主。

        4.  DNA起始量低。早在2005年人們就發現,在PCR過程中,DNA起始量低的模板會以序列依賴的方式產生虛假的突變,主要是從G轉變為A。

        2)來源于文庫制備的測序錯誤

        1.  用戶錯誤;例如,一個樣品的DNA殘留到下一個,之前反應的污染。

        2.  PCR擴增錯誤。這個同上面第4點。

        3.  引物偏向;例如,結合偏向,甲基化偏向,錯配導致的偏向,非特異性結合和引物二聚體的形成,發夾結構和干擾環,熔解溫度太高或太低引入的偏向。 

        4.  短捕獲偏向,在高通量RNA測序的poly(A)富集過程中引入。

        5.  獨家突變;例如,那些由重復區域或獨家變異的錯配而引入的突變。 

        6.  機器故障;例如,PCR循環溫度不正確。

        7.  嵌合讀取。 

        8.  條形碼和/或接頭錯誤;例如,接頭污染,缺乏條形碼多樣性和不兼容的條形碼。

        3)來源于測序和成像的測序錯誤 

        1.  用戶錯誤;例如,流動槽過載引起的簇crosstalk。

        2.  移相;例如,不完整的延伸以及多個核苷酸而不是單個核苷酸的添加。 

        3.  “Dead”熒光基團,受損的核苷酸以及重疊信號。

        4.  序列背景;例如,富含GC,同源和低復雜度的區域,及均聚物。 

        5.  機器故障;例如,激光器、硬盤、軟件和流體系統出故障。

        6.  鏈的偏向。 

         

         

        三、小知識

        1. 為什么堿基質量在序列的5’-端要差一些?

        答:這是由NGS的測序特點造成的。NGS使用的是pyrosequencing (sequencing by synthesis)的方法。 在這個方法里,用來合成的4個堿基的混合物里A,C,T,G四個堿基分別帶有綠色,藍色,紅色和黑色的熒光標記。而且每個堿基上面都有一個blocker cap,使得每輪反應只能有一個堿基被加入到每個分子中。然后把沒有加入分子的游離堿基全部洗去后,對每個分子進行熒光檢測來確定新加入的堿基是什么。在下一輪開始之前,這個blocker cap要去被掉才可以加入下一個堿基。如果某個序列的blocker cap沒有能有效地去除,在下一個反應中就沒有新的堿基加入,那這個序列的熒光和其他的序列是不一樣的,這樣總體的熒光強度就被消弱,堿基識別的可信度就被降低。這種錯誤發生的概率很低,但隨著測序長度的增加,這種錯誤的總數就越來越多,對熒光的影響就越來越大,測序的錯誤率就越來越大。

        2. 什么是接頭序列?為什么會有接頭序列污染?為什么要清除接頭序列?

        答:在構建高通量測序的DNA文庫時,需要在待測的DNA片段兩頭分別連一段人工合成的DNA序列。這兩段人工合成的序列被稱為接頭序列。接頭序列里一般包含三個重要組成部分:區分樣品的barcode序列,PCR  primer序列和測序引物結合的序列。在一般情況下,待測的插入序列在5’-接頭序列下游,5’-段的接頭序列不會出現在測序結果序列里。但當插入測序列過短時,測序反應會超過待測序列而測到3’-端的接頭序列,從而造成接頭序列的污染。當reads中有接頭序列,會導致比對錯誤和非比對的序列書面增加。所以要清楚接頭序列。

        3. 測序深度不均一性是測序建庫技術操作的問題,還是每個人的個體化差異導致不均一的現象?

        答:不均一的原因個體DNA和測序應該都有,看不同的情況。比如我們曾經分析過一個WES, 在一個本應該檢測到變異的基因,我們無論如何檢測不到??梢暬l現該區域內沒有reads。而查看這段基因序列,發現是100% 的G。而對測序儀來說,如果G含量超過80%,就很難成功測序。而如果個體某段DNA含有比較多的SNP,捕獲探針就無法很好和DNA雜交,而不能有效的捕獲。

        4. 測序是否越深越好?

        NGS屬于“深度測序”,可以1次并行對幾十萬甚至上百萬條DNA分子進行序列測定,從而實現每個位點被覆蓋幾十次甚至上百次。通過計算測序得到的堿基總量與測序區域大小的比值,可以獲得測序的平均深度,是評價測序質量的重要指標之一。測序深度的增加使得目標區域覆蓋的讀長增多,獲得區域的序列信息更為精確。然而,測序深度的增加意味著測序成本的提高。因此,在測序之前需對數據精確度和成本進行綜合考慮,根據臨床應用需求選擇合理的測序深度。測序深度的選擇主要基于以下4個方面的考慮:

        首先,常規的測序項目采用普遍被接受或推薦的測序深度。正常組織全基因組測序建議的測序深度為10X~30X。有研究表明,30X的測序深度可以覆蓋80%的全基因組信息,基本滿足常規的全基因組測序需求。正常組織全外顯子測序的測序深度為100X~200X。轉錄組測序雖不以深度來衡量,但對測序讀長數有明確的要求,一般為百萬數量級。常規的染色質免疫共沉淀測序則需要100X左右。這些測序深度都經過多方驗證,基本能滿足不同測序目的的數據需求。

        其次,特殊目的的測序項目可通過檢索文獻數據庫,選擇與相關研究類似的測序深度,如在開展循環腫瘤DNA(circulating tumor DNA,ctDNA)檢測時,可參考CAPP-Seq方法中的測序深度(10 000X以上),以保證可以覆蓋低頻率的ctDNA突變信息。開展高深度的腫瘤基因組測序,可選擇60X~100X的測序深度。

        再次,根據已有的測序項目進行深度優化,如根據已知現有Panel檢測項目靶向區域各堿基的深度分布情況,90%以上的堿基覆蓋深度>0.2(均值歸一化結果),要實現平均測序深度在10X以上的深度測序,其實際測序深度則要達到50X(10/0.2=50),類似的策略可參閱illumina技術手冊(???)。這種優化策略對于新檢測項目的研發有重要的幫助。

        最后,根據測序目的選擇測序深度。例如我們開展的遺傳乳腺癌高危人群篩查項目,采用靶向捕獲測序檢測血液樣本中的胚系突變,由于胚系突變頻率理論值為0%、50%和100%,此時采取較低的深度(200X)就可獲得該突變信息。但在腫瘤體細胞的突變檢測中,由于腫瘤組織樣本中腫瘤細胞的異質性和樣本純度等原因,可能存在低頻率的體細胞突變(5%、1%,甚至更低),為了獲得這些突變信息,我們在腫瘤用藥指導檢測項目中采取深度測序,保證1 000X以上的測序數據。

        值得強調的是,測序深度的增加往往意味著建庫階段PCR擴增次數的增加,會導致重復讀長的增多,這些冗余數據不僅增加了數據處理的計算量,同時會對變異檢測產生干擾??傊?,測序深度不是隨意指定的,在檢測項目的建立過程中,必須根據項目需求選取合適的測序深度。同時,在開展的檢測項目中,必須對測序數據進行質量評估,判斷其是否達到預期的測序深度,深度不夠則必須補測,若差異太大,則必須重新測序。

         

        5. 靶向測序是否真的完全覆蓋靶向區域?

        靶向測序是通過捕獲或擴增的手段抓取基因組特定區域的片段進行NGS,這個特定區域既可以是單個或多個基因,也可以是全外顯子組甚至全基因組。必須注意的是,由于現有的測序技術很難捕獲高GC區域、短重復片段等基因組區域,全外顯子組測序和全基因組測序并不能完全覆蓋全外顯子組或全基因組區域,最好的全基因組測序覆蓋度可達97%。Illumina公司的外顯子組捕獲技術(TruSeq Exome)可實現99.45%的RefSeq、98.83%的一致性編碼序列(consensus coding sequence,CCDS)、99.68%的Ensembl、99.68%的GENCODE v19的覆蓋度。此外,不同的全基因組或外顯子組捕獲體系,如NimbleGen、Agilent、Illumina TruSeq和Illumina Nextera的捕獲效率/覆蓋度也存在差異。

        在測序過程中,由于試劑差異、人員操作、儀器維護等因素,實際的捕獲效率和覆蓋度也會與期望值存在偏差,可能會捕獲到非目標區域序列,也可能漏捕目標區域序列。非目標區域序列對于靶向測序沒有意義,而脫靶序列會導致測序信息缺失。因此,對于任何檢測項目,每一次測序必須給出靶向區域的覆蓋度統計,這是衡量測序質量的重要指標之一。當覆蓋度過低時,則需補測數據或對樣本重測。

        值得強調的是,靶向區域內堿基覆蓋深度的分布并不是均勻的,在靶向區域的5'端和3'端,其測序深度較低,甚至只有1個或幾個讀長覆蓋,這種低深度的序列信息不能提供可靠的信息用于后續分析。因此,在實際操作中,評估測序的覆蓋度往往結合測序深度,如靶向區域內10X以上的覆蓋率。

        6. 不要忽視重復讀長帶來的數據損失

        測序深度和覆蓋度是大家比較關注和容易接受的質控指標,但測序數據中的重復率(即重復讀長在所有讀長中的比例)常被忽視。重復讀長出現的類型有2種:1種是文庫構建前PCR擴增的原因導致的完全一樣的讀長;另1種是比對到參考基因組上同一位置不同的讀長,該現象可能是由測序錯誤、比對錯誤、等位基因等原因導致的,即使讀長序列不一致,但也被認為是重復讀長。第1種重復讀長去除比較簡單,可以根據序列是否一致來判斷。常用的數據質控軟件FastQC就是根據該原理來估計數據中的重復率。第2種重復讀長來源復雜,是否去除難以判斷,如同一基因不同拷貝的片段,其中1個拷貝發生突變,其他拷貝無突變,此時去掉重復讀長則會丟掉該變異信息。目前,在broad研究所推薦的流程(GATK Best Practice)中,建議去除重復讀長,否則獲得的突變頻率可能會存在偏移,見下圖。非真實的突變頻率會對腫瘤異質性、克隆演化等研究數據產生重要影響。

        去除重復讀長導致的突變頻率偏倚

        在實際數據分析中,Samtools、PICARD等軟件常用來統計數據的重復率和去除重復讀長。一般情況下,靶向捕獲測序的重復率在20%以下,如果低于10%,說明數據質量較好;若重復率過高(達40%或60%),去除重復讀長后位點的實際測序深度會大大減少,過低的測序深度難以保證突變位點的準確信息。在我們的測序實踐中,擴增子測序的平均重復率要高于捕獲測序的重復率:擴增子測序的重復率通常為20%~50%,而捕獲測序的平均重復率為10%~20%。因此,不僅要關注有效數據的測序深度,還需關注數據中的重復讀長比例,以真實地評估樣本中的靶向區域是否被有效覆蓋。

         

        7. 測序數據質量和數量并重

        在測序過程中,測序儀會給每個堿基賦予1個質量值,代表這個堿基測序的準確性。若堿基質量值為20,則表明該堿基有1%的可能性是錯誤的;若堿基質量值為30,則表明堿基有0.1%的可能性是錯誤的。堿基質量值與錯誤率的關系如下。

        堿基質量值與錯誤率的關系

         

        注:Q=-log10P;Q為堿基質量值;P為錯誤率;1-P為準確度

        如果堿基質量值較低,對應堿基測錯的概率會很高,此時若該位點發生了突變,則難以判斷該突變是真實發生的,還是測序錯誤。因此,統計數據中高質量堿基的比例是衡量測序數據質量的又一個重要指標。Ion Proton測序儀要求的下機數據中,堿基質量值在20以上的堿基比例為80%;Illumina HiSeq系列測序儀的標準是堿基質量值在30以上的比例要達到75%。

        另外,一些未測出的堿基以N表示。若讀長中未知堿基太多,則讀長包含的有效信息減少。在數據分析前,該讀長必須去掉,否則會對后續分析造成影響。同時,文庫構建時添加的接頭序列也會出現在測序的原始數據中。這些接頭序列不是目標區域和樣本的真實序列,也必須去除掉,否則會對真實的數據造成干擾,影響后續的分析結果。

        8. raw cluster密度

        正常raw cluster密度:20~30萬/GA tile;200-350萬/Hiseq tile;

        cluster制備時,控制文庫濃度,達到適當的raw cluster:密度過低-產量低;密度過高-質量差

        樣品差異:200bp小片段能夠容忍的密度較高,800bp片段以及RNA樣品、特殊樣品,應適當減低密度

        通過默認質量篩選標準比率(PF)

        用read1前25cycle的信噪比進行篩選;正常PF比例:DNA≥80%,RNA大于等于70%;raw cluster密度越高,PF比例越低;當raw cluster密度超高時,圖像分析識別出的raw cluster數量小于真實值,此時PF比例會低于正常;

         

         

        版權所有  巖之瀾(北京)醫學科技有限公司     京ICP備:13010689號  

        成年美女黄网站色大全COM10,俄罗斯女人与动Z0Z0,超清中文乱码字幕在线观看,无限资源好看片2019

            <progress id="2gnsh"></progress>