XHMM分析原理簡介

2021-09-24 19:03:28 字數 1513 閱讀 2109

xhmm是一款利用wes資料分析cnv的軟體,利用pca降維來歸一化外顯子區的測序深度資訊,然後通過隱馬可夫模型來**cnv,對應的文章連結如下

該軟體的pipeline示意如下

可以分成4個大的步驟

1. 比對參考基因組將測序的reads比對到參考基因組上,計算外顯子區的原始測序深度。cnv**的核心是通過測序深度和cnv的相關性來建模,所以需要保證這裡的測序深度和真實dna拷貝數的一致性,需要去除pcr重複。

官方推薦使用gatk最佳實踐中的預處理流程,  同時還可以新增一個mapq的過濾,篩選mapq大於20的alignemnts,得到可以用於下游分析的bam檔案。

2. 歸一化測序深度計算每個樣本各個外顯子的平均測序深度,得到一個exon平均測序深度的矩陣,示意如下

每一行為一個樣本,每一列為一個eoxn區域,對應的值為該exon區域在樣本內的平均測序深度。

在歸一化之前,可以先對這個矩陣進行一個預處理,即對樣本或者目標區域進行過濾。對於目標區域,去除gc含量小於0.1或者大於0.9的目標區域,去除包含10%以上的低複雜度序列的目標區域,也可以根據測序深度進行過濾,去除過低或者過高的目標區域,比如去除測序深度小於5x的目標區域;對於樣本,可以根據測序深度的分佈進行分析,去除離群的樣本。

預處理的目的是儘量保證用於後續分析的樣本在測序深度分佈上的均一性,減小樣本間的偏差。預處理之後就可以進行歸一化,考慮到gc含量帶來的pcr偏倚,晶片捕獲,mapping準確率等系統誤差的影響,採用pca演算法來去除系統噪聲,得到歸一化之後的測序深度。

效果如下圖所示

左側為原始的測序深度,右側為歸一化之後的測序深度,每條線代表一個樣本的測序深度值,灰色區域表示正常的二倍體,綠色區域表示拷貝數增加,歸一化之後二者區分的更加顯著。

3. 構建隱馬可夫模型將cnv在全基因組範圍內分佈的比例,長度,exon之間的距離等因素都考慮進來,構建了隱馬可夫模型, 將染色體區域分為以下3種型別

第一種代表拷貝數正常,為2拷貝,對應的測序深度為平均值,即baseline, 第二種代表缺失,小於2拷貝,測序深度低於平均值,第三種代表重複,大於2拷貝,測序深度高於平均值。

隱馬可夫模型中3種狀態之間的轉移概率矩陣如下所示

4.  cnv calling模型訓練好之後,對於每個樣本,通過維特比演算法來分析染色體區域的拷貝數狀態,從而檢測cnv。

·end·

變頻器的原理 應用 例項分析

近年來,變頻器在工業生產和居民的生活中應用的越來越廣泛,相應的熟練變頻器的使用和掌握變頻器的基本故障維修對於電力作業人員而言又是一大挑戰,雖...

LED檯燈開關電源電路原理分析

根據實物繪製的電路圖如下圖所示。 該檯燈的電引數為 輸入電壓 ac100v 260v 50 6hz 輸出電壓 電流 dc7 5v,750ma...

藍籌階段性牛市已開啟及原理分析(上)

注 本篇分析文章因篇幅較長無法一次性上傳,因此整篇分析文章分上 下兩部分。而文章中用到的很多原理,如將兩市所有的 分成兩大部分 總股本大於2...