close

在進行全基因體關聯性研究(Genome-Wide Association Study, GWAS)分析時
quality control的其中一個步驟是排除具有近親關係的個案,以避免研究結果產生偏差
高密度的全基因體定型資料(whole-genome genotype data)提供了機會能夠評估個案間的親綠關係
進而達成這個目的,其概念簡單來說:
觀察兩位個案在所有SNPs的相似程度來判斷兩人的親緣關係遠近,即計算IBD (Identity-by-Decent)
IBD是介於0到1之間的數值,數值越高代表兩人的親緣關係越親近;越低代表兩人越無關
在實務上,SNPs間因聯鎖不平衡(Linkage Disequilibrium, LD)的關係,彼此有著高度的相關
並不用比較所有的SNPs,只需十萬個左右的SNPs就可以得到穩定的估計值
因此親緣關係的判斷可以分為兩個步驟:1、篩選用來估計IBD的SNPs;2、估計親緣係數

使用PLINK執行第一步驟的指令為

plink --bfile raw-GWA-data --exclude range high-LD-region.txt --indep-pairwise 200 5 0.2 --out indep

--indep-pairwise代表用LD的方式來篩選SNPs,後面接的三個數字是定義篩選的條件
意思是取200個SNPs為一個視窗(window size),計算彼此的r2,並以0.2為切點判斷是否有LD
此視窗計算完成後移動5個SNPs,再取200個SNPs為一個視窗重複一樣的計算,直到整條染色體算完
在基因組中,某些區域具有long range LD的特性,例如HLA,需額外排除才能篩選出真正互相獨立的SNPs
此步驟會產出兩個檔案:indep.prune.in是獨立的SNPs清單;indep.prune.out是具有LD的SNPs清單

接著第二步驟是利用這些獨立的SNPs來估計個案間的親緣係數(kinship coefficient)

plink --bfile raw-GWA-data --extract indep.prune.in --genome --min 0.1875 --out related

當IBD = 1,表示兩位個案為同卵雙胞胎,或者根本是同一個人
IBD = 0.5,表示兩人為一等親的關係,如:親子關係或兄弟姊妹關係
IBD = 0.25,表示兩人為二等親的關係,如:祖孫關係或同父異母(或同母異父)的兄弟姊妹關係
IBD = 0.125,表示兩人為三等親的關係,如堂兄弟妹姊
--min 0.1875代表只輸出IBD > 0.1875的資料,數字0.1875是取二等親(0.25)及三等親(0.125)的平均值
所以,結果檔related.genome是具有二等親之內關係的成對個案,如下圖所示
共有三對個案的親緣關係是在二等親之內,根據PI_HAT欄位可知其中一對是二等親關係,另兩對是一等親關係
每一對刪除其中一位個案後,通常選擇刪除missing rate較高的個案,整組資料將不再有二等親內關係的個案

此步驟若將--min 0.1875指令刪除,related.genome將會有所有個案彼此之間的親緣關係數據
359位個案會得到359 * 358 / 2 = 64,261筆資料,可以利用直方圖來呈現個案間親屬關係的分布,例如下圖

由於親子關係和手足關係的親緣係數皆為0.5,但可以再依據Z0和Z1兩個欄位的資訊來區分兩者
Z0和Z1欄位分別代表兩位個案在所有SNPs中共享0個和1個對偶基因(allele)的比例
子代的allele有一股是來自父親另一股來自母親,所以與親代之間一定會共享1個allele
因此,Z0會接近0,Z1會接近1,手足關係就沒有這樣的現象存在
取PI_HAT和Z0作散布圖,能以另一種方式來呈現親屬關係的分布狀況,例如下圖

 

參考資料:

Data quality control in genetic case-control association studies.
Quality control procedures for genome-wide association studies.
Genotyping and quality control of UK Biobank , a large-scale , extensively phenotyped prospective resource.

 

 

arrow
arrow

    rover1023 發表在 痞客邦 留言(0) 人氣()