PLINKの使い方 1 〜フォーマット整形〜


1. PLINK独自のフォーマットについて

PLINKで解析をするために、まずPLINK独自のフォーマットにデータを整形する必要がある。研究デザインにあわせていくつかのフォーマットが用意されている。

http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml

一般的には、バリアントをコールしたVCF形式から変換する。

2016.8.28 追記
VCF形式からPLINK形式への変換について、ベストプラクティスを教えてもらった。
是非こちらを参考にしてほしい。

genetic for fun
Best practice for converting VCF files to plink format

必要なスキルとツール:Linuxコマンド、bcftools

2. デフォルトのフォーマット

被験者の家族情報や性別、表現型の有無といったサンプル情報とジェノタイプ情報をPED形式に、SNP情報をMAP形式とした2つのファイルで管理。

(1) PED FORMAT:サンプルとジェノタイプ情報
  • 列ヘッダー
    • #1 FamID (FAM001)
    • #2 Individual ID
    • #3 Paternal ID
    • #4 Maternal ID
    • #5 Sex (1=male; 2=female; other=unknown)
    • #6 Phenotype ( -9=missing; 0=missing; 1=unaffected; 2=affected)
    • #7- Genotypes (1,2,3,4 or A,C,G,T; 0=missing)
  • 例 (normal.ped)
    • FAM001     1 0 0 1  1  A A  G T 
      FAM001     2 1 0 0 1  1  A C  T G  
      FAM001     3 1 0 0 1  1  C C  G G 
      FAM002     4 1 0 0 1  2  A C  T T 
      FAM002     5 1 0 0 1  2  C C  G T 
      FAM002     6 1 0 0 1  2  C C  T T
      

(2) MAP FORMAT:SNP情報
  • 列のヘッダー
    • #1 chromosome (1-22, X, Y or 0 if unplaced)
    • #2 rs# or snp identifier
    • #3 Genetic distance (morgans)
    • #4 Base-pair position (bp units)
  • 例 (normal.map)
    • 1  snp1   0  5000650
      1  snp2   0  5000830

3. 転置フォーマット

デフォルトのフォーマットの行列を転置した形式。GWASのようにサンプル数よりSNP数が多い場合に使い易い。

(1) TPED FORMAT:SNPとジェノタイプ情報
  • 列ヘッダー
    • #1 chromosome (1-22, X, Y or 0 if unplaced)
    • #2 rs# or snp identifier
    • #3 Genetic distance (morgans)
    • #4 Base-pair position (bp units)
    • #5- Genotypes (1,2,3,4 or A,C,G,T; 0=missing)
  • 例 (trans.tped) 
    • 1 snp1 0 5000650 A A A C C C A C C C C C      
      1 snp2 0 5000830 G T G T G G T T G T T T  

(2) TFAM FORMAT:サンプル情報
  • 列ヘッダー
    • #1 FamID (FAM001)
    • #2 Individual ID
    • #3 Paternal ID
    • #4 Maternal ID
    • #5 Sex (1=male; 2=female; other=unknown)
    • #6 Phenotype ( -9=missing; 0=missing; 1=unaffected; 2=affected)
  • 例 (trans.tfam)
    • 1  1  0  0  1  1
      2  1  0  0  1  1
      3  1  0  0  1  1
      4  1  0  0  1  2
      5  1  0  0  1  2
      6  1  0  0  1  2

4. Long-format

ファイルをサンプル情報、SNP情報、ジェノタイプ情報の3つに分割したフォーマット。  

(1) MAP FORMAT:SNP情報
  • 列ヘッダー
    • #1 chromosome (1-22, X, Y or 0 if unplaced)
    • #2 rs# or snp identifier
    • #3 Genetic distance (morgans)
    • #4 Base-pair position (bp units)

(2) FAM FORMAT:サンプル情報
  • 列ヘッダー
    • #1 FamID (FAM001)
    • #2 Individual ID
    • #3 Paternal ID
    • #4 Maternal ID
    • #5 Sex (1=male; 2=female; other=unknown)
    • #6 Phenotype ( -9=missing; 0=missing; 1=unaffected; 2=affected)


(3) LGEN FORMAT:ジェノタイプ情報
  • 列ヘッダー
    • #1 FamID (FAM001)
    • #2 Individual ID
    • #3 snp ID
    • #4 allele 1 of this genotype
    • #5 allele 2 of this genotype


5. Alternative Phenotype files

複数の表現型がある場合、表現型のファイルを別に作成することが可能。
  • 列ヘッダー
    • #1 FamID (FAM001)
    • #2 Individual ID
    • #3 Phenotype A
    • #4 Phenotype B
    • #5 Phenotype C
    • #6 Phenotype D
  • 例 (pheno.txt)
    • FID    IID      qt1   bmi    site  
      F1     1110     2.3   22.22  2     
      F2     2202     34.12 18.23  1     

- PEDファイルのphenotype列にはダミーデータを入れておく(全てmissing)


- 指定の列だけを解析に利用することができる。例:Phenotype Dだけの解析。
plink --file mydata --pheno pheno2.txt --mpheno 4

Share on Google Plus

About Piyoko

    Blogger Comment
    Facebook Comment

0 コメント:

コメントを投稿