1. PLINK独自のフォーマットについて
PLINKで解析をするために、まずPLINK独自のフォーマットにデータを整形する必要がある。研究デザインにあわせていくつかのフォーマットが用意されている。http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml
一般的には、バリアントをコールしたVCF形式から変換する。
2016.8.28 追記
VCF形式からPLINK形式への変換について、ベストプラクティスを教えてもらった。
是非こちらを参考にしてほしい。
genetic for fun
Best practice for converting VCF files to plink format
必要なスキルとツール:Linuxコマンド、bcftools
2. デフォルトのフォーマット
被験者の家族情報や性別、表現型の有無といったサンプル情報とジェノタイプ情報をPED形式に、SNP情報をMAP形式とした2つのファイルで管理。(1) PED FORMAT:サンプルとジェノタイプ情報
- 列ヘッダー
- #1 FamID (FAM001)
- #2 Individual ID
- #3 Paternal ID
- #4 Maternal ID
- #5 Sex (1=male; 2=female; other=unknown)
- #6 Phenotype ( -9=missing; 0=missing; 1=unaffected; 2=affected)
- #7- Genotypes (1,2,3,4 or A,C,G,T; 0=missing)
- 例 (normal.ped)
-
FAM001 1 0 0 1 1 A A G T FAM001 2 1 0 0 1 1 A C T G FAM001 3 1 0 0 1 1 C C G G FAM002 4 1 0 0 1 2 A C T T FAM002 5 1 0 0 1 2 C C G T FAM002 6 1 0 0 1 2 C C T T
(2) MAP FORMAT:SNP情報
- 列のヘッダー
- #1 chromosome (1-22, X, Y or 0 if unplaced)
- #2 rs# or snp identifier
- #3 Genetic distance (morgans)
- #4 Base-pair position (bp units)
- 例 (normal.map)
-
1 snp1 0 5000650 1 snp2 0 5000830
3. 転置フォーマット
デフォルトのフォーマットの行列を転置した形式。GWASのようにサンプル数よりSNP数が多い場合に使い易い。(1) TPED FORMAT:SNPとジェノタイプ情報
- 列ヘッダー
- #1 chromosome (1-22, X, Y or 0 if unplaced)
- #2 rs# or snp identifier
- #3 Genetic distance (morgans)
- #4 Base-pair position (bp units)
- #5- Genotypes (1,2,3,4 or A,C,G,T; 0=missing)
- 例 (trans.tped)
-
1 snp1 0 5000650 A A A C C C A C C C C C 1 snp2 0 5000830 G T G T G G T T G T T T
(2) TFAM FORMAT:サンプル情報
- 列ヘッダー
- #1 FamID (FAM001)
- #2 Individual ID
- #3 Paternal ID
- #4 Maternal ID
- #5 Sex (1=male; 2=female; other=unknown)
- #6 Phenotype ( -9=missing; 0=missing; 1=unaffected; 2=affected)
- 例 (trans.tfam)
-
1 1 0 0 1 1 2 1 0 0 1 1 3 1 0 0 1 1 4 1 0 0 1 2 5 1 0 0 1 2 6 1 0 0 1 2
4. Long-format
ファイルをサンプル情報、SNP情報、ジェノタイプ情報の3つに分割したフォーマット。(1) MAP FORMAT:SNP情報
- 列ヘッダー
- #1 chromosome (1-22, X, Y or 0 if unplaced)
- #2 rs# or snp identifier
- #3 Genetic distance (morgans)
- #4 Base-pair position (bp units)
(2) FAM FORMAT:サンプル情報
- 列ヘッダー
- #1 FamID (FAM001)
- #2 Individual ID
- #3 Paternal ID
- #4 Maternal ID
- #5 Sex (1=male; 2=female; other=unknown)
- #6 Phenotype ( -9=missing; 0=missing; 1=unaffected; 2=affected)
(3) LGEN FORMAT:ジェノタイプ情報
- 列ヘッダー
- #1 FamID (FAM001)
- #2 Individual ID
- #3 snp ID
- #4 allele 1 of this genotype
- #5 allele 2 of this genotype
5. Alternative Phenotype files
複数の表現型がある場合、表現型のファイルを別に作成することが可能。- 列ヘッダー
- #1 FamID (FAM001)
- #2 Individual ID
- #3 Phenotype A
- #4 Phenotype B
- #5 Phenotype C
- #6 Phenotype D
- 例 (pheno.txt)
-
FID IID qt1 bmi site F1 1110 2.3 22.22 2 F2 2202 34.12 18.23 1
- PEDファイルのphenotype列にはダミーデータを入れておく(全てmissing)
- 指定の列だけを解析に利用することができる。例:Phenotype Dだけの解析。
0 コメント:
コメントを投稿