シーケンスをした後のデータ解析のツールは色々と日本語で紹介されているけれども、シーケンスのランを評価するツールに関する日本語資料が意外となかったので、書いてみる。
今回の参考資料は、オーストラリアThe University of QueenslandのNewell氏著の「
NGS mapping, errors and quality control」です。
その他の参考サイト
・OMIXON BLOG
※Nature Methodを探しましたが見つからず。ないってことはないでしょう?誰か教えてください。
シーケンスランのクオリティコントロール(QC) の流れ
1. fastQC
・ リファレンスゲノムにマッピングする前のfastqをチェックするQCツール・ リードのクオリティプロファイルをレポートする無料のJava program
・ FASTQ、SAM/BAMファイルを入力
・ QC項目
- Base Qualities:一塩基ごとに平均のQスコアを出力、平均がQ20以下になるとバッドゾーン
- Adapter contamination:アダプター配列の混入チェック
- Duplication rate:PCRで増幅されたテンプレートが何回重複して読まれているのかチェック
・ オフィシャルサイト
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
2. Picard(ピカード)
・ リファレンスゲノムにマッピングする前のQCツール・ Javaベースのコマンドラインユーティリティ
・ SAM/BAMファイルをインプット
・ オフィシャルサイト
http://broadinstitute.github.io/picard/
・ コマンド一覧
https://broadinstitute.github.io/picard/command-line-overview.html
・ 結果の見方
https://broadinstitute.github.io/picard/picard-metric-definitions.html
3. SAMtools
・ リファレンスゲノムにマッピングした後のQCツール・ BAMファイルをインプット
・ オフィシャルサイト
http://www.htslib.org/
・ コマンド一覧
http://www.htslib.org/doc/samtools.html
・ 日本語サイト
NGS Surfer’s wiki :https://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=samtools
0 コメント:
コメントを投稿