データベース¶
注釈
[2022/05/23] データベースや参照ゲノム配列の準備が完了しました。
以下のデータがスパコン内にダウンロード済みです。
ミラーデータベース¶
名称 |
パス |
ダウンロード元 |
---|---|---|
1000 Genomes |
/share1/public/database/1000genomes |
|
ClinVar |
/share1/public/database/ClinVar |
|
Ensembl |
/share1/public/database/Ensembl |
http://ftp.ensembl.org/pub/release-[ReleaseNumber]/variation/indexed_vep_cache |
GENCODE |
/share1/public/database/GENCODE |
|
GWAS Catalog |
/share1/public/database/GWASCatalog |
|
Genome In A Bottole |
/share1/public/database/GIAB |
|
HapMap |
/share1/public/database/HapMap |
|
dbSNP |
/share1/public/database/dbSNP |
|
dbNSFP |
/share1/public/database/dbNSFP |
|
jMorp |
/share1/public/database/jMorp |
ClinVarは毎月定期的に更新、その他は新しいバージョンのリリースごとに更新されます。
参照ゲノム配列¶
名称 |
パス |
ダウンロード元 |
---|---|---|
GATK Resource Bundle (b37) |
/share1/public/genome/GATKResourceBundle-b37 |
https://console.cloud.google.com/storage/browser/gatk-legacy-bundles/b37 |
GATK Resource Bundle (hg19) |
/share1/public/genome/GATKResourceBundle-hg19 |
https://console.cloud.google.com/storage/browser/gatk-legacy-bundles/hg19 |
GATK Resource Bundle (hg38) |
/share1/public/genome/GATKResourceBundle-hg38 |
https://console.cloud.google.com/storage/browser/genomics/share1-public-data/resources/broad/hg38/v0 |
CHM13 v2.0 |
/share1/public/genome/CHM13v2.0 |
|
CHM13 v1.1 |
/share1/public/genome/CHM13v1.1 |
|
CHM13 v1.0 |
/share1/public/genome/CHM13v1.0 |
|
JG1.0.0beta |
/share1/public/genome/JG1.0.0beta |
|
JG2.0.0beta |
/share1/public/genome/JG2.0.0beta |
|
JG2.1.0 |
/share1/public/genome/JG2.1.0 |
|
JRGv1 |
/share1/public/genome/JRGv1 |
|
JRGv2 |
/share1/public/genome/JRGv2 |
|
KOREF v1.0 |
/share1/public/genome/KOREF-1.0 |
|
HX1 |
/share1/public/genome/HX1 |
|
hs37d5 |
/share1/public/genome/hs37d5 |
|
tommo_hg19_v2 |
/share1/public/genome/tommo_hg19_v2 |
各ディレクトリには、FASTAファイル、及び BWA, BWA-MEM2, Minimap2, STAR 向けのインデックスファイルが格納されています。
IGV用ゲノム定義¶
IGVで利用するゲノムの定義ファイルは以下のパスに配置されています。
/share1/public/IGV/hg19-genome.json
/share1/public/IGV/hg38-genome.json
IGVのメニューから「Genomes」→「Load Genome from File...」を選び、上記のファイルを選択することで、FASTA、遺伝子定義、Repeat Masker、dbSNPが読み込まれます。
samtools用REF_CACHE¶
samtoolsでCRAMファイルを読み込むときには通常、リファレンスとなるFASTAが必要です。しかし、CRAMファイルにはリファレンス配列のMD5が埋め込まれているため、MD5に対応する配列をキャッシュとして用意しておくことで、リファレンスとなるFASTAを用意せずにCRAMを読み込むことが可能です。 この目的のために作成したキャッシュディレクトリを以下のパスに配置しています。
/share1/public/hts-ref
REF_CACHE
環境変数を/share1/public/hts-ref/%2s/%2s/%s
に設定することで、samtoolsがこのディレクトリを利用できるようになります。