データベース

注釈

[2022/05/23] データベースや参照ゲノム配列の準備が完了しました。

以下のデータがスパコン内にダウンロード済みです。

ミラーデータベース

ミラーデータベース

名称

パス

ダウンロード元

1000 Genomes

/share1/public/database/1000genomes

https://www.internationalgenome.org

ClinVar

/share1/public/database/ClinVar

https://ftp.ncbi.nlm.nih.gov/pub/clinvar

Ensembl

/share1/public/database/Ensembl

http://ftp.ensembl.org/pub/release-[ReleaseNumber]/variation/indexed_vep_cache

GENCODE

/share1/public/database/GENCODE

https://www.gencodegenes.org/human

GWAS Catalog

/share1/public/database/GWASCatalog

https://www.ebi.ac.uk/gwas/downloads

Genome In A Bottole

/share1/public/database/GIAB

https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release

HapMap

/share1/public/database/HapMap

https://ftp.ncbi.nlm.nih.gov/hapmap

dbSNP

/share1/public/database/dbSNP

https://ftp.ncbi.nih.gov/snp/organisms/human_9606_[Build]

dbNSFP

/share1/public/database/dbNSFP

http://database.liulab.science/dbNSFP#version

jMorp

/share1/public/database/jMorp

https://jmorp.megabank.tohoku.ac.jp/downloads

ClinVarは毎月定期的に更新、その他は新しいバージョンのリリースごとに更新されます。

参照ゲノム配列

参照ゲノム配列

名称

パス

ダウンロード元

GATK Resource Bundle (b37)

/share1/public/genome/GATKResourceBundle-b37

https://console.cloud.google.com/storage/browser/gatk-legacy-bundles/b37

GATK Resource Bundle (hg19)

/share1/public/genome/GATKResourceBundle-hg19

https://console.cloud.google.com/storage/browser/gatk-legacy-bundles/hg19

GATK Resource Bundle (hg38)

/share1/public/genome/GATKResourceBundle-hg38

https://console.cloud.google.com/storage/browser/genomics/share1-public-data/resources/broad/hg38/v0

CHM13 v2.0

/share1/public/genome/CHM13v2.0

https://github.com/marbl/CHM13

CHM13 v1.1

/share1/public/genome/CHM13v1.1

https://github.com/marbl/CHM13

CHM13 v1.0

/share1/public/genome/CHM13v1.0

https://github.com/marbl/CHM13

JG1.0.0beta

/share1/public/genome/JG1.0.0beta

https://jmorp.megabank.tohoku.ac.jp/downloads

JG2.0.0beta

/share1/public/genome/JG2.0.0beta

https://jmorp.megabank.tohoku.ac.jp/downloads

JG2.1.0

/share1/public/genome/JG2.1.0

https://jmorp.megabank.tohoku.ac.jp/downloads

JRGv1

/share1/public/genome/JRGv1

https://jmorp.megabank.tohoku.ac.jp/downloads

JRGv2

/share1/public/genome/JRGv2

https://jmorp.megabank.tohoku.ac.jp/downloads

KOREF v1.0

/share1/public/genome/KOREF-1.0

http://koreanreference.org/Download

HX1

/share1/public/genome/HX1

https://hx1.wglab.org

hs37d5

/share1/public/genome/hs37d5

https://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_sequence

tommo_hg19_v2

/share1/public/genome/tommo_hg19_v2

https://jmorp.megabank.tohoku.ac.jp/downloads

各ディレクトリには、FASTAファイル、及び BWA, BWA-MEM2, Minimap2, STAR 向けのインデックスファイルが格納されています。

IGV用ゲノム定義

IGVで利用するゲノムの定義ファイルは以下のパスに配置されています。

/share1/public/IGV/hg19-genome.json

/share1/public/IGV/hg38-genome.json

IGVのメニューから「Genomes」→「Load Genome from File...」を選び、上記のファイルを選択することで、FASTA、遺伝子定義、Repeat Masker、dbSNPが読み込まれます。

samtools用REF_CACHE

samtoolsでCRAMファイルを読み込むときには通常、リファレンスとなるFASTAが必要です。しかし、CRAMファイルにはリファレンス配列のMD5が埋め込まれているため、MD5に対応する配列をキャッシュとして用意しておくことで、リファレンスとなるFASTAを用意せずにCRAMを読み込むことが可能です。 この目的のために作成したキャッシュディレクトリを以下のパスに配置しています。

/share1/public/hts-ref

REF_CACHE環境変数を/share1/public/hts-ref/%2s/%2s/%sに設定することで、samtoolsがこのディレクトリを利用できるようになります。