サイトポリシー サイトマップ
2019 年 11 月 13 日

スーパーコンピュータシステム 利用可能DB

スーパーコンピュータシステムでは、各計算ノード、各ログインノードから各種バイオ系DBが利用可能です。

1.DDBJ,NCBI,EBI等の公共DBを利用したい場合

  スーパーコンピュータシステムにて利用可能なDBおよびパスは利用可能DB一覧をご覧下さい。

2.DRAを含むその他のDDBJ DBを利用したい場合

  上記利用可能DB以外のDDBJ DBについては下記方法にてデータをコピーしてご利用下さい。


Singularityコンテナ内からDBを参照したい場合

  SingularityコンテナからのDB利用方法をご覧下さい。

利用可能DB一覧

DB名パス
(/usr/local/seq/)
設置されているファイルの詳細更新頻度
DDBJ-unified-all - ddbj-unified-all/ - 毎日
fasta/ ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-all/fasta/以下を解凍したFASTA形式ファイル
blast/ ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-all/blastdb/以下を解凍したBLASTデータベース
DDBJ-unified-new - ddbj-unified-new/ - 毎日
fasta/ ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-new/fasta/以下を解凍したFASTA形式ファイル
blast/ ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-new/blastdb/以下を解凍したBLASTデータベース
GenBank flat/ genbank/ ftp://ftp.ncbi.nih.gov/genbank/以下のうち、wgsを除いた全ファイル 随時
- -
- -
GenBank-daily flat/ genbank-daily/ ftp://ftp.ncbi.nih.gov/genbank/daily-nc/以下のうちwgsを除いた全ファイル 毎日
- -
- -
EMBL flat/ embl/ ftp://ftp.ebi.ac.uk/pub/databases/ena/sequence/release以下のうちwgsを除いた全ファイル 随時
- -
- -
EMBL-daily flat/ embl-daily/ ftp://ftp.ebi.ac.uk/pub/databases/embl/new/以下の全ファイル 毎日
- -
- -
RefSeq-Genomic flat/ refseq/ ftp://ftp.ncbi.nih.gov/refseq/release/以下の全ファイル 随時
- -
- -
RefSeq-daily flat/ refseq-daily/ ftp://ftp.ncbi.nih.gov/refseq/daily/以下の全ファイル 毎日
- -
- -
UniProt flat/ uniprot/ ftp://ftp.uniprot.org/pub/databases/uniprot/knowledgebase/以下の全ファイル 毎週
- -
- -
PDB flat/ pdb/ ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/以下の全ファイル 毎週
- -
- -
NCBI-nt - ncbi/ - 毎週
fasta/ ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gzを解凍したFASTA形式ファイル
blast/ ftp://ftp.ncbi.nih.gov/blast/db/nt.*.tar.gzを解凍したBLASTデータベース
NCBI-nr - ncbi/ - 毎週
fasta/ ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gzを解凍したFASTA形式ファイル
blast/ ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gzを解凍したBLASTデータベース
NCBI-dbEST - ncbi/ - 毎週
fasta/ ftp://ftp.ncbi.nih.gov/blast/db/FASTA/est_*.gzを解凍したFASTA形式ファイル
blast/ ftp://ftp.ncbi.nih.gov/blast/db/est.*.tar.gzを解凍したBLASTデータベース
NCBI-dbGSS - ncbi/ - 毎週
fasta/ ftp://ftp.ncbi.nih.gov/blast/db/FASTA/gss.gzを解凍したFASTA形式ファイル
blast/ ftp://ftp.ncbi.nih.gov/blast/db/gss.*.tar.gzを解凍したBLASTデータベース
NCBI-HTGS - ncbi/ - 毎週
fasta/ ftp://ftp.ncbi.nih.gov/blast/db/FASTA/htgs.gzを解凍したFASTA形式ファイル
blast/ ftp://ftp.ncbi.nih.gov/blast/db/htgs.*.tar.gzを解凍したBLASTデータベース
NCBI-STS - ncbi/ - 毎週
fasta/ ftp://ftp.ncbi.nih.gov/blast/db/FASTA/sts.gzを解凍したFASTA形式ファイル
blast/ ftp://ftp.ncbi.nih.gov/blast/db/sts.tar.gzを解凍したBLASTデータベース
NCBI-patnt - ncbi/ - 毎週
fasta/ ftp://ftp.ncbi.nih.gov/blast/db/FASTA/patnt.gzを解凍したFASTA形式ファイル
blast/ ftp://ftp.ncbi.nih.gov/blast/db/patnt.tar.gzを解凍したBLASTデータベース
NCBI-v5 - ncbi/v5 - 毎週
- -
blast/ ftp://ftp.ncbi.nih.gov/blast/db/v5/*.tar.gzを解凍したBLASTデータベース
NCBI-taxonomy taxonomy/ ncbi-taxonomy/ ftp://ftp.ncbi.nih.gov/pub/taxonomy/以下の全ファイル 毎日
- -
- -
Pfam flat/ pfam/ ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/以下の全ファイル 随時
- -
- -
PubChem chemicaldb/ pubchem/current/ ftp://ftp.ncbi.nlm.nih.gov/pubchem/以下の全ファイル 随時
- -
- -
ChEMBL chemicaldb/ ChEMBLdb/current/ ftp://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/以下の全ファイル 随時
- -
- -
illumina iGenomes igenome/ ussd-ftp.illumina.com/ ftp://ussd-ftp.illumina.com/以下のHomo_sapiens,Mus_musculus,Rattus_norvegicus 随時
- -
- -

 

DRAを含むその他のDDBJ DBを利用したい場合

DDBJ FTPサイトにて公開しているDBは、以下の方法で利用可能です。

・FTPサイトからダウンロードする。

450 MB/sec程度でダウンロード可能です。ただし、アーカイブ装置(テープ)にデータが移動している場合はデータ転送開始までに時間を要することがあります。なお、FTPサイト上からどのデータがテープに格納されているかは判断できませんのでご了承ください。テープにデータが移動している場合のダウンロード開始までの予測時間の計算方法は以下の通りです。

 ダウンロード開始までの予測時間=以下の①+②+③

 ①データ格納されたテープをドライブに格納して読み込み準備をする時間 約15秒

 ②データ格納されたテープ位置を探しファイルの頭出しをする時間 最大80秒

 ③テープを読み込みHDDに書き戻す時間 ファイルサイズ(MB)/300MB 秒

事前検証で15GBのファイルをダウンロードしようとした際のデータ転送開始までの時間は約140秒でした。
上記計算に基づくと①15秒 + ②80秒 + ③50秒 = 145秒となり、近い値となります。

ssh gw.ddbj.nig.ac.jp -l youraccount
qlogin
lftp ftp.ddbj.nig.ac.jp
cd ddbj_database
lcd /home/youraccount/somewhere
get some_file
bye

 

・FTPサーバにて対象ファイルのPATHを調べ、ご自身のホームディレクトリにコピーする。

手順
 1.スパコンへ接続
 2.FTPサーバ(dtn4)へログイン
 3.公開FTPフォルダ(/usr/local/ftp/public/ddbj_database)へ移動&対象ファイルのPATHを調べる
 4.FTPサーバからログアウト
 5.scpコマンドにて対象ファイルを取得
 "Could not chdir to home directory /home/youraccount: No such file or directory"
 はFTPサーバ側にホームが存在しないため、発生しているメッセージのため、問題なし

ssh gw.ddbj.nig.ac.jp -l youraccount
$ ssh dtn4
youraccount@dtn4's password:
$ cd /usr/local/ftp/public/ddbj_database/
$ ls wgs/QZ/QZZZ.gz
wgs/QZ/QZZZ.gz
$ exit
$ scp dtn4:/usr/local/ftp/public/ddbj_database/wgs/QZ/QZZZ.gz .
youraccount@dtn4's password:
Could not chdir to home directory /home/youraccount: No such file or directory
QZZZ.gz                                                                100% 2751KB 105.2MB/s   00:00
$ ls -l QZZZ.gz
-rw-r--r-- 1 youraccount yourgroup 2817177 Apr 26 10:00 QZZZ.gz
$

SingularityコンテナからのDB利用

Singularityはデフォルトでは以下のホストディレクトリのみがコンテナ内にbindマウントされるため、
オプションを付与せずにSingularityコンテナを起動するとDBは参照できません。

  $HOME
  $PWD
  /tmp
  /proc
  /sys
  /dev

参考:Singularityの使い方

コンテナ内からDBを参照するためには起動時に以下のオプション付与をお願いします

--bind /usr/local/seq

コマンド例

singularity exec --bind /usr/local/seq (singularityコンテナ名) (実行コマンド)

実行例

$ module load singularity
$ singularity exec --bind /usr/local/seq /usr/local/biotools/b/blast\:2.7.1--boost1.64_1 ls /usr/local/seq/blast/ncbi/nr.00.*
/usr/local/seq/blast/ncbi/nr.00.phd  /usr/local/seq/blast/ncbi/nr.00.pog
/usr/local/seq/blast/ncbi/nr.00.phi  /usr/local/seq/blast/ncbi/nr.00.ppd
/usr/local/seq/blast/ncbi/nr.00.phr  /usr/local/seq/blast/ncbi/nr.00.ppi
/usr/local/seq/blast/ncbi/nr.00.pin  /usr/local/seq/blast/ncbi/nr.00.psd
/usr/local/seq/blast/ncbi/nr.00.pnd  /usr/local/seq/blast/ncbi/nr.00.psi
/usr/local/seq/blast/ncbi/nr.00.pni  /usr/local/seq/blast/ncbi/nr.00.psq