先進ゲノム解析研究推進プラットフォーム

情報解析支援

「先進ゲノム支援」情報解析講習会のご案内

「先進ゲノム支援」(先進ゲノム解析研究推進プラットフォーム)は、文部科学省科学研究費助成事業の新学術領域研究『学術研究支援基盤形成』 において、最先端のゲノム解析及び情報解析技術を提供して我が国のゲノム科学ひいては生命科学のピーク作りとすそ野拡大を進めることを目指し、2016年4月から支援活動を開始しています。
「先進ゲノム支援」では支援活動の一環として情報解析講習会を開催しています。今年度は、中級者向けの講習会として、プログラミング言語「Python」を用いたRNA-seqデータの視覚化や多変量解析等のプログラミング実習を中心に、以下の要領で情報解析講習会を開催いたします。

<2018年度「先進ゲノム支援」情報解析講習会>

■日 時:
2018年11月19日(月)13:00 ~ 11月21日(水)13:00
■会 場:
国立遺伝学研究所 静岡県三島市谷田1111
■想定スキルレベル:
情報解析中級者
■募集人員:
若手研究者20名程度

  • これから自分で実践的にプログラミングをしようと考えている方。
  • 基本的なLinuxコマンドは身につけていることを前提とします。
  • 応募者多数の場合は、先進ゲノム支援における支援依頼者を優先します。さらに多数の場合は抽選等で参加者を決定いたします。
  • 応募は支援依頼者毎、研究室毎に1名に限定させていただきます。
  • 各自のPCを持参ください(memory 4GB以上、空きHDD容量20GB以上あれば、Windows10、Mac、Linuxいずれも可)。
  • 講習ではVirtualBoxを利用したLinux (Ubuntu) の仮想環境で操作を行います。
  • 事前に必要なソフトウェア (Pythonのモジュール) を各自のPCにインストールしていただく必要があります。
■参加費用:
無料

■受講者が講習当日までに準備すべき項目
  (必要なPythonモジュールについては後日別途アナウンス予定):

  • Win/Mac/Linux共にVirtualBox+Ubuntu上でPython3を動かすことを推奨するため、VirtualBoxとUbuntu (ver 18以降)を各自のPCにインストール。
    Mac/Linuxの場合はVirtualBox+Ubuntuではなく、自己責任でPythonとモジュール群をインストールした環境でもよい。
  • Shellスクリプトに自信がない方は過去の「先進ゲノム支援」情報解析講習会のShellスクリプトの資料を読んでおく。
  • Pythonプログラミングの経験が無い方は下記のような入門本を読み、if、for、while文等の制御構文、変数やリスト、モジュールのインポート方法をある程度理解しておくこと。
 
やさしいPython 高橋麻奈著 SB Creative, 2018
みんなのPython第4版 柴田淳著 SB Creative, 2016 等

■講習会スケジュール(予定):
【11月19日:1日目】

13:00~13:10
講習会説明
13:10~14:30
バッチジョブ、RNA-seqの各種ツールによる解析
14:40~16:10
Pythonの基本文法
16:20~17:50
文字列処理、ファイルの読み書き、正規表現

【11月20日:2日目】

10:00~11:30
Jupyter notebook、Biopython
11:40〜13:00
表形式ファイルの処理(Pandas)、RNA-seqデータの補正
13:00〜13:50
昼食休憩
13:50〜15:20
視覚化 (matplotlib, seaborn)
15:30〜17:00
統計的仮説検定

【11月21日:3日目】

10:00~13:00
多変量解析(PCA, MDS, 階層的クラスタリング等)

尚、旅費、宿泊費は参加者でご負担下さい。

■申し込み〆切:
2018年10月16日(火)
■申し込み方法:
事前アンケート(word版PDF版)をダウンロードし、ご記入下さい。
メール本文に以下の①~④の情報をご記載の上、アンケート用紙を添えて、事務局(genome-sec@nig.ac.jp)までメールにてお申込み下さい。
なお、メールの件名は「2018年度情報解析講習会申し込み」として頂くようお願い致します。
①氏名 
②所属 
③メールアドレス 
④先進ゲノム支援依頼者の場合は代表者名
先進ゲノム支援事務局

<2017年度「先進ゲノム支援」情報解析講習会>(終了)

 詳しくは
「先進ゲノム支援」では支援活動の一環として情報解析講習会を開催しています。今年度は、Linuxの基礎からDDBJスパコンの使い方、さらにはRNA-seq解析、バクテリアゲノム解析などの実践例題を中心に、以下の要領で情報解析講習会を開催いたします。

■日 時:
2018年3月22日(木)13:00~3月23日(金)15:00
■会 場:
国立遺伝学研究所(DDBJ)静岡県三島市谷田1111
■想定スキルレベル:
Linuxの基礎からDDBJスパコンの使い方、RNA-seq解析、バクテリアゲノム解析などの実践例題を中心に実施。
■講習内容:
UNIX初心者
■募集人員:
若手研究者20名程度

  • 応募者多数の場合は、先進ゲノム支援における支援依頼者を優先します。
    さらに多数の場合は抽選等で参加者を決定いたします。
  • 応募は支援依頼者毎、研究室毎に1名に限定させていただきます。
  • 各自のPCを持参ください(Windows、Macいずれも可)
  • DDBJスパコンのログインユーザアカウントが必要となります。お持ちでない方は事前に申請が必要となります。
■参加費用:
無料

■講習会スケジュール(予定):
【3月22日:1日目】

13:00~13:10
講習会説明
13:10~13:40
DDBJスパコン概要説明
13:40~14:40
UNIX基本コマンド
14:40~14:50
休 憩
14:50~15:50
シェルスクリプト
15:50~16:50
DDBJへの接続方法、バッチジョブ
16:50~17:00
休 憩
17:00~18:00
DDBJスパコンでの解析の実践I(DDBJパイプライン)

【3月23日:2日目】

10:00~12:00
DDBJスパコンでの解析の実践II(RNA-seq解析等)
13:00〜15:00
DDBJスパコンでの解析の実践III(バクテリアゲノム解析)

尚、旅費、宿泊費は参加者でご負担下さい。

■申し込み〆切:
2018年2月22日(木)
■申し込み方法:
事前アンケート(word版PDF版)をダウンロードし、ご記入下さい。
メール本文に以下の①~④の情報をご記載の上、アンケート用紙を添えて、事務局(genome-sec@nig.ac.jp)までメールにてお申込み下さい。
なお、メールの件名は「2017年度情報解析講習会申し込み」として頂くようお願い致します。
①氏名 
②所属 
③メールアドレス 
④先進ゲノム支援依頼者の場合は代表者名
先進ゲノム支援事務局

情報解析講習会ビデオ

「先進ゲノム支援」では、平成29年度の情報解析講習会として、主にUnix初心者を対象とした講習会を3/22-23に国立遺伝学研究所DDBJセンターにて開催致しました。
講習会の動画は以下からご覧頂くことが可能です。なお、講習会参加者には事前にDDBJスーパーコンピューターのアカウント取得と、TeraTerm他必要なソフトのインストールおよびスパコンへの接続設定を行って頂きました。

 

■講習会プログラム(講習会の資料はそれぞれダウンロードしていただくことができます。)
【3月22日:1日目】

13:00~13:10
講習会説明(黒川顕:国立遺伝学研究所)
13:10~13:40
DDBJスパコン概要説明(中村保一:国立遺伝学研究所) 資料

13:40~15:10
DDBJへの接続方法、UNIX基本コマンド(谷澤靖洋:国立遺伝学研究所) 資料

15:10~15:20
休 憩
15:20~16:50
シェルスクリプト&バッチジョブ(森宙史:国立遺伝学研究所) 資料

16:50~17:00
休 憩
17:00~18:00
DDBJスパコンでの解析の実践I(DDBJパイプライン)
(望月孝子:国立遺伝学研究所) 資料

【3月23日:2日目】

10:00~12:00
DDBJスパコンでの解析の実践II(RNA-seq解析等)
(高橋弘喜:千葉大学) 資料1 資料2

13:00〜15:00
DDBJスパコンでの解析の実践III(バクテリアゲノム解析:
アセンブルからアノテーションまで)(谷澤靖洋:国立遺伝学研究所) 資料

AJAX 講習会ビデオ資料

『統合TV』は、生命科学分野の有用なデータベースやツールの使い方を動画で紹介するウェブサイトです。
AJACS講習会ビデオ資料もご活用ください。
統合TV http://togotv.dbcls.jp/ajacs_text.html 

開発ソフトウェア一覧

アラインメント、アセンブル

ロングリード向けアラインメントツール minialign
URL https://github.com/ocxtal/minialign
解説 PacBio RS II/Sequel や Oxford Nanopore MinION など、10〜15%程度のシークエンシングエラーを持つ数kb〜数Mbのロングリード向け世界最高速汎用アラインメントツール。アラインメント精度も実用的なツール群(Smith-Watermanアルゴリズムそのものなど致命的に遅いアルゴリズムを除いて)の中では世界最高クラス(データの性質や種類により Heng Li の minimap2 に精度ではやや負けることもある)を達成している。Oxford Nanopore MinION のリードに対しても非常に高いパフォーマンスを発揮している。このため、最もリード長の長いMinION/どのような塩基配列も苦手としないPacBio/単価の安いIllumina(10x Chromium)の三種類のデータを組み合わせたハイブリッドアセンブリアルゴリズムを開発中であるが、minialignはそのコアアルゴリズムの一つとして使用できる。数十Gbpの超大型ゲノムにも対応できる。また、がんゲノム解析などロングリードを用いた構造多型発見への応用も現在試行中である。
論文 Hajime Suzuki and Masahiro Kasahara. Introducing difference recurrence relations for faster semi-global alignment of long sequences, BMC Bioinformatics, V19 Suppl 1, 2018. doi: 10.1186/s12859-018-2014-8 (文献36)
シークエンサーのリードデータからその個性を学習する LAST-TRAIN
URL http://last.cbrc.jp/doc/last-train.html
解説 任意のシークエンサーから産出されるリードデータとリファレンスゲノムを入力として、シークエンサーのエラーの個性を学習するためのツール。具体的には、アラインメント(マッピング)に必要な置換行列とギャップのペナルティを学習する。学習したパラメタはアラインメントツールLASTで利用可能であれる。
論文 Training alignment parameters for arbitrary sequencers with LAST-TRAIN. Hamada M, Ono Y, Asai K, Frith MC. Bioinformatics. 2017 Mar 15;33(6):926-928. doi: 10.1093/bioinformatics/btw742. (文献8)
真核2倍体用de novoハプロタイプアセンブラ Platanus2
URL
解説 多くの使用実績を持つIllumina用ゲノムアセンブラPlatanusをベースとし、よりヘテロ接合度の高いゲノムに対してよいアセンブル結果を実現するとともに、ハプロタイプごとの配列を出力することを目的に開発されたアセンブラ
論文 未発表

オミックス解析

lncRNA-RNA相互作用のデータベース
URL http://rtools.cbrc.jp/LncRRIdb/
解説 ヒト、マウスのlncRNA-RNA相互作用の網羅的予測を実施、収録したデータベース。
配列データからのRNA-RNA相互作用予測に加えて、RNA-seqから得られる発現・局在データを組み合わせることで、lncRNAの相互作用ターゲットRNAを高精度で予測することが可能。
論文 投稿中
複数サンプル間の発現差解析ツール Declust
URL http://www.dna.bio.keio.ac.jp/software/DEclust/
解説 DEclustは、異なる組織または条件からの2つ以上のサンプル間の差次的な発現解析のための手法である。既存のクラスタリング手法では得られた正規化発現量を直接クラスタリングするのに対し、本手法では各遺伝子のサンプル間の検定結果を階層的にクラスタリングすることにより、複数サンプル間で統計的に優位な解析結果を得ることができる。
論文 Aoto Y, Hachiya T, Okumura K, Hase S, Sato K, Wakabayashi Y, Sakakibara Y. DEclust: A statistical approach for obtaining differential expression profiles of multiple conditions. PLoS One. 2017. 12(11):e0188285. doi: 10.1371/journal.pone.0188285. (文献27)
超高速RNA-RNA相互作用予測ツール RIblast
URL https://github.com/fukunagatsu/RIblast
解説 配列情報のみからRNA-RNAの相互作用を予測するためのツール。RNAの内部の2次構造と塩基対同士の相互作用を共に考慮したインタラクションエネルギーが最小となる相互作用を予測する。
論文 RIblast: an ultrafast RNA-RNA interaction prediction system based on a seed-and-extension approach. Fukunaga T, Hamada M. Bioinformatics. 2017 Sep 1;33(17):2666-2674. doi: 10.1093/bioinformatics/btx287. (文献13)
RNA構造解析ウェブサーバー Rtools
URL http://rtools.cbrc.jp/
解説 RNAの配列情報を入力とすると、2次構造予測など複数の構造解析のためのツール群が同時に実行され、ユーザーにグラフィカルな結果を返すウェブサーバー
論文 Rtools: a web server for various secondary structural analyses on single RNA sequences. Hamada M, Ono Y, Kiryu H, Sato K, Kato Y, Fukunaga T, Mori R, Asai K. Nucleic Acids Res. 2016 Jul 8;44(W1):W302-7. doi: 10.1093/nar/gkw337. (文献5)
染色体大規模構造変異高精度検出アルゴリズム COSMOS
URL http://seselab.org/cosmos/
解説 大規模な染色体異常(構造変異)を高精度・高感度に検出できるアルゴリズムを搭載したソフトウェア。超並列シーケンサーから得られたペアエンド情報ゲノム配列のビッグデータを高速に解析できるソフトウェアで、マウスES細胞などを用いて検証したところ、既存手法を大幅に上回る精度や感度を実現できている。この技術は、細胞のがん化の原因究明やがんの早期発見の実現への貢献が期待できる。
論文 Yamagata K, Yamanishi A, Kokubu C, Takeda J, Sese J. COSMOS: accurate detection of somatic structural variations through asymmetric comparison between tumor and normal samples. Nucleic Acids Research. 2016. doi: 10.1093/nar/gkw026 (文献4)
ショートリードからタンデムリピートを検出するソフトウエア TRhist
URL http://trhist.gi.k.u-tokyo.ac.jp/
解説 Illumina HiSeq等のショートリード中に含まれるタンデムリピートを高速に抽出するソフトウエア。サンプルに特異的なリピートのの伸長を網羅的に検出することができる。
論文 Koichiro Doi, Taku Monjo, Pham H. Hoang, Jun Yoshimura, Hideaki Yurino, Jun Mitsui, Hiroyuki Ishiura, Yuji Takahashi, Yaeko Ichikawa, Jun Goto, Shoji Tsuji and Shinichi Morishita. Rapid detection of expanded short tandem repeats in personal genomics using hybrid sequencing. Bioinformatics. 2014 Mar 15;30(6):815-22. doi: 10.1093/bioinformatics/btt647 (文献1)
高速オルソログ同定プログラム SonicParanoid
URL http://iwasakilab.bs.s.u-tokyo.ac.jp/sonicparanoid/
解説 ゲノムアノテーション・比較ゲノム解析・種の系統樹推定など、ゲノム配列を用いたあらゆる解析において鍵を握るオルソログ同定について、最も広く使われている高性能の既存プログラムよりも1,500倍以上高速で、さらに、ほぼ同じ精度を保ったオルソログ遺伝子同定プログラム。今後の非モデル生物のゲノム・トランスクリプトーム解析において活用が期待できる。
論文

解析パイプライン

DFASTバックグラウンドアノテーションエンジン
URL https://github.com/nigyta/dfast_core
解説 DFASTのバックグラウンドアノテーションエンジン。オープンソースアノテーションツールDFAST_coreとして公開している。
論文 Tanizawa Y, Fujisawa T, and Nakamura Y. DFAST: a flexible prokaryotic genome annotation pipeline for faster genome publication. Bioinformatics, 34(6) 1037–1039, 2018. (文献25)
微生物ゲノムアノテーションパイプライン DFAST
URL https://dfast.nig.ac.jp/
解説 微生物ゲノムアノテーションおよびDDBJへの塩基配列登録支援のためのwebサービス。参照データベースの拡張および独自のバックグラウンドアノテーションエンジンを新規開発し、真正細菌・古細菌全般を対象とした汎用的なウェブサービスとして刷新した。また相同性検索にGHOSTXおよびLASTを利用することで高速化と高精度化を図った。
論文 Tanizawa Y, Fujisawa T, Kaminuma E, Nakamura Y, and Arita M. DFAST and DAGA: web-based integrated genome annotation tools and resources. Bioscience of Microbiota, Food and Health, 35(4) pp. 173-184, 2016 doi: 10.12938/bmfh.16-003 (文献16)
簡易型微生物ゲノムアノテーションパイプライン L-MiGAP
URL https://www.migap.org/
解説 MiGAPは、微生物ゲノム解析において定評あるデータベースと定評あるアルゴリズムを組み合わせたアノテーション実行パイプラインであり、デフォルト解析の初級用のブロンズ(b-MiGAP),パラメーターを設定可能とする中級用シルバー(s-MiGAP),さらにデータベースやアルゴリズムを付加することができる上級用のゴールド(g-MiGAP)の3つのレベルを用意している。新たに追加したL-MiGAPは、アノテーションを自動で付加し、出力後の修正作業等を極力排除する事ができる簡易版である。
論文 未発表
ヒトゲノム解析パイプライン
URL
解説 Illumina HiSeqでシーケンスされたショートリードから未知のSNVを検出するパイプライン。dbSNPだけでなく、東北メディカルメガバンクのWhole-genomeデータや3000人のインハウスExomeデータベース等を用いて既知のSNVをフィルタする。
論文

可視化ツール

iPath3.0: interactive pathways explorer v3
URL https://pathways.embl.de/
解説 ゲノムやメタゲノムデータから遺伝子機能を推定し、KEGGパスウェイの全体図上にマッピングすることが可能である。パスウェイをユーザーが持つデータごとにカスタマイズする。
論文 Darzi Y, Letunic I, Bork P, Yamada T. iPath3.0: interactive pathways explorer v3.
Nucleic Acids Res. 2018 Apr 30. doi: 10.1093/nar/gky299.  (文献43)
メタ16S・メタゲノム解析の系統組成推定・描画ツール VITCOMIC2
URL http://vitcomic.org/
解説 系統推定および系統組成描画ツールVITCOMICは、書く配列とゲノム解読済みのレファランス16SrRNA遺伝子配列との配列相同性を基に、系統間の進化的な関係性を保持した形で描画するツールである。VITCOMIC2は、このVITCOMICを大幅に改良し、ゲノム解読されていない系統への対応、GPUを用いた高速な配列相同性検索、ゲノム内16S rRNA遺伝子コピー数の補正、メタゲノムからの完全長16S rRNA遺伝子配列の再構築等の様々な機能を追加したwebサービスとなっている。
論文 Mori H, Maruyama T, Yano M, Yamada T, Kurokawa K. VITCOMIC2: Visualization tool for the phylogenetic composition of microbial communities based on 16S rRNA gene amplicons and metagenomic shotgun sequencing. BMC Syst. Biol. 2018. doi: 10.1186/s12918-018-0545-2 (文献40)
オミクスデータ可視化のためのwebアプリケーション Functree2.0
URL https://bioviz.tokyo/functree/
解説 遺伝子機能解析のための機能可視化及び解析のwebアプリケーション。KEGG pathway やmoduleに対して一度にマッピングが可能である。これまで公開していたFunctreeをリニューアルし、webアプリケーションだけではなく、APIやコマンドラインツールとしても提供している。
論文 Uchiyama T, Irie M, Mori H, Kurokawa K, Yamada T (2015) FuncTree: Functional analysis and visualization for large-scale omics data. PLoS One, 10(5): e0126967, doi: 10.1371/journal.pone.0126967. (文献2)

データベース

ゼニゴケゲノムデータベース MarpolBase
URL http://marchantia.info/
解説 ゼニゴケゲノムデータベース。JBrowseによるゲノムブラウザ、BLASTやGMAPを使った配列類似性検索などの実用的なツールを実装している。
論文 Bowman JL, Kohchi T, Yamato KT et al. Insights into Land Plant Evolution Garnered from the Marchantia polymorpha Genome. Cell, 2017. doi: 10.1016/j.cell.2017.09.030.
lncRNA-RNA相互作用データベース LncRRIdb
URL http://rtools.cbrc.jp/LncRRIdb/
解説 長鎖ノンコーディングRNA(lncRNA)と相互作用するRNAを予測・収録したデータベース。相互作用予測は、2本のRNAの配列相同性及びRNAのアクセシビリティを同時に考慮するRIblastを使用して、ヒトの全てのlncRNA及びmRNAに対して網羅的な予測をあらかじめ実施しておくことで、高速に相互作用を検索可能にしている。また、RNA-seqの発現データを用いて予測される相互作用を絞り込む機能もサポートしている。
論文 Junichi Iwakiri, Goro Terai, Michiaki Hamada, Computational prediction of lncRNA-mRNA interactions by integrating tissue specificity in human transcriptome, Biology Direct, 12:15, 2017. (文献14)

その他

統計解析ソフトウェア Survival LAMP
URL https://rtrelator.github.io/SurvivalLAMP/
解説 生存解析では通常1つのマーカーに着目し、その有無によって、生存に統計的に有意な変化があるかを確認するのが一般的だが、本研究ではマーカー(SNP、遺伝子発現など)の組み合わせを考慮して、その組み合わせを有するか否かで統計的に有意な変化がみられるかを計算する手法を構築した。
論文 Relator R, Terada A, Sese J. Identifying statistically significant combinatorial markers for survival analysis. BMC Medical Genomics, 11(Suppl 2):31, 2018. doi: 10.1186/s12920-018-0346-x (文献42)
変異解析結果の信頼性を評価するソフトウェア EAGLE
URL https://github.com/tony-kuo/eagle
解説 EAGLEは、シーケンスの変異解析結果の信頼性を評価するソフトウェア。マルチマッピングやミスアライメント時の不確実性を考慮した上で確率モデルを構築したことで格段に信頼性を高めることが可能になった。ヒトゲノムを用いたベンチマークではGATK等の従来型変異解析結果よりも信頼性の高さを証明している。
論文 Kuo T, Frith M C, Sese J, and Horton P. EAGLE: Explicit Alternative Genome Likelihood Evaluator. BMC Medical Genomics. 11(Suppl 2):28, 2018. doi: 10.1186/s12920-018-0342-1 (文献41)
1分子実時間シーケンシングからメチル化状態を推定するソフトウェア AgIn
URL https://github.com/hacone/AgIn
解説 Pacific Biosciences 社の1分子実時間シーケンシングからメチル化状態を推定するソフトウエア。トランスポゾン、セントロメア、相同染色体等の長い類似配列を正確に分離して、CpG メチル化状態を推定できる。
論文 Suzuki Y, Korlach J, Turner SW, Tsukahara T, Taniguchi J, Qu W, Ichikawa K, Yoshimura J, Yurino H, Takahashi Y, Mitsui J, Ishiura H, Tsuji S, Takeda H, Morishita S. AgIn: measuring the landscape of CpG methylation of individual repetitive elements. Bioinformatics. 2016 Oct 1;32(19):2911-9. doi: 10.1093/bioinformatics/btw360 (文献6)