先進ゲノム解析研究推進プラットフォーム

開発ソフトウェア一覧

アラインメント、アセンブル

ロングリード向けアラインメントツール minialign
URL https://github.com/ocxtal/minialign
解説 PacBio RS II/Sequel や Oxford Nanopore MinION など、10〜15%程度のシークエンシングエラーを持つ数kb〜数Mbのロングリード向け世界最高速汎用アラインメントツール。アラインメント精度も実用的なツール群(Smith-Watermanアルゴリズムそのものなど致命的に遅いアルゴリズムを除いて)の中では世界最高クラス(データの性質や種類により Heng Li の minimap2 に精度ではやや負けることもある)を達成している。Oxford Nanopore MinION のリードに対しても非常に高いパフォーマンスを発揮している。このため、最もリード長の長いMinION/どのような塩基配列も苦手としないPacBio/単価の安いIllumina(10x Chromium)の三種類のデータを組み合わせたハイブリッドアセンブリアルゴリズムを開発中であるが、minialignはそのコアアルゴリズムの一つとして使用できる。数十Gbpの超大型ゲノムにも対応できる。また、がんゲノム解析などロングリードを用いた構造多型発見への応用も現在試行中である。
論文 Hajime Suzuki and Masahiro Kasahara. Introducing difference recurrence relations for faster semi-global alignment of long sequences, BMC Bioinformatics, V19 Suppl 1, 2018. doi: 10.1186/s12859-018-2014-8 (文献36)
シークエンサーのリードデータからその個性を学習する LAST-TRAIN
URL http://last.cbrc.jp/doc/last-train.html
解説 任意のシークエンサーから産出されるリードデータとリファレンスゲノムを入力として、シークエンサーのエラーの個性を学習するためのツール。具体的には、アラインメント(マッピング)に必要な置換行列とギャップのペナルティを学習する。学習したパラメタはアラインメントツールLASTで利用可能である。
論文 Hamada M, Ono Y, Asai K, Frith MC., Training alignment parameters for arbitrary sequencers with LAST-TRAIN, Bioinformatics. 2017 Mar 15;33(6):926-928. doi: 10.1093/bioinformatics/btw742(文献8)
相同染色体を「分けて」アセンブル出力するゲノムアセンブラ Platanus-allee
URL http://platanus.bio.titech.ac.jp/platanus2
解説 今まで多くの実績を持つゲノムアセンブラ Platanus をベースに、diploid ゲノムを対象として、相同染色体毎に配列を phasing して出力することのできるアセンブラ Platanus-allee を開発した。
論文 Rei Kajitani, Dai Yoshimura, Miki Okuno, Yohei Minakuchi, Hiroshi Kagoshima, Asao Fujiyama, Kaoru Kubokawa, Yuji Kohara, Atsushi Toyoda & Takehiko Itoh, Platanus-allee is a de novo haplotype assembler enabling a comprehensive access to divergent heterozygous regions. Nature Communications, volume 10, 2019. doi: 10.1038/s41467-019-09575-2(文献84)

オミックス解析

高速アラインメントライブラリ libgaba
URL https://github.com/ocxtal/libgaba
解説 Libgabaは、核酸配列のためのセミグローバルアライメントライブラリーである。差分ダイナミックプログラミング(DDP)により、8ビット幅のバンドでスコアを計算する。Adaptive banded DPや X-drop terminationの2種類のヒューリスティックアルゴリズムは核酸配列アラインメントツールにおいて実用化のために組み込まれているものである。
論文 Hajime Suzuki and Masahiro Kasahara. Introducing difference recurrence relations for faster semi-global alignment of long sequences, BMC Bioinformatics, V19 Suppl 1, 2018. doi: 10.1186/s12859-018-2014-8 (文献36)
複数サンプル間の発現差解析ツール DEclust
URL http://www.dna.bio.keio.ac.jp/software/DEclust/
解説 DEclustは、異なる組織または条件からの2つ以上のサンプル間の差次的な発現解析のための手法である。既存のクラスタリング手法では得られた正規化発現量を直接クラスタリングするのに対し、本手法では各遺伝子のサンプル間の検定結果を階層的にクラスタリングすることにより、複数サンプル間で統計的に優位な解析結果を得ることができる。
論文 Aoto Y, Hachiya T, Okumura K, Hase S, Sato K, Wakabayashi Y, Sakakibara Y. DEclust: A statistical approach for obtaining differential expression profiles of multiple conditions. PLoS One. 2017. 12(11):e0188285. doi: 10.1371/journal.pone.0188285 (文献27)
超高速RNA-RNA相互作用予測ツール RIblast
URL https://github.com/fukunagatsu/RIblast
解説 配列情報のみからRNA-RNAの相互作用を予測するためのツール。RNAの内部の2次構造と塩基対同士の相互作用を共に考慮したインタラクションエネルギーが最小となる相互作用を予測する。
論文 Fukunaga T, Hamada M, RIblast: an ultrafast RNA-RNA interaction prediction system based on a seed-and-extension approach, Bioinformatics. 2017 Sep 1;33(17):2666-2674. doi: 10.1093/bioinformatics/btx287 (文献13)
RNA構造解析ウェブサーバー Rtools
URL http://rtools.cbrc.jp/
解説 RNAの配列情報を入力とすると、2次構造予測など複数の構造解析のためのツール群が同時に実行され、ユーザーにグラフィカルな結果を返すウェブサーバー
論文 Hamada M, Ono Y, Kiryu H, Sato K, Kato Y, Fukunaga T, Mori R, Asai K, Rtools: a web server for various secondary structural analyses on single RNA sequences, Nucleic Acids Res. 2016 Jul 8;44(W1):W302-7. doi: 10.1093/nar/gkw337 (文献5)
染色体大規模構造変異高精度検出アルゴリズム COSMOS
URL http://seselab.org/cosmos/
解説 大規模な染色体異常(構造変異)を高精度・高感度に検出できるアルゴリズムを搭載したソフトウェア。超並列シーケンサーから得られたペアエンド情報ゲノム配列のビッグデータを高速に解析できるソフトウェアで、マウスES細胞などを用いて検証したところ、既存手法を大幅に上回る精度や感度を実現できている。この技術は、細胞のがん化の原因究明やがんの早期発見の実現への貢献が期待できる。
論文 Yamagata K, Yamanishi A, Kokubu C, Takeda J, Sese J. COSMOS: accurate detection of somatic structural variations through asymmetric comparison between tumor and normal samples. Nucleic Acids Research. 2016. doi: 10.1093/nar/gkw026 (文献4)
ショートリードからタンデムリピートを検出するソフトウエア TRhist
URL http://trhist.gi.k.u-tokyo.ac.jp/
解説 Illumina HiSeq等のショートリード中に含まれるタンデムリピートを高速に抽出するソフトウエア。サンプルに特異的なリピートのの伸長を網羅的に検出することができる。
論文 Koichiro Doi, Taku Monjo, Pham H. Hoang, Jun Yoshimura, Hideaki Yurino, Jun Mitsui, Hiroyuki Ishiura, Yuji Takahashi, Yaeko Ichikawa, Jun Goto, Shoji Tsuji and Shinichi Morishita. Rapid detection of expanded short tandem repeats in personal genomics using hybrid sequencing. Bioinformatics. 2014 Mar 15;30(6):815-22. doi: 10.1093/bioinformatics/btt647 (文献1)
高速オルソログ同定プログラム SonicParanoid
URL http://iwasakilab.bs.s.u-tokyo.ac.jp/sonicparanoid/
解説 ゲノムアノテーション・比較ゲノム解析・種の系統樹推定など、ゲノム配列を用いたあらゆる解析において鍵を握るオルソログ同定について、最も広く使われている高性能の既存プログラムよりも1,500倍以上高速で、さらに、ほぼ同じ精度を保ったオルソログ遺伝子同定プログラム。今後の非モデル生物のゲノム・トランスクリプトーム解析において活用が期待できる。
論文 Cosentino S, Iwasaki W. SonicParanoid: fast, accurate and easy orthology inference. Bioinformatics. 2019 Jan 1;35(1):149-151 doi: 10.1093/bioinformatics/bty631 (文献56)
非コード RNA クラスタリングツール CNNclust
URL http://www.dna.bio.keio.ac.jp/cnn/
解説 畳み込みニューラルネットワーク(CNN, convolutional neural network)を,非コードRNA配列のアライメントに適用し,配列の分類とクラスタリングを高精度に行うプログラムCNNclustを開発した.本手法は,10分割交差検証においてAccuracyおよびF値の両者で既存のncRNAファミリー分類ツールを上回った.また,学習後のモデルのフィルタからsnoRNA H/ACA boxやsnoRNA C/D boxなどで見られる配列のモチーフやmiRNAのステム構造に類似した二次構造モチーフを同定することができる.
論文 Aoki G, Sakakibara Y. Convolutional neural networks for classification of alignments of non-coding RNA sequences. Bioinformatics, 34(13):i237–i244, 2018. doi: 10.1093/bioinformatics/bty228 (文献55)
連続 2 塩基の特性を考慮した DNA モチーフ検出ソフトウエア DIpartite
URL https://github.com/Mohammad-Vahed/Dipartite
解説 転写因子が結合するDNAモチーフ配列の中には、二つの高度に保存されたモチーフ配列とその間の保存性の低いスペーサー配列からなるコンセンサス配列がある。例えば、枯草菌のシグマ因子や真菌の二次代謝遺伝子クラスター内などにスペーサー配列を有するコンセンサス配列が見られる。DIpartiteは、プロモーター配列データなどから、スペーサー配列を有するコンセンサス配列を検出するソフトウェアである。また、連続2塩基の共起を考慮するモードも実装している。
論文 in submitting
PacBio sequencing を用いてアレル特異的メチル化を推定するアルゴリズムとソフトウエア AgIn
URL https://github.com/hacone/AgIn
解説 Pacific Biosciences 社の1分子実時間シーケンシングからメチル化状態を推定するソフトウエア。トランスポゾン、セントロメア、相同染色体等の長い類似配列を正確に分離して、CpG メチル化状態を推定できる。
論文 Suzuki Y, Korlach J, Turner SW, Tsukahara T, Taniguchi J, Qu W, Ichikawa K, Yoshimura J, Yurino H, Takahashi Y, Mitsui J, Ishiura H, Tsuji S, Takeda H, Morishita S. AgIn: measuring the landscape of CpG methylation of individual repetitive elements. Bioinformatics. 32(19):2911-9, 2016. doi: 10.1093/bioinformatics/btw360 (文献6)

解析パイプライン

DFASTバックグラウンドアノテーションエンジン
URL https://github.com/nigyta/dfast_core
解説 DFASTのバックグラウンドアノテーションエンジン。オープンソースアノテーションツールDFAST_coreとして公開している。
論文 Tanizawa Y, Fujisawa T, and Nakamura Y. DFAST: a flexible prokaryotic genome annotation pipeline for faster genome publication. Bioinformatics, 34(6) 1037–1039, 2018. doi: 10.1093/bioinformatics/btx713 (文献25)
微生物ゲノムアノテーションパイプライン DFAST
URL https://dfast.nig.ac.jp/
解説 微生物ゲノムアノテーションおよびDDBJへの塩基配列登録支援のためのwebサービス。参照データベースの拡張および独自のバックグラウンドアノテーションエンジンを新規開発し、真正細菌・古細菌全般を対象とした汎用的なウェブサービスとして刷新した。また相同性検索にGHOSTXおよびLASTを利用することで高速化と高精度化を図った。
論文 Tanizawa Y, Fujisawa T, Kaminuma E, Nakamura Y, and Arita M. DFAST and DAGA: web-based integrated genome annotation tools and resources. Bioscience of Microbiota, Food and Health, 35(4) pp. 173-184, 2016 doi: 10.12938/bmfh.16-003 (文献16)
簡易型微生物ゲノムアノテーションパイプライン L-MiGAP
URL https://www.migap.org/
解説 MiGAPは、微生物ゲノム解析において定評あるデータベースと定評あるアルゴリズムを組み合わせたアノテーション実行パイプラインであり、デフォルト解析の初級用のブロンズ(b-MiGAP),パラメーターを設定可能とする中級用シルバー(s-MiGAP),さらにデータベースやアルゴリズムを付加することができる上級用のゴールド(g-MiGAP)の3つのレベルを用意している。新たに追加したL-MiGAPは、アノテーションを自動で付加し、出力後の修正作業等を極力排除する事ができる簡易版である。
論文 未発表
ヒトゲノム解析パイプライン
URL 未公開
解説 Illumina HiSeqでシーケンスされたショートリードから未知のSNVを検出するパイプライン。dbSNPだけでなく、東北メディカルメガバンクのWhole-genomeデータや3000人のインハウスExomeデータベース等を用いて既知のSNVをフィルタする。
論文 本パイプラインそのものについて、論文は執筆していないが、様々な医科学研究で活用されている。
ロングリード向けシークエンシングエラー訂正・アセンブリパイプライン Sprai
URL http://zombie.cb.k.u-tokyo.ac.jp/sprai/
解説 一分子リアルタイムDNAシークエンサーPacBio RSは商用出荷されている製品中で最も長い配列を出力し、ゲノムの新規解読に有効であると期待されてきた。しかし、出力する配列は非常に長いものの、従来型のシークエンサーと比べて1桁以上高い塩基エラー率(約15%)を持つため従前のゲノム解読アルゴリズムは適用不可能だった。そこで、PacBio RS の出力する塩基配列に含まれるシークエンシングエラーがほぼ独立に生じる性質を利用し、塩基配列同士のマルチプルアラインメントを高速に行い、エラーを検知・除去をする世界最高精度のアルゴリズム Sprai を開発した。Sprai にはシークエンシングエラー除去後にアセンブリするパイプラインを内蔵しており、PacBio RS の長い出力塩基配列のみを入力としてエラーの除去からゲノム配列出力までワンストップで行うことができる。
論文 Miyamoto M, Motooka D, Gotoh K, Imai T, Yoshitake K, Goto N, Iida T, Yasunaga T, Horii T, Arakawa K, Kasahara M, Nakamura S, Performance comparison of second- and third-generation sequencers using a bacterial genome with two chromosomes., BMC Genomics (2014) doi: 10.1186/1471-2164-15-699 (文献62)

可視化ツール

iPath3.0: interactive pathways explorer v3
URL https://pathways.embl.de/
解説 ゲノムやメタゲノムデータから遺伝子機能を推定し、KEGGパスウェイの全体図上にマッピングすることが可能である。パスウェイをユーザーが持つデータごとにカスタマイズする。
論文 Darzi Y, Letunic I, Bork P, Yamada T. iPath3.0: interactive pathways explorer v3.
Nucleic Acids Res. 2018 Apr 30. doi: 10.1093/nar/gky299  (文献43)
メタ16S・メタゲノム解析の系統組成推定・描画ツール VITCOMIC2
URL http://vitcomic.org/
解説 系統推定および系統組成描画ツールVITCOMICは、書く配列とゲノム解読済みのレファランス16SrRNA遺伝子配列との配列相同性を基に、系統間の進化的な関係性を保持した形で描画するツールである。VITCOMIC2は、このVITCOMICを大幅に改良し、ゲノム解読されていない系統への対応、GPUを用いた高速な配列相同性検索、ゲノム内16S rRNA遺伝子コピー数の補正、メタゲノムからの完全長16S rRNA遺伝子配列の再構築等の様々な機能を追加したwebサービスとなっている。
論文 Mori H, Maruyama T, Yano M, Yamada T, Kurokawa K. VITCOMIC2: Visualization tool for the phylogenetic composition of microbial communities based on 16S rRNA gene amplicons and metagenomic shotgun sequencing. BMC Syst. Biol. 2018. doi: 10.1186/s12918-018-0545-2 (文献40)
オミクスデータ可視化のためのwebアプリケーション Functree2.0
URL https://bioviz.tokyo/functree2/
解説 遺伝子機能解析のための機能可視化及び解析のwebアプリケーション。KEGG pathway やmoduleに対して一度にマッピングが可能である。これまで公開していたFunctreeをリニューアルし、webアプリケーションだけではなく、APIやコマンドラインツールとしても提供している。
論文 Uchiyama T, Irie M, Mori H, Kurokawa K, Yamada T (2015) FuncTree: Functional analysis and visualization for large-scale omics data. PLoS One, 10(5): e0126967, doi: 10.1371/journal.pone.0126967 (文献2)
Y Darzi, Y Yamate, T Yamada, FuncTree2: an interactive radial tree for functional hierarchies and omics data visualization, Bioinformatics (2019) doi:10.1093/bioinformatics/btz245 (文献85)
環境から微生物を、微生物から環境を予測するツール LEA
URL http://leamicrobe.jp/
解説 微生物群集構造と、由来環境に関する自然言語記述文書が対となった 3 万以上のサンプルを含む データセットに統計的潜在意味解析(トピックモデル)を適用し、微生物群集構造の大規模データ から様々な環境と微生物とのつながりを明らかにし、その結果を利用して環境と微生物の相互変 換を可能とするウェブツール。国内特許出願後、JST 知財権利化支援に採択され PCT 出願した。
論文 Higashi K, Suzuki S, Kurosawa S, Mori H, Kurokawa K. Latent environmental allocation of microbial community data. PLoS Comp. Biol., 14(6):e1006143, 2018. doi: 10.1371/journal.pcbi.1006143 (文献54)
MoMI-G: グラフゲノムブラウザ
URL https://github.com/MoMI-G/MoMI-G
解説 一般的に用いられている(線形の)参照ゲノム配列を用いてゲノム解析を行うと、がんゲノムなど構造的に大きな違いのあるゲノム配列を自然に表現できなかったり、免疫・嗅覚関連遺伝子など個人間の多様性が大きい領域の解析が難しい。これらの問題は、ゲノムの分岐を許す「グラフゲノム」を用いることで大部分を解決することができる。ヒトゲノムサイズのグラフゲノム上でアノテーションやリードアラインメントを表示できる世界初のゲノムブラウザが MoMI-G である。
論文 Yokoyama, T., Sakamoto, Y., Seki, M., Suzuki, Y. & Kasahara, M. MoMI-G : Modular Multi-scale Integrated Genome Graph Browser. bioRxiv, 2019. doi: 10.1101/540120 (文献78)

データベース

ゼニゴケゲノムデータベース MarpolBase
URL http://marchantia.info/
解説 ゼニゴケゲノムデータベース。JBrowseによるゲノムブラウザ、BLASTやGMAPを使った配列類似性検索などの実用的なツールを実装している。
論文 Bowman JL, Kohchi T, Yamato KT et al. Insights into Land Plant Evolution Garnered from the Marchantia polymorpha Genome. Cell, 2017. doi: 10.1016/j.cell.2017.09.030 (文献49)
lncRNA-RNA相互作用予測ウェブサーバー LncRRIsearch
URL http://rtools.cbrc.jp/LncRRIsearch/
解説 長鎖ノンコーディングRNA(lncRNA)と相互作用するRNAを予測・収録したデータベース。相互作用予測は、2本のRNAの配列相同性及びRNAのアクセシビリティを同時に考慮するRIblastを使用して、ヒトの全てのlncRNA及びmRNAに対して網羅的な予測をあらかじめ実施しておくことで、高速に相互作用を検索可能にしている。また、RNA-seqの発現データを用いて予測される相互作用を絞り込む機能もサポートしている。
論文 Junichi Iwakiri, Goro Terai, Michiaki Hamada, Computational prediction of lncRNA-mRNA interactions by integrating tissue specificity in human transcriptome, Biology Direct, 12:15, 2017. doi: 10.1186/s13062-017-0183-4 (文献14)
Terai G, Iwakiri J, Kameda T, Hamada M, Asai K. Comprehensive prediction of lncRNA-RNA interactions in human transcriptome, BMC Genomics, 17 Suppl 1:12, 2016. doi: 10.1186/s12864-015-2307-5 (文献3)
植物を対象とした DNA 多型データベース DNAPod
URL http://tga.nig.ac.jp/dnapod/
解説 DDBJが運営する新型シーケンサ出力配列のアーカイブデータベース DDBJ Sequence Read Archive (DDBJ SRA) から、ゲノムワイドなDNA多型の検出、既知遺伝子注釈の付与を行い公開している。
論文 Mochizuki T, Tanizawa Y, Fujisawa T, Ohta T, Nikoh N, Shimizu T, Toyoda A, Fujiyama A, Kurata N, Nagasaki H, Kaminuma E, Nakamura Y. DNApod: DNA Polymorphism annotation database from next-generation Sequence Read Archives. PLoS ONE, 12(2):e0172269, 2017. doi: 10.1371/journal.pone.0172269 (文献47)
メダカゲノムデータベース Medaka Genome version 2.2.4
URL http://utgenome.org/medaka_v2/#!Top.md
解説 2007年にサンガー法により解読したメダカゲノム(Hd-rR)は、メダカ・魚類・脊椎動物の研究者に幅広く活用されているが、サンガー法のリードが短いため、約10万個の未解読領域が残されていた。本研究では、Pacific Biosciences 社の長いリードを活用して未解読領域を約400個まで減らすことに成功した。その結果、解読が難しいとされるセントロメア配列についても、進化の様子を分析することに成功した。
論文 Ichikawa K, Tomioka S, Suzuki Y, Nakamura R, Doi K, Yoshimura J, … Morishita S. Centromere evolution and CpG methylation during vertebrate speciation. Nature Communications, 8(1):1833, 2017. doi: 10.1038/s41467-017-01982-7 (文献29)

その他

統計解析ソフトウェア Survival LAMP
URL https://rtrelator.github.io/SurvivalLAMP/
解説 生存解析では通常1つのマーカーに着目し、その有無によって、生存に統計的に有意な変化があるかを確認するのが一般的だが、本研究ではマーカー(SNP、遺伝子発現など)の組み合わせを考慮して、その組み合わせを有するか否かで統計的に有意な変化がみられるかを計算する手法を構築した。
論文 Relator R, Terada A, Sese J. Identifying statistically significant combinatorial markers for survival analysis. BMC Medical Genomics, 11(Suppl 2):31, 2018. doi: 10.1186/s12920-018-0346-x (文献42)
変異解析結果の信頼性を評価するソフトウェア EAGLE
URL https://github.com/tony-kuo/eagle
解説 EAGLEは、シーケンスの変異解析結果の信頼性を評価するソフトウェア。マルチマッピングやミスアライメント時の不確実性を考慮した上で確率モデルを構築したことで格段に信頼性を高めることが可能になった。ヒトゲノムを用いたベンチマークではGATK等の従来型変異解析結果よりも信頼性の高さを証明している。
論文 Kuo T, Frith M C, Sese J, and Horton P. EAGLE: Explicit Alternative Genome Likelihood Evaluator. BMC Medical Genomics. 11(Suppl 2):28, 2018. doi: 10.1186/s12920-018-0342-1 (文献41)
ホメオログを高精度に分けた遺伝子発現を観測する EAGLE-RC
URL https://github.com/tony-kuo/eagle
解説 EAGLE-RCは、異質倍数体においてホメオログ(相同遺伝子)を区別して、遺伝子発現量を定量するソフトウエアである。
論文 Tony C Y Kuo, Masaomi Hatakeyama, Toshiaki Tameshige, Kentaro K Shimizu, Jun Sese; Homeolog expression quantification methods for allopolyploids, Briefings in Bioinformatics. https://doi.org/10.1093/bib/bby121 (文献63)
Nanopore sequencing を用いて、ソフトウエアによりシーケンシング実行時に、標的配列を選択的に増幅するアルゴリズムとソフトウエア dyss
URL https://bitbucket.org/ban-m/dyss
解説 Nanopore sequencing は 100kb を超える長いDNA断片を解読できるため注目されているが、我々は Nanopore sequencing 中に、解読を続行するか否かを実時間で判定し、解読を中断することも可能なソフトウエア機能に注目している。なぜなら解読したい配列だけを濃縮できる可能性があるからである。本論文は、この機能の特性を最大化するための数学的理論を提示し、実用的にも高い濃縮度を達成できることを示し、ソフトウエアを公開した。
論文 Masutani B, Morishita S. A framework and an algorithm to detect low-abundance DNA by a handy sequencer and a palm-sized computer. Bioinformatics. Sep 24, 2018. doi: 10.1093/bioinformatics/bty771 (文献58)
PacBioロングリード用アセンブラーの包括的評価
URL
解説 バクテリアから植物までゲノムサイズの異なる代表的な 4 つの生物種のロングリードデータセッ トを用いて、ロングリード用アセンブリプログラムの評価をさまざまな基準に基づいて報告し た。この評価結果は、ゲノムアセンブリを行うためのパラメータを効率的に調整するガイドとし て役立つ。前プロジェクトのゲノム支援として行ったアサガオゲノムアセンブリの経験から PacBio ロングリード用アセンブラーの包括的評価という課題の必要性を認識して、本研究成果に つながった。今後も大型生物ゲノムのアセンブリを PacBio シークエンサーを用いて行う支援が 予想されるため、本研究成果で得られた知見は役に立つと考えられる。
論文 Jayakumar V, Sakakibara Y. Comprehensive evaluation of non-hybrid genome assembly tools for third- generation PacBio long-read sequence data. Brief Bioinform., 2017. doi: 10.1093/bib/bbx147 (文献26)
相同染色体別のゲノムアセンブリ、 アレル特異的CpGメチル化、アレル特異的遺伝子発現を推定するアルゴリズム
URL
解説 ヒトゲノム相同染色体別にゲノムをアセンブリするには、ヘテロ接合塩基変異による分別が鍵になる。本論文では NIST Genome In A Bottle プロジェクトで収集されたゲノムデータを元に、ヘテロ接合位置の分布を調べた。その結果、ヒトゲノムの約8割の領域を分別するには8千塩基以上のDNA断片が必要であることが分かった。言い換えれば、PacBio / Nanopore 等の long read sequencer によるシーケンシングが不可欠である。しかし塩基エラー率が 20% にも及ぶ long read sequencer で果たしてヘテロ接合変異の検出が可能かが問題となる。この問いに対して肯定的な結果を導くアルゴリズムを設計した。この結果、アレル特異的メチル化の推定も容易になった。一方、アレル特異的遺伝子発現の観測は難しいという見通しが得られた。
論文 Suzuki Y, Wang Y, Au KF,, Morishita S. A Statistical Method for Observing Personal Diploid Methylomes and Transcriptomes with Single-Molecule Real-Time Sequencing. Genes (Basel). 2018 Sep 19;9(9). pii: E460. doi: 10.3390/genes9090460 (文献57)
PacBio read simulator PBSIM
URL https://code.google.com/archive/p/pbsim/
解説 ロングリードシークエンサーであるPacBioのリード配列をシミュレートするシミュレーターである.モデルベースとサンプリングベースの2種類のシミュレーションを行うことが可能である.
論文 Yukiteru Ono, Kiyoshi Asai, Michiaki Hamada, PBSIM: PacBio reads simulator—toward accurate genome assembly, Bioinformatics, Volume 29, Issue 1, 1 January 2013, Pages 119–121. doi: 10.1093/bioinformatics/bts649 (文献61)