共同利用研究

トレーニングコース - 開催リスト

2014春「トランスクリプトームデータ解析入門」

	重信秀治、佐藤昌直、内山郁夫、山口勝司、前田太郎（基礎生物学研究所：生物機能解析センター・発生遺伝学研究部門）
Organizers	重信秀治、佐藤昌直、内山郁夫、山口勝司、前田太郎（基礎生物学研究所：生物機能解析センター・発生遺伝学研究部門）
Venue	基礎生物学研究所
Date	Mar. 6-7, 2014
Link	ウェブサイト　（http://www.nibb.ac.jp/training/2014-1st/）
	ウェブサイト　（http://www.nibb.ac.jp/training/2014-1st/）

　2014年3月6日から2 日間、「トランスクリプトーム解析入門」を開講しました。本コースには毎回定員を大幅に超える応募がありますが、今回は過去最高の63名もの応募がありました。次世代シークエンサーを使ったトランスクリプトーム解析技術が広く普及し、その解析技術を身に付けたいという研究者コミュニティのニーズの高まりが伺えます。書類選考の結果、学部4年生から教授まで、そして大学はもちろん民間企業や独立法人研究機関まで、多様バックグラウンドを持つ20名（所内2 名、所外18 名）が参加しました。受講生のモチベーションも高く、大変充実したトレーニングコースとなりました。1 日目夕刻の懇親会では受講生どおしの情報交換も活発に行われました。

　本コースは発足当初より「基礎力重視」「生物学者向け」の2点を標榜したユニークなプログラムを組んでいます。例えば、単にソフトウェアの使い方の小手先の技術を教えるのではなく、ゲノムワイドな大量データを扱うための統計的な考え方からレクチャーします。受講生からは「目からうろこが落ちた」との感想がありました。また、この分野は発展が速いため、コースの内容も、回を重ねるごとに少しずつ改変しています。今回は、非モデル生物のRNA-seq 解析に対応する新しいセッションを設けました。これは基生研が得意としている分野でもあり、受講生に好評でした。

　本コースは、トランスクリプトームデータ解析を「自分で学びたい」実験系研究者の良い受け皿になっていると言えるでしょう。

（重信秀治）

Program

3月6日（木）
       09:30 - 受付開始
       10:00 - 10:45 トランスクリプトーム解析概論　（重信）
       10:45 - 12:15 統計学入門　（佐藤）
       (Lunch)
       13:15 - 14:45 R入門　（内山）
       15:00 - 16:30 NGS基本フォーマットとツール　（前田）
       16:45 - 17:15 RNA-seq 1: 基礎　（重信）
       17:15 - 18:15 RNA-seq 2: genome-based analysis　（山口）
       18:30 - 懇親会

3月7日（金）
      09:00 - 10:00 RNA-seq 2: genome-based analysis　（山口）
      10:15 - 11:45 RNA-seq 3: de novo assembly　（重信）
      (Lunch)
      12:45 - 14:45 多変量解析　（佐藤）
      15:00 - 17:00　実践演習
      17:00　終了

講習・実習内容：
トランスクリプトームデータ解析概論：次世代DNAシークエンサーやマイクロアレイを用いたトランスクリプトーム研究を概観し、そのデータ解析手法の現状と問題点を概説する。そして、これらのデータ解析のために、われわれ生物学者は何を学ばなければいけないか、を提案する。

統計学入門：トランスクリプトームデータを定量的に解析するためには、統計学的な考え方、それに基づいた実験デザイン法を身に付けることが必須である。基本的な統計量、検定の仕組みを解説し、実験を組み立てる上で重要な統計学のエッセンスを学ぶ。

R入門：種々の統計解析をサポートしたプログラミング言語Rの初歩を習得する。トランスクリプトーム解析でよく使われる手法を重点的に学ぶ。

RNA-seqの解析パイプライン：次世代シークエンサーから得られるシークエンスデータを発現データにまで変換するパイプラインを理解する。リファレンスゲノムへのマッピングと、遺伝子モデルに基づいたカウントの方法の実際を学ぶ。ゲノムリファレンスのないde novo RNA-seqも紹介する。

次世代シークエンサーの基本フォーマットと基本ツール：次世代シークエンシングデータのマッピングデータはSAM/BAMと呼ばれる業界標準フォーマットで保存される。RNA-seqのマッピングデータを最大限に活用するために、SAM/BAMファイルの操作法や可視化法を学ぶ。samtoolsとIGVというソフトウェアを紹介する。

発現データ解析 I：発現変動のある遺伝子を同定することはトランスクリプトーム解析の主要な目的である。Normalizationとdifferential expression analysisの原理と解析法について学ぶ。

発現データ解析 II：トランスクリプトームのような大規模データから特徴を抽出し、人間が見て仮説を立てられるようにするための概念・方法を学ぶ。トランスクリプトームデータなど網羅的解析は観測点が多く、次元が高いため、人間には直感的に理解しにくい。多変量解析はそのような大規模データに存在する特徴を抽出して、可視化可能な低い次元のデータに縮約し、実験者によるデータの解釈を促す手法である。多変量解析の代表的なものの原理と解析法の実際について学ぶ。

実践演習：実データを使って実戦的な演習を行う。