Genome Team: GSEA解析 (実行方法)

Gene Set Enrichment Analysis (GSEA)とは

GSEAは、発現変動している遺伝子(例: Normal vs Drug A treatment で動く遺伝子) と、既知の遺伝子セット(例: Hypoxiaで動く遺伝子の集まり)との一致度を判断する計算方法である。

GSEAの解析例

この既知の遺伝子セットは、具体的にはMolecular Signatures Database (MSigDB)によって集められたもので、以下の内容を含んでいる。

H - hallmark gene sets: 多くのMsigDBデータから導かれた特徴的な遺伝子セット
C1 - positional gene sets: ヒト染色体および細胞遺伝学的バンドの位置遺伝子セット
C2 - curated gene sets: PubMedの出版物やオンラインのパスウェイデータベース、専門家から収集された遺伝子セット
C3 - regulatory target gene sets: microRNAシードシーケンスのための遺伝子標的予測と、予測された転写因子結合部位に基づく制御標的遺伝子セット
C4 - computational gene sets: がんに関連するマイクロアレイの大規模なデータをマイニングすることによって定義された算定の遺伝子セット
C5 - GO gene sets: Gene Ontology (GO) 遺伝子セット
C6 - oncogenic gene sets: マイクロアレイにおける、がん遺伝子の摂動から直接定義されたがん遺伝子セット
C7 - immunologic gene sets: 免疫学的な研究で用いられたマイクロアレイから直接定義された免疫遺伝子セット

既知の遺伝子セットとしてC2やC5を選択することで、パスウェイ解析やGO解析を行えることになる。

GSEAの解析方法

データの準備

GSEAを利用するには少なくとも以下のデータが必要であり、GSEAのフォーマットに対応していることが求められる。

発現データのファイル
表現型のファイル

1. 発現データのファイルは、例えばマイクロアレイの結果をサンプルごとに並べたものが該当する。フォーマットの形式・詳細については、このページに詳しく記載されている。

今回は、同ページで例として用意されている、P53_hgu95av2.gctというファイルを使う。
発現データについてはRNAseqの情報を扱うことも可能であるが、その場合はDESeqやVoomといった外部ツールで事前に正規化することが求められている。つまり、マイクロアレイの場合は正規化が必要ないと思われる(そして、対数をとっても取らなくても良い)。

P53_hgu95av2.gctファイルの中身(一部)
様々な細胞株に関するマイクロアレイの結果が並べられている。

2. 表現型のファイルは、サンプル数やクラスの数(MTとWTの2種ならば2)、そしてそれぞれのサンプルがどのクラスに属するかが示されている。今回は、前述のgctファイルに対応するP53.clsが用意されているため、これを用いる。

P53.clsの中身(一部)

GSEAのダウンロード

GSRAの公式webページからDownloadページに進み、ダウンロードする(要ログイン; 登録は無償)。GSEAはコマンドラインやRをベースに動かすこともできるが、今回はデスクトップアプリで動かすことを前提に書く。

データの取り込み

ダウンロードしたファイルをクリックしたらアイコンが出るので、クリックしてGSEAを起動する。以下の画面が表示されたら、Load dataをクリックする。

GSEAの初期画面。左上にLoad dataがある

Load dataの画面に移ったら、gctファイルとclsファイルをロードし、Run GSEAに進む。

解析条件の設定

実際に解析に進む前に、以下の事項を設定する。

Expression datasetではインポートしたgctファイルを選択
Gene sets databaseでは最初に記述した「既知の遺伝子セット (H, C1~C7)」を選択。複数の選択も可能
Number of permutationsではデータの順序替えの数を指定する(計算結果がデータの並び順に依存するのを防ぐため)。値が大きいほど計算に時間がかかる。公式では、まず10に設定して計算が動くことを確認した後に1000にすることを推奨されている
Phenotype labelsではインポートしたclsファイルを選択。
Collapse/Remap or gene symbolsでは、HGNG遺伝子シンボルによって同一に分類されるプローブセットをまとめるか別々に扱うかを選ぶことができる。Collapse(まとめる)がデフォルト
Permutatin typeでは先ほどのデータの順序変えをサンプルに対して行うか、それとも遺伝子セットに対して行うかを選べる。Phenotype (表現型)は、各表現型に少なくとも7つのサンプルがある場合に推奨される(例えば、WTとMTがそれぞれ7つ以上)。そうでない場合はGene_setが良いとされる。
Chip platformでは遺伝子セットで用いられているチップ(今回の例ではAffymetrixのHG_U95)を選択する。

Run GSEAのパラメータ選択画面

Gene sets databaseは複数の選択が可能

全てのパラメータを選択したらRunをクリックする。左下のGSEA reportsにSuccessが表示されたらクリックして結果のページを開く。

これは冒頭で表示した、結果の例である。まず、タイトルでp53関連の遺伝子セットが動いていることが確認できる。そして、一番下のグラフでは、WTで強く発現してMUT(p53欠損)では低発現となっていることが分かる。結果の解釈については、こちらに記す。

Genome Team

May 1, 2020

GSEA解析 (実行方法)