April 14, 2020

Chipsterを用いてマイクロアレイ解析 (正規化・QC)

Chipsterとは

ChipsterはフィンランドのCSC – IT Center for Science社によって開発された、NGSやマイクロアレイを解析するソフトウェア。

利用方法は大まかに二通りある;
  • Chipsterのサーバーをローカルにセットアップする。この場合は、サービスを無料で利用できる。
    • セットアップするPCの推奨スペック;
      • 16 GB RAM
      • 500 GB storage
      • 2 CPU cores
  • CSCのChipsterサーバー@フィンランドを利用する
    • 大学やNPO所属の場合、無料で三週間利用できるアカウントを取得できる
      また、長期間利用の場合は、1年間使えるアカウントを500ユーロで取得できる


データのダウンロード

今回は、マイクロアレイとRNAseqのデータを比較解析した論文(MS Rao et al., 2019)のデータを用いて、実際に解析してみたいと思う。
この論文で扱われているデータは、4種の肝毒性化合物をそれぞれラットに投与した際のものである。今回はその化合物の中でも、遺伝子変動が大きかったα-naphthylisothiocyanate (ANIT)に関するデータを取り扱う。

データの場所については、論文中でGEOのアセッション番号(RNAseq; GSE122315、マイクロアレイ ; GSE122184)が記載されている。ひとまずマイクロアレイのデータを解析するため、GEOにアクセスし、マイクロアレイのアセッション番号を検索にかける。

検索して表示されるページには、実験の詳細が記述されている。Samplesの項目には、元データとなるCELファイルのダウンロード先がそれぞれリンクで貼られている。この Samples 一覧から、どのサンプル番号がどの条件(細胞名や薬剤など)に対応しているかが分かるが、より詳細な情報は Samples 下にある Download familyのSeries Matrix File(s)から得ることができる。

GEOでの検索先(GSE122184)にある、サンプルの記述

個々のサンプルに関するリンク先にある、CELファイルのダウンロード場所

Chipsterを用いた解析

データのインポート

Chipsterの起動後、Datasets > Import files から先程ダウンロードしたCELファイル6種をインポートする。ファイルがロードされたら、Datasets のウィンドウに表示される。
Chipster起動後の初期画面; Datasetsの場所は画面左上

データ処理と正規化

まず、正規化を行う。Datasets の CELファイルを全て選択した状態で、Analysis tools から Normalization > Affymetrix を選択する。横のShow parametersからパラメータを選択できるので、論文通りにNormalization method: RMA、Stabilize variance: no (特に記載がないため)、Custom CDF annotation.. : rat2302 (データが Affymetrix社のGeneChip Rat Genome 230 2.0 Arrayによって取得されているため)を選択する。
入力できたらRunをクリックして実行する。これによって正規化ができる。

計算が終わったら、 Datasetsにファイルが増え、Workflow にはtsvとpheのアイコンが生成される。tsvファイルでは、正規化の結果などを見ることができる。pheファイルはphenodataの意味で、更に解析を進めていくためにはこれを埋める必要がある(警告マークは、次に行うべき作業を指す)。
Woekflowの様子; 6は6つのCELファイルを指す

pheのアイコンをクリックし、Phenodata editorを選択する。今回はANIT投与群(5ml/kgのcorn oilに溶解)とコントロールの2群であるため、groupに1と2を記入する。
Phenodata editorの画面

Quality Control (任意)

このステップは、正規化と同じくらいの時間がかかるもので、公式によると飛ばしても差し支えない。念のためチェックする。CELファイルを選択し、Affymetrix basicを選択する。パラメータは画像サイズしかないため、そのまま実行する。その結果は以下に記述する3種類のpdfファイルによって返され、Datasetsに表示されるファイル名か、Workflowに表示されるアイコンをクリックすることで閲覧できる。

Simpleaffy

simpleaffy-plot.pdfはsimpleaffyパッケージを用いて以下の様な画像を提示する。各アレイ名の横に書かれているのは、値が存在する割合(%present)と平均バックグラウンドである。また、棒は格スケーリングファクター(値の上下2%を除いた平均)を示し、全体平均の3倍(青い領域)内であれば良い(青字)とされる。また、GAPDHの3':5'の比は1が理想とされ、1.25を越えると赤色で表示される。Actin3':Actin5'の比は3を超えないことが理想であり、これを越えると赤色で表示される。
simpleaffyの結果

Spike-in performance

各アレイのDNA結合能(ハイブリダイゼーション性能)は、Spike-in performanceによって判断できる。 近似線の傾きとy切片は、アレイ間でほぼ等しいことが求められる。 勾配が他と大幅に異なるサンプルや、切片が他のサンプルから2倍以上オフセットされているものは、サンプルをロードする際やハイブリダイゼーション中に問題が発生した可能性があると考えられる。
Spike-in performanceの結果

RNA degradation plot

RNA degradation plotは、5 '末端から3'末端へのRNA分解を示す。プロットの線は水平であることが最適であるが、通常はそうならない。 実際は、全アレイについて、線の勾配やプロファイルがほぼ同じであることを確認すれば十分である。

RNA degradation plot


RLEとNUSE

Affymetrix社のチップを使用していても、その種類によってはAffymetrix basicを選択できないことがある。その際は、チップに適したQCを選択する必要がある。例えば、Human Gene 1.0 ST Arrayを使用している場合は、Quality control > Affymetrix exon/gene arrays -using RLE and NUSE へ進む。パラメータ選択ではデフォルトの画像サイズ、 ChiptypeとSummary feature (gene)を選択び、実行する。
Quality controlの選択

RLEとNUSEはそれぞれrelative log expression valuesとnormalized unscaled standard errorsの略称である。RLEは、それぞれのチップの中央値が全体平均からどれだけ外れているかを示す。例えば、あるチップのプローブが他と比べて全体的にRNAと結合しやすい場合は、値は0より高くなる。NUSEは標準誤差の中央値である。例えば、あるチップ内のDNA結合能が不均一であったら、分散値は1より高くなる。
gene levelのRLE出力結果

Preprocessing (任意)

Preprocessingでは、発現量や標準偏差を基準に不要なデータをフィルタリングすることができる。今回は、元の論文に言及がないため、フィルタリングは行わない。

No comments:

Post a Comment