June 29, 2020

R:複数のCELファイルを読み込む

ワーキングディレクトリ内にある複数のCELファイルの名前を、以下のような文字列ベクトルに収めている際

cel_file <- c("a1.CEL", "a2.CEL", "a3.CEL")

AffyパッケージのReadAffy関数で読もうとすると失敗してしまう

cel_dat <- ReadAffy(cel_file)
→ Error : file names must be specified using a character vector, not a ‘list’

このエラーは、以下のようにして解決する

cel_dat <- ReadAffy(filenames = cel_file)

June 15, 2020

R:freadで読み込んだファイルに行名をつける

Rで大規模なデータを読む際は、data.tableパッケージのfread関数を使うと時間を短縮できて良い。

しかし、そのデータには行名を付けられないため、以下の様な作業が必要になる。


1
2
3
4
data <- fread("file.csv", stringsAsFactors = FALSE)
data <- as.data.frame(data)
row.names(data) <- as.matrix(data[,1])
data <- data[,-1]

June 2, 2020

GSEA解析 (データのフィルタリング; 半数が閾値より大きい)

GSEAでフィルタリングしたデータを用意するコードを作成したので共有する。
今回の条件は、「半数以上のサンプルにおける発現が閾値 (min.thrd)より大きい遺伝子を残す」というもの。

実行したら以下が生成される
・フィルタリング無しの発現ファイル(XX.txt)
・フィルタリング有りの発現ファイル(XX_HalfisLarger_(min.thrd).txt)
・表現型ファイルのひな型(XX.cls) ※要編集

このプログラムにおいても、Working directoryがCELファイルと同じ場所になっていることが前提になっている。
主な変更点に関する注釈をマゼンタ色で表示している。

June 1, 2020

GSEA解析 (データのフィルタリング; 全てが閾値より大きい)

GSEAでフィルタリングしたデータを用意するコードを作成したので共有する。
条件は、「すべてのサンプルにおける発現が閾値 (min.thrd)より大きい遺伝子を残す」というもの。

実行したら以下が生成される
・フィルタリング無しの発現ファイル(XX.txt)
・フィルタリング有りの発現ファイル(XX_filtered_(min.thrd).txt)
・表現型ファイルのひな型(XX.cls) ※要編集

このプログラムにおいても、Working directoryがCELファイルと同じ場所になっていることが前提になっている。
主な変更点に関する注釈をマゼンタ色で表示している。