広告/統計/アニメ/映画 等に関するブログ

広告/統計/アニメ/映画 等に関するブログ

【忘備録】RMeCabで読み込んだ文書をまた個別のテキストファイルにしたい時

RMeCabに慣れていないだけかもしれませんが、
一度、読み込んだテキストファイルをもう一度、個別のテキストファイルにしたい時が発生します。。。
いくつかの関数に関しては、テキストファイルからの読み込みを前提としているものが(現時点では)あるからです。

丁度、同じようにお悩みの人がいました。
RMeCabを使う時の私的メモ
とても参考になりました。

自分の場合は、ちゃんと個別のテキストファイルが、求めていた内容になっているのか確認したかったため、
一時ファイルという形ではなく、フォルダの中に生成することにしました。

ファイル名を順番に名付けていくことに関しては、こちらのサイトR でプログラミング:データの一括処理とグラフ描き_sprintf と cat でファイル出力 を参考にしました。



abc <- read.table("abc.txt") #"abc.txt"というテキストファイルの読み込み
colnames(abc) <- c("text") #変数をつけました。頭の整理のため。必要ないかもしれません。
dummy <- as.vector(as.character(abc$text)) #文字列型に変換し、更にベクトルに変換

#ループで自分の使っているディレクトリに順番にファイル名がつくように書き込んで行きます。
#1行目がファイル名の生成。2行目が、ファイルへの書き込み。

for (i in 1:nrow(abc)){
  file.name <- sprintf("c:/Rsagyo/abc/text_%d.txt",i)
  write(dummy[i],file=file.name)
}

#例えば、各文書の中での単語の登場回数を文書別に把握したい時。
abc.matrix <- docMatrix("c:/Rsagyo/abc",pos = c("名詞","形容詞","助詞"))
abc.matrix <- kokoro2.matrix[rowSums(kokoro2.matrix) > 50,]
head(abc.matrix,30) #頭30個を確認