Railway gun

Web系企業に勤めるサラリーマンが書くブログ。技術に関してだったり他の物だったりします。

UbuntuでR:その1~文字コードの変換~

今までWindowsでしかRは使っていなかったけれども、Ubuntuでも使用してみる。
Rパッケージインストール時に他のコンポーネントをインストールしなくてはいけなかったりする。

これは細かいお話の一つだが、Windowsで扱っていたcsvファイルをそのまま読み込もうとすると。

read.csv("xxx.csv")

エラー。

Error in make.names(col.names, unique = TRUE) :
  invalid multibyte string at '<93><fa><95>t'

恐らく文字コードの問題。
真っ新な環境のため変換ツールも入っていない。nkfをインストール。

$ sudo apt-get install nkf

インストール完了。UTF-8に変換。

$ nkf -w8 --overwrite xxx.csv

上書きしてUTF-8に変換。もう一度Rで読み込んでみる。

read.csv("xxx.csv")

(表示は省略)無事読み込めた。