機械学習:カテゴリーデータの扱い

カテゴリーデータ

例えば国名とかyes/noクエスチョンとかはテキストで保持されているけど、数式を扱いたいときにテキストがそのままあったら計算できない。なので、こういったカテゴリー変数は数値に直してから計算する必要があるという話。

まず最初にlabelencodingというクラスを用いてカテゴリーデータを数値にしてみる。

二行目で新しいインスタンスを作って、エンコーディングできるインスタンスを作り、そのインスタンスに対してfit_transform(先ほどは分けてたけどこれでもokのよう)、して実際に数値を入れる。

カテゴリーデータを数値データに変換できた。でも、これだと問題がある。というのは、国名が0,1,2のように数値の大きさの差があったらまずい(逆に小中大みたいなのだったらこの変換方法が望ましい)。ここで登場するのがみんな大好きダミー変数。3つのカラムを用意して、例えばドイツの場合、ドイツ=1、フランス=0、スペイン=0みたいにして、計算できるようにしてあげる。

これでダミー変数を作ることができる。

次にyes/noクエスチョンに関してだが、これはLabelEncoderだけで事足りてしまう。選択肢が2つなので。

これで適切に変換することができた。

Rでは・・・

Rの方がかなりわかりやすい気がした。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする