機械学習:学習データとテストデータ

学習データとテストデータを分ける方法

まだ詳細の説明はなかったのだけど、過学習という問題を防ぐために、通常機械学習をするときには訓練データとテストデータを分ける必要があるらしい。全部を学び過ぎても学習し過ぎてそのロジックがわからなくなるのだとか。奥が深い。とりあえず詳細はのちに説明するとして分ける方法。

test_sizeで何%のデータをテストデータに、何%を学習データにするのかを決める。random_stateはなくても良いけど、チュートリアルと同じ結果が欲しい場合はこれ。この数値によってランダムさが決められるのかな。

Rでやると・・・

やっぱりRの方が直感的に理解しやすいかもしれない。caToolsというパッケージをインストールしたら、seedをセットする。これはpythonのrandom_stateと同じ役目。sample.split(ここにデータの従属変数の名前, SplitRatio = ここは何%学習データにするか)、という感じでかく。基本はpythonと同じ。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする