Regurarized Greedy Forest

機械学習

最近、決定木ベースの手法ではxgboost が主流となってきています。実際、xgboost やrandomForest は手軽に結構良い精度が出るので、まずはじめに試すとしたらこのあたりの手法かなと思います。 Regurarized Greedy Forest (以下、RGF と略す)は、C++ で書か…

2016-05-22

カテゴリー変数に embedding layer を用いたNeural Net

機械学習

kaggle のRossmann の3 位のNeokami Inc(entron)さんの用いた手法が面白かったので、その概要の紹介などをしていきたいと思います。まず手法の名前は、"Entity Embeddings of Categorical Variables" で、 [1604.06737] Entity Embeddings of Categorical V…

2015-12-12

stacked generalization

機械学習

[概要] 最近のkaggle のコンペのwinning solution で、stacked generalization がよく使われています。これの元になった論文は、1992 年のWolpert さんによるものです。 triskelion さんのブログKaggle Ensembling Guide | MLWave の中でもこの手法について…

2015-08-07

xgboost package のR とpython の違い

xgboost 機械学習

python と xgboost で検索をかけられている方も多く見受けられるので、R とほぼ重複した内容になりますが、記事にまとめておきます。python のxgboost のインストール方法はgithub を参考にされると良いと思います。dmlc/xgboostgithub.com R とpython のxgb…

2015-08-01

Windows でLasagne (NeuralNet)

(情報が古いため近日中に新しく更新する予定です。最新版ではおそらく動かないと思います。追記:2016/06/02)kaggle 勢でdeeplearning はよく用いられていますが、windows ユーザーは何かとインストールなどで苦労する点が多いように思えます。R ではh2O のde…

2015-06-21

次元削除 ( t-SNE )

機械学習

今回は、kaggle のOtto Group Production Classification Challenge の上位の方々が次元削除の手法としてt-SNE(t-distributed stochastic neighbor embedding) を使用されていたので調べてみようと思いました。個人的には、pca(主成分分析) ぐらいしか思い付…

2015-04-29

Xgboost のR における具体例 (クラス分類)

xgboost 機械学習

前回、Xgboost のパラメータについて列挙しましたが、あれだけ見ても実際にどう使うのかよく分かりません。そこで今回はR で、とりあえず iris data を用いてその使い方を見ていきたいと思います。まず、iris data の奇数番目を訓練データ、偶数番目を検証…

2015-04-11

xgboost のパラメータ

xgboost 機械学習

xgboost を使う上で、日本語のサイトが少ないと感じましたので、今回はパラメータについて、基本的にこちらのサイトの日本語訳です。 &amp;amp;amp;lt;a href="https://github.com/dmlc/xgboost/wiki/Parameters" data-mce-href="https://github.com/dml…

2015-04-07

トレーニングデータが小さい ><

kaggle の Restaurant Revenue Predicton に参加していますが、このコンテストのデータセットは、トレーニングデータが非常に小さく(n=137)、テストデータが大きい(n=10,000)のが特徴です。以前にもこのような傾向のコンテストがあったらしいです。そのとき…

2015-04-04

最近、流行のxgboost

xgboost 機械学習

kaggle で Description - Otto Group Product Classification Challenge | Kaggle に参加していますが、こちらのフォーラムで Achieve 0.50776 on the leaderboard in a minute with XGBoost - Otto Group Product Classification Challenge | Kaggle という…

2015-04-04

kaggle に参加してみた感想

今までに参加したデータ分析の大会は、データサイエンス・カップとDataLeague の2つだけで、もっとデータ分析の経験をもっと積みたいと思っています。まずデータ分析の大会を開催しているのは、国内ではサイエンティストビッグデータ活用ならオプトDSL Cro…

2015-03-31

第１回データサイエンス・カップの補足

前回の説明で足りないと思われる部分の補足です。 (1) 欠損値の取り扱いについて欠損値を含む項目がある場合に、その項目の値がすべて欠損しているのか、それとも部分的に欠損しているのかがまず確認したいところです。今回のデータサイエンス・カップでは…

2015-03-08

第１回データサイエンス・カップ

初めまして！今回は、第１回データサイエンス・カップに参加してみましたので、それに関して自分の実装方針とかを書いていこうと思います。使用したコードはこちらになります。 https://gist.github.com/puyokw/04b8ab53bc842f96a18c 前処理にはC# を用い…