Regurarized Greedy Forest

最近、決定木ベースの手法ではxgboost が主流となってきています。実際、xgboost やrandomForest は手軽に結構良い精度が出るので、まずはじめに試すとしたらこのあたりの手法かなと思います。 Regurarized Greedy Forest (以下、RGF と略す)は、C++ で書か…

カテゴリー変数に embedding layer を用いたNeural Net

kaggle のRossmann の3 位のNeokami Inc(entron)さんの用いた手法が面白かったので、その概要の紹介などをしていきたいと思います。 まず手法の名前は、"Entity Embeddings of Categorical Variables" で、 [1604.06737] Entity Embeddings of Categorical V…

stacked generalization

[概要] 最近のkaggle のコンペのwinning solution で、stacked generalization がよく使われています。これの元になった論文は、1992 年のWolpert さんによるものです。 triskelion さんのブログKaggle Ensembling Guide | MLWave の中でもこの手法について…

xgboost package のR とpython の違い

python と xgboost で検索をかけられている方も多く見受けられるので、R とほぼ重複した内容になりますが、記事にまとめておきます。python のxgboost のインストール方法はgithub を参考にされると良いと思います。dmlc/xgboostgithub.com R とpython のxgb…

Windows でLasagne (NeuralNet)

(情報が古いため近日中に新しく更新する予定です。最新版ではおそらく動かないと思います。追記:2016/06/02)kaggle 勢でdeeplearning はよく用いられていますが、windows ユーザーは何かとインストールなどで苦労する点が多いように思えます。R ではh2O のde…

次元削除 ( t-SNE )

今回は、kaggle のOtto Group Production Classification Challenge の上位の方々が次元削除の手法としてt-SNE(t-distributed stochastic neighbor embedding) を使用されていたので調べてみようと思いました。個人的には、pca(主成分分析) ぐらいしか思い付…

Xgboost のR における具体例 (クラス分類)

前回、Xgboost のパラメータについて列挙しましたが、あれだけ見ても実際にどう使うのかよく分かりません。そこで今回はR で、とりあえず iris data を用いてその使い方を見ていきたいと思います。 まず、iris data の奇数番目を訓練データ、偶数番目を検証…

xgboost のパラメータ

xgboost を使う上で、日本語のサイトが少ないと感じましたので、今回はパラメータについて、基本的にこちらのサイトの日本語訳です。 <a href="https://github.com/dmlc/xgboost/wiki/Parameters" data-mce-href="https://github.com/dml…

トレーニングデータが小さい ><

kaggle の Restaurant Revenue Predicton に参加していますが、このコンテストのデータセットは、トレーニングデータが非常に小さく(n=137)、テストデータが大きい(n=10,000)のが特徴です。 以前にもこのような傾向のコンテストがあったらしいです。そのとき…

最近、流行のxgboost

kaggle で Description - Otto Group Product Classification Challenge | Kaggle に参加していますが、こちらのフォーラムで Achieve 0.50776 on the leaderboard in a minute with XGBoost - Otto Group Product Classification Challenge | Kaggle という…

kaggle に参加してみた感想

今までに参加したデータ分析の大会は、データサイエンス・カップとDataLeague の2つだけで、もっとデータ分析の経験をもっと積みたいと思っています。まずデータ分析の大会を開催しているのは、国内では サイエンティスト ビッグデータ活用ならオプトDSL Cro…

第1回データサイエンス・カップの補足

前回の説明で足りないと思われる部分の補足です。 (1) 欠損値の取り扱いについて 欠損値を含む項目がある場合に、その項目の値がすべて欠損しているのか、それとも部分的に欠損しているのかがまず確認したいところです。今回のデータサイエンス・カップでは…

第1回データサイエンス・カップ

初めまして! 今回は、第1回データサイエンス・カップに参加してみましたので、それに関して自分の実装方針とかを書いていこうと思います。 使用したコードはこちらになります。 https://gist.github.com/puyokw/04b8ab53bc842f96a18c 前処理にはC# を用い…