• コラボレーター
  • 加藤 章太朗

世界のデータサイエンティストに分析をお願いできるKaggleについて調べてみた

国際的なデジタルデータの量は飛躍的に増大しており、2010年から2020年にかけて約40倍になると言います。(平成26年版情報通信白書より)

そのような世界ではデータサイエンティストの存在はより重要になります。今回は、世界のデータサイエンティストに分析をお願いできる「Kaggle」というサービスを取り上げます。

Kaggleとは

Kaggleとは世界中の40万人以上のデータサイエンティストが登録しているサービスで、企業はコンペ形式で課題を提示し、賞金やリクルーティングなどの条件と引き換えに、最も精度の高い分析モデルを得ることができます。

Amazon、Facebook、Walmartといった大企業も参加しており、1,000万円を超える賞金が出る案件もあります。

日本ではまだまだ知名度は低いが、2015年7月には日本で初めて株式会社リクルートホールディングスがデータ予測コンペティション「RECRUIT Challenge – Coupon Purchase Prediction」を共催するなど、徐々に認知が拡大しています。

参加企業の目的

参加企業の目的は自社の将来を予測する「分析モデル」を取得することです。例えばとあるファーストフードチェーンが「137店舗分だけの売上データを開示した上で、それを元に100,000店舗分の売上を予測する」というお題を出します。このファーストフードチェーンは実際の売上げデータを持っているので、データサイエンティストが出してくるアウトプットが正解に近いかを判断することができます。

どのような分析をして、データサイエンティストが正解に近い答えを導いたのかという「分析モデル」を取得できれば、未来の予測に使うことができます。

開催中のコンペを一覧で見ることができる

Kaggleでは開催中のコンペ一覧を見ることができます。

コンペの中身を見ると、コンペの詳細、コンペで使うデータ、参加しているデータサイエンティストのランキング、などを見ることができます。

開催中のコンペの詳細を見る

実際にコンペが行われているAirbnbの案件を紹介します。

「Airbnbを使う新しいユーザーが予約する地域を正確に予想できれば、Airbnbはよりパーソナライズされたコンテンツをユーザーに届け、最初の予約までの時間を短縮することができます。そのため、新しいユーザーが予約する地域を正確に予想して下さい。」

といった内容です。

これは賞金を獲得できる案件ではなく、Airbnbの面接機会が得られる案件です。

分析に使うデータをダウンロードする

コンペの詳細を確認したら、分析に使うデータをダウンロードします。

ユーザーID、年齢、言語、サインアップの方法、サインアップデバイス、予約地、など100万行にも渡るデータをダウンロードすることができます。これをもとにデータ分析をして提出をします。

ランキングを確認することができる

コンペに参加しているユーザーのランキングを確認することもできます。

運営側の企業が持っている答えとどのくらいマッチするかで自動的にスコアが出て、それがランキングに反映されるそうです。

▼株式会社白ヤギコーポレーションの堅田 洋資さん

ビッグデータ分析を競い合え!世界中のデータサイエンティストが集う「Kaggle」とは

既に答えは用意されていて、運営側だけがそれを知っている状態です。我々が予測データをCSVで提出すると、自動的に答え合わせがされ、その精度に応じてスコアが付与されてランキングに反映されます。

各ユーザーをタップすると、データサイエンティストの過去の実績などを見ることもできます。

まとめ

このようにKaggleを使えば、企業側は自社の将来を予測する「分析モデル」を取得でき、データサイエンティストは賞金や就職の機会を得ることができます。

是非チェックしてみてください。

▼実際にKaglleに参加した方の記事はこちら
ビッグデータ分析を競い合え!世界中のデータサイエンティストが集う「Kaggle」とは

;