- 株式会社ロックオン
- マーケティングメトリックス研究所 所長
- 松本 健太郎
「データサイエンス」の最初の1歩はエクセルで十分!?課題解決に役立つ、データ分析の進め方
〜「データサイエンティスト」の仕事とは? 誰でもすぐに使える、「回帰分析」を用いた課題解決の発想術を紹介〜
近年、「データサイエンティスト」という言葉が広く使われるようになった。にもかかわらず、彼らの仕事の実態が広く理解されているとは言い難い。
マーケティングメトリックス研究所の所長を務め、自身もデータサイエンティストである、松本 健太郎さん。
松本さんによれば、「データサイエンス」は特別に難しいものではなく、「データサイエンティスト」という特別な職人集団に限られたものではないという。
今回は、松本さんに、「回帰分析」を用いた、誰でも使えるデータサイエンスの発想法から、データサイエンティストの仕事の実態、データサイエンティストと経営側のあるべき関係まで、幅広くお話を伺った。
「マーケティング」と「データサイエンス」を組み合わせる
私は、マーケティングプラットフォーム「アドエビス」を提供する株式会社ロックオンで、マーケティングメトリックス研究所の所長をしています。
弊社の「アドエビス」は、デジタルマーケティングの効果測定が行えます。ですが、「それはマーケティングの一部でしかない」と考えられているマーケターさんもいらっしゃいます。実際、そうした方の業務範囲は、新聞やテレビ、時には店舗の棚までありますので。デジタルマーケティングの最適化はマーケティング全体の部分最適化だと悩まれているんです。
そこで当研究所が、テレビや新聞の世界で使われる統計的アプローチをデジタルマーケティングに当てはめて分析を行い、マーケティング全体を最適化するようなソリューションを提供しています。
▼マーケティングメトリックス研究所のWebサイト
「エクセルだけ」でも、ほとんどの問題は解決できる!?
「データサイエンス」「データ分析」というと小難しそうですが、実はすごく身近で、ビジネスの現場でも、ごく普通に誰でも使っているものです。
日常的なレベルでデータ分析をするなら、実はエクセルだけでも十分なんですよ。
例えば私の場合、「Tableau(タブロー)」「Microsoft Azure(マイクロソフト・アジュール)」「Hadoop(ハドゥープ)」などの基盤を用意し、「R(アール)」「python(パイソン)」などの言語で分析を行っています。ですが、エクセルもかなり重宝しています。凄く便利なんですよ。
エクセルで分析できれば、あとは慣れの問題でしょう。エクセルでも実践できる、いくつかのデータ分析手法だけで、ほとんどの問題は解決できます。
回帰分析は「現状把握」と「未来予測」に活用
例えば「回帰分析」です。この手法を使うだけで、データサイエンスの発想の核心に触れることができると思います。
回帰分析を行うには、まず「散布図」を書きます。例えば、X軸を体重、Y軸を身長として、40人のデータをXY座標上にプロット(※散布図の点を打つこと)します。すると、基本的に身長と体重は相関するので、左下から右上に流れるような分布ができます。
▼身長と体重をプロットした散布図
次に、この散布図に添うように、一本の直線を引きます。先ほどの例だと、右肩上がりの直線が書けるはずです。「回帰直線」と言います。
回帰直線を引くと、「何となくこの2つの数字は関係がありそうだな」というのが見えてきます。例えば、身長と体重は、一方が増えるともう一方も増える「相関関係」がありそうですよね。
▼回帰直線を引くと、身長と体重の関係性が見えてくる
回帰直線を書くと、例えば体重60キロぐらいの人が出てきたら、「おそらく身長は165センチぐらいだろう」とわかりますよね。「現状はどうなっているんだっけ」という事を把握した上で、未来がどうなるかの予測ができるわけです。
世の中のほとんどの課題は、この回帰分析で十分解決できると思いますね。
ちなみに、この分析はエクセルのオプションを使えばできます。だから、データ分析の最初の1歩はエクセルで十分だと考えています。
データから「仮説」を導く。誰でも実践できる、その方法とは
回帰分析は、実際のビジネスにも応用できます。例えば、Y軸に事業にとって一番大事な数字、「売上」などを入れます。
次に、X軸にそれに強く影響していそうな数値を設定します。例えば、店舗ビジネスなら「店舗にいる従業員数」が売り上げに影響していると考え、月ごとの売り上げと従業員数をプロットしていきます。
店員が多いほど売上も多いのなら、おそらく、先ほどと同じように右肩上がりの回帰直線が引けるはずです。
仮説を出すためには、例えば、ここで回帰直線から離れた値を見るんです。「ある店舗では12月だけ異常に下がっているよね」となれば、そのタイミングで何か問題があった、という事がわかります。そこだけ傾向が違うんですから。それを元に、売り上げが落ちた原因の仮説や、改善のための施策が出てくるんです。
ここで一番重要なのは、「X軸に何をとるのか」です。「何が売上に影響しそうか」ということですが、これは、「データサイエンスって難しそう」と言っている現場の人たちが、一番知っているはずです。「影響するのは従業員数じゃなくて、占有面積だ」という意見が出てくるかもしれないですよね。
データサイエンティストに必要な要素とは?
データサイエンティストのお仕事って、広い意味では「課題を解決すること」だと思っているんです。
分析し、最終的に「こうすれば解決するよ」という提案を持ってきても、実際に思っていた通りにいくことなんて、まずあり得ない。そこで出てくる誤差の理由を考えて、もう一回分析を始めるサイクルを回せる人が、一番向いているんじゃないかなと思います。
分析が上手いことより、根気強いこと、何度でも挑戦できること、そちらの気質のほうが大事ではないでしょうか。
分析そのもので、私自身が気をつけていることは、「自分の言いたいように数字を変えない」ということです。数字のごまかしって、意図的にやるのは悪質なんですけど、意図せずやるのはもっと悪質だと思っていて。
ごまかして意図しない結果に導いて、結果的に失敗につながるケースってあるんじゃないかと思います。なので、分析する人が、「何が目的で、何が解決できれば良いのか」という認識を合わせ続けることが、何より重要だなと思います。
「データサイエンティスト」と「事業」の橋渡しをしたい
データサイエンティストの周りで言われているブラックユーモアで、「データサイエンスの部署を新設した会社には行くな」という話があります(笑)。なぜかと言うと、経営層が過度な期待を持ちすぎているケースが多々あり、「データがあれば、すべてが変わる」と思っていたりするんです。
逆に、データサイエンティストは事業への理解が浅いことがあって、解決するべき「課題」が理解できない場合があります。こうして双方不幸になるから、新設部署にいってはいけません(笑)。
このような事態を解消するためには、データサイエンティストには「自分たちの仕事は課題解決であり、そのためには事業理解が必要」だという意識が求められます。また、経営者には、データサイエンスはあくまで「課題解決に必要な1つの手法」ということを理解した上で、「課題」ベースで依頼することが必要です。
そのふたつの間に、現状ではものすごく大きな壁が横たわっている感覚です(笑)。でも、その壁を越えないと変えることはできない。大きな矛盾に苦しんでらっしゃる方は大勢いらっしゃると思います。
私は、そのふたつの間の橋渡しをしたいと思っているんです。普通のビジネスマンにデータサイエンスを理解してもらい、データサイエンティストには事業と、その課題解決のロジックを理解してもらえるような手助けをしたい。
そのためにも、今後ともデータサイエンスについての情報発信を続けていこうと考えています。(了)