• 株式会社Gunosy
  • データ分析部 部長
  • 吉田 宏司

Gunosyのアルゴリズムと数値分析を支える「データ分析部」その現場ノウハウを公開!

〜1,500万DLを突破した情報キュレーションアプリ「グノシー」。その中核をなすデータ分析部の役割と、同社の徹底したデータドリブンなカルチャーを紹介〜

Webサービスやアプリの世界では、数値データに基づいてサービスを改善する、データドリブンがもはや常識になりつつある。

累計1,500万DLの情報キュレーションアプリ、「グノシー」。大量の記事の中から、良質な記事を選び出すアルゴリズムの改善や、サービスの成長のためKPI算出などを担うのが、同社のデータ分析部だ。

データドリブンが徹底されたデータ分析部では、あらゆる変更でA/Bテストを実施し、数%の改善を日々積み重ねている。「数値は自分で出すのが正しい」という、数値を元にサービスを改善する文化ができているのだ。

今回は、共同創業者にしてデータ分析部の部長を務める吉田 宏司さんと、エンジニアの工藤 啓朗さんに、データ分析部の役割と文化について詳しくお話を伺った。

グノシー開発のきっかけは、夏休みで「暇だった」から!?

吉田 私は学生時代に、創業者の福島と関の3人で「グノシー」を開発し、現在はデータ分析部の部長を務めています。

修士1年の夏休み、普通の人はインターンに行ったりするのですが、私と福島は特にやることがなくて(笑)。そこにもう1人、関が加わって、「暇な3人でサービスでも作ろう」と始まったのが、Gunosyです。

その後、他の企業から内定が出ていたのですが、すでにその時点でグノシーのユーザーは数万人になっていて、継続率も高かったので、そのまま創業に至りました。

創業から3年ほど経って、社員数は約100名になり、エンジニアも40名を超える組織になっています。

Gunosyのアルゴリズムを支える、データ分析部の仕事とは

工藤 私は今年の2月にGunosyに入社し、いまはデータ分析部で、記事配信アルゴリズムの改善を主に担当しています。

グノシーの記事配信の仕組みを説明すると、まず提携しているメディアから記事を集めます。そして、集めた記事がどのカテゴリに属するのか判別します。

そして、カテゴリの中から、ユーザーに特に読まれそうな記事を割り出して配信します。例えば、過去のログから人気記事の特徴を抽出して比較しています

配信後は、その記事が読まれているかを計測し、表示させつづけるかどうかを決めていきます。例えば、先週の同じ曜日・同じ時間帯に配信した記事のクリック率と比較することで、記事の質を判断するようにしていますね。

集めている記事数は膨大なので、そのカテゴリ分けや、質の判定を自動化するアルゴリズムの改善は重要な仕事のひとつです。

吉田 工藤が担当している記事配信アルゴリズムの改善と、アクティブユーザー数、継続率といった数値データの取得・分析を行っているのが「データ分析部」です。

45人ほどエンジニアがいる内、8人がデータ分析部というのは他社と比べても多いと思いますね。「数値を元に改善していく」という文化のGunosyを支える役割にあると思っています。

記事配信の精度は、アルゴリズムの改善の積み重ねの賜物

工藤 データ分析部では、細かいアルゴリズムの改善は週1の頻度で実施しています。

例えば、最近だと「イチローが大記録を達成した」というニュースがありました。もちろん、それに関連するニュースはたくさんあったと思うのですが、それを記事の質だけで判断してしまうと、「スポーツ」タブの記事が、全部イチローになってしまいますよね。

それを防ぐために、「クラスタリング」といって、同じような内容の記事はまとめて、その中からいい記事をひとつだけ出す仕組みを用いています。

一方で「イチロー」のクラスタリングが強すぎてしまうと、本当は「イチロー」の話題ではないのに、一緒にまとめられて表示されない記事も出てきてしまいます。そういったことを日々修正して改善を積み重ねていくんですね。

配信アルゴリズムの改善のときには、つねにA/Bテストを実施しています。あるユーザーには今までどおりのアルゴリズムで配信して、もう一方には新しいアルゴリズムで配信して、リアクションの比較をおこなっています。

大きく失敗しないために「A/Bテスト」を徹底する

吉田 A/Bテストを実施するときは、まず数%のユーザーにのみテストを適用します。最初から全ユーザーの半分に実施して、その大半が離脱すると困りますから(笑)。

それでユーザーの反応が良ければ、徐々に適用するユーザーを増やしていきます。最終的に、数値が少しでも改善していれば、その手法を採用する。そうすることで、大きく失敗する可能性は低くなります。

土日はメディアがお休みの影響で、配信される記事の内容が平日と異なるので、最低でも1週間は経過を見て、効果を測定しています。

配信アルゴリズムだけではなく、UIの変更も、すべて同じような方法でA/Bテストを運用していますね。

職種にかぎらず、「数値は自分で出すのが正しい」

吉田 KPIなどの数値データの可視化も、データ分析部の仕事です。KPIの算出に必要なデータは、分析に必要な直近数ヶ月を「AWS Redshift」に蓄積し、それ以前のデータは「AWS S3」に保管しています

データの可視化には、OSSのダッシュボードツール「Re:dash」を使っています。以前はダッシュボードを自社で開発していたのですが、描画機能までを自分たちで作るよりは、すでにあるものを使ったほうが良いなと思いまして。

Gunosyには、「必要な数値は、自分で出すのが正しい」という文化が昔からあるんですよ。なので、マーケティングの人でも自分でクエリを書いて、数値を可視化できるような環境にしていくために、Re:dashへの移行を進めています。

アカデミズムとも連携しつつ、Gunosyを成長させていきたい

工藤 今後は、データ分析部の活動をアカデミズムと連携させていきたいと考えています。

「グノシー」や「ニュースパス」で集めた膨大なデータをアカデミズムに提供し、研究に役立ててもらう。逆に、研究成果をGunosyのサービス改善に活用するといったことが将来的にできるようになればいいなと思っています。

吉田 Gunosyの中核にある機械学習のロジックに、最先端の研究を取り込むことで、ユーザー体験をより一層向上させていきたいですね。(了)

;