安定と刺激の間で生きたい。

データ分析の日常を淡々と描いた物です。

本日開催された「Data Platform Meetup#2」に参加しました。

勉強会メモ Data Platform Meetup#2 本日開催された「Data Platform Meetup#2」に参加しました。

data-platform-meetup.connpass.com

全体を通した所感

  • 前半2つのデータ駆動推進、使ってもらえるようにした努力の発表については、泥臭く挑むエンジニア達の姿に感じるものがありました。エンジニアとビジネスサイドという異質の組織間をつなぐ上で発生する場合、人に優しく寄り添うという姿勢の大事さ。
  • 機械学習データの活用事例や、アプリログを効率良く活用するためのFirebaseAnalyticsの活用については、純粋に面白そうなのでやってみたい。

挨拶

内容

  • 挨拶は、Retty平野さん
    • DPMの趣旨
      • 事業会社でDMPを担当してる人がノウハウを発表
      • 開催の背景
        • データレイクが整備されてきた、既存コミュニティで議論されていない内容(DWHの設計など)、課題感が自社内に閉じているのでノウハウの共有の場
  • 会場のご案内は、pixiv高橋さん
    • 本日の会場提供頂いたpixivのデータ駆動推進室の方
    • データ活用をサポート業務を担当

長部 和仁さん:「プロダクト中心のデータ駆動を推進していくために大事なこと」

speakerdeck.com

内容

  • 長部さんの自己紹介
    • データ基盤エンジニアの方
    • データ基盤にpixiv本体しかない状況から、周辺プロダクト(ECサイトなど)含めてデータを含めて集約にご尽力
  • 話すこと
    • データ活用が求められる背景
      • 技術的大きく動いた要素、クラウドDWHと機械学習技術である。
      • 専門職レベルでなくても、機械学習技術を活用できる時代。
      • ピクシブでは、レコメンドでの活用が大きなテーマとなっている。
    • データ活用のための組織構造について
      • 中央集権的な構造と、各部署にデータ活用担当のいる民主化構造に分かれる
        • 中央集権的な場合、分析スキルを持つ人が一つの組織に集まっている。
        • 民主化の場合、各組織の分析したい当事者が分析を行う。それぞれメリデリが分かれる。
    • pixivではどうしたか?
      • 民主化の方を選択した。
      • プロダクトが多く、特有のドメイン知識が多く、中央集権で分析するのは無理があった。
    • 民主化する際の壁
      • 分析スキル:担当者がSQLを覚える必要がある
      • データ理解:開発者視点での謎のデータ構造への理解
      • ガバナンス:それぞれが好きにデータを触れるため、正しくないデータ集計となる可能性
    • pixivのデータ駆動推進室のやったこと
      • 推進室は直接の分析課題を解決せず、現場が解決する。間接的に支援を行う。
      • データ基盤操作のテンプレート化
      • BIツールLookerの導入
      • 互助会機能を充実:analystチャンネル、データエンジニア交流会、分析わくわくタイム
      • チュートリアルリソースの充実
    • 取り組みの結果
      • 機械学習エンジニアに対して、アドホックなデータ集計や分析依頼がこなくなった(素晴らしい!)
    • 現在の課題感
      • 中間テーブルの管理
      • 管理ができない部分の発生
      • 非プロダクトへの適用

質問タイム

  • Q.学習教材の用意は、非エンジニア向けにも提供した?
  • Q.BQは従量課金なので、跳ね上がる可能性もあるがどう抑制しているのか?
    • A.監視はしているが、個人に任せている。悪いクエリを発行した人は呼び出して注意される!
  • Q.推進側のモチベーションの維持ってどうやっているのか?KPIをどう設定している?
    • A.データ利活用の課題意識を持っている人が集まってきた感じ。
  • Q.LookerはLookMLをかけないと使えないが、そのあたりは誰が対応しているのか?

    • A.定義も各部署に開発者がコミットするようにしている。データ推進室がレビューなどを行いデータガバナンスを担保している。
  • 個人的に伺った質問

    • Q.現在の体制までに持ってこれた期間は?
      • A.去年から始めたという感じ。
    • Q.BIツールである程度の要望は対処できるが、BIで汎用化できない集計分析依頼はSQLを使わないと出来ないと思われるが、これを全て各部署で対応できているのか?
      • A.各部署にエンジニアがいるので、その方はSQLは書けるので、そちらで対応してもらっている。

所感

  • データ集計の民主化事例として良かった。(自分で取り組んでいるが、他人に勉強してもらうというのはとても大変。)
  • Looker導入はコストはかかるので、今すぐに真似できるものではない。ただし、テンプレート化、チュートリアルリソース追加、互助機能は真似していけそう。

Hashimoto Yuki さん:「データを用意しただけだと使われないので、使ってもらえるようにした努力」

内容

  • 概要
    • データの流れ
      • ユーザのアプリ、サービスのサーバー → EC2 → Redshift(機械学習用にも使う) → redash
    • DBの状況
      • テーブル700、平日70000クエリ、休日30000クエリ
    • データの種類
      • アクセスログ、イベントログ(DOMイベントなど)、インプレッションログ
  • (データを用意しただけときに)かつて発生していた要望
    • 使い方がわからない、データがわからない
    • 分析の仕方が分からない などなど
  • そこから、エンジニアがポスピタリティを発揮して使ってもらえるようにした施策を紹介
    • ドキュメントを整える
      • ユーザガイド
      • 機能や、それを使うと出来ることの概要を書く
      • データ欠損情報や更新履歴も記載
    • 事業部の様子を偵察(事業部が色々があるので、それぞれ偵察しにいく)
      • 各事業、プロダクトの担当を選任で設定する
      • 各事業部の定例MTGに参加する
      • プロダクトの動きを先回りして抑えておく
    • 事例共有会
      • 実際に分析基盤に使っているアナリストやディレクターに分析事例のプレゼンをお願いする(寿司とかお酒も出したりする。)
  • 結果
    • 年々プレゼンスが高まった。フィードバックもらえたり、リリースしやすくなった。

質問

  • Q.事業部制でバラバラの中、一箇所に集める上で、データガバナンスをする上での工夫は?
    • A.事業部側からデータ分析基盤に追加依頼をもらう。定型で依頼内容を容易しておいた。マスキングしないといけない個人情報の有無など。

所感

  • 使ってもらえるようにしたという施策について納得感があった。
    • ツールの利活用推進って内部向けだから簡単なわけもなく。外部ベンダーがフォローアップするような施策をしっかりとやらないと推進できない。システムだけを形だけ導入だけで後は進むということはない!が腑に落ちた。
    • ドキュメント、事業部への入り込み、事例共有会など泥臭くやってて大変さが伝わってきた。

Inuzuka Shintaroさん:「DWHを活用したクックパッド機械学習プロジェクト」

speakerdeck.com

自分が気になったポイント

所感

  • 機械学習で作った特徴データの説明もdmemoで管理するのは良さそう。(ユーザ側で発生したものではないので無意識に区別してたけど、活用するという観点では同じデータだった。)

Kurimuraさん:「アプリデータの分析を楽に効果的に!FirebaseAnalyticsとお友達になると良い3つの理由。(仮)」

speakerdeck.com

自分が気になったポイント

  • FirebaseAnalyticsの紹介
  • FirebaseAnalyticsの活用状況
    • 分析系テーブルが大きくなりにくいように、工夫している
      • 3ヶ月分のDataMartは、1/10を無作為抽出!
    • 2日以上前の後追いログが来るので、遡って更新する必要はある。

質問

  • Q.Firebaseの時間の定義

所感

  • 前半のFirebaseAnalyticsの紹介ページがすごい良い。完全に理解できた!感じ。(注:完全に理解できた!)
  • FirebaseAnalytics、色々と高機能なので、myアプリ作ってみて試してみたい。

Takeno Shunsukeさん:「DWH デザインパターン 〜 テーブル設計編 〜」

speakerdeck.com

内容

  • 分析上で発生するつらみ
  • 分析のためのデザイン
  • Rettyでの事例:BigQuery上の対応
    • 横持ちテーブルで対応
    • イベントログ層やエンティティ層(ディメンジョンテーブル/非正規化テーブル)、PVやセッションなどの指標層(ファクトテーブル)
  • 誰のためのデザイン
    • 分析基盤とは、データ基盤開発者と分析者が関係する
    • レポート分析基盤とは、分析者と意思決定者が関係する

質問

  • Q.テーブルの設計、ディメンジョンとファクトを分ける。なぜこういうデータの持ち方をするのかというメンバー間の相違をどう解消したのか?
    • A.規約にのっかるとこういう便利さがあるというメリットの認識を共有している。

所感

  • 〜テーブル設計編〜とあったので、多分○○編などの続編があると期待。洗替え更新や差分更新などの更新編とか。