と。

Github: https://github.com/8-u8

AdKDD2020に提出された論文とかを読み始めた話

英語が読めなくなって2億年経過した

Twitterミームです。27年しか生きていません。
8月24日にAdKDDが開催され、そこでAcceptされた論文について公開されていました。
PDFで公開されている論文が9本ほどあり、読み進めようと努力しています。
広く見て、Web広告のコンバージョンとその予測や、入札の最適化といった話題が中心で、
それらを達成するために機械学習強化学習などを適用する、という話題が中心でした。
きぬいとはとりわけ強化学習はなんもわからんなので、とりあえず追いつく範囲で読んでみようと思い、
3本の論文と、報告を読みました。
今回はコロナ禍の影響もあり、論文の著者によるスライドの説明がYoutubeに上げられています。いい時代だ。

www.adkdd.org

理解が及んでいない部分も多いので、メモがてら投下しておきます。

0. 選んだ基準

  • 半分は気分。
  • なんとなく論文を読んで分かった順。
    • それ以外も一通り読んでみたいです。

1. Predicting conversions in display advertising based on URL embeddings

超ざっくりした内容

  • オンラインのディスプレイ広告は、購入がリアルタイムで行われる。
    • コストの最適化がすでに自動化されているので、コンバージョンの最大化を狙う。
    • ユーザの広告コンバージョン率を適切に予測したい
  • ユーザがアクセスしたURLの履歴を旨いこと使うことで、コンバージョン率予測の精度を上げたい
    • そのためにはURL情報を数値に置き換える必要がある
    • URLそのものと、その配列に対してEmbeddingを行い、それを二値分類(コンバージョンの有無)。
  • 結果、それなりに精度が向上した。
    • 一番良かったのはトークンまでを含んでEmbeddingを行う形でRNNを実装したモデル。

超ざっくりした感想

  • ユーザのアクセス履歴をURLを使って表現する試みは実用性が高い。
    • Embeddingとか良くわからないのだけど、URLという記号列と、その時系列を数値ベクトル化することで、
      そのユーザのWeb回遊行動を表現し、結果としてWeb広告でのコンバージョン率を精度良く予測できる
      という点は「まあそうだろうな」という感じ。
  • サービスのサイトに限定して、問題をコンバージョン率ではなくCSなどに置き換えても有用ではありそう
  • Neural Networkと言われるともうDeep Learningという感覚になるが、
    このArticleでのNetworkはそこまで深くない。
    • なるほどね、という気持ち。

2. Delayed Feedback Model with Negative Binomial Regression for Multiple Conversions

超ざっくりした内容

  • コンバージョン数を予測したい。
    • 長期のDelayを取る(Delayed Feedback Model: DFM)
      • Delay: クリックからコンバージョンするまでの期間
    • 複数のコンバージョン生起を予測する。
  • コンバージョンしたかどうかの二値分類(ロジスティック回帰)
    • Delayは指数分布に従うと仮定する。
  • コンバージョン「数」を予測する
    • 負の二項回帰(Negative Binomial Regression)
      • (Poisson Regressionだと多分Over-dispersionの問題があるんだと思う)
    • Delayは順序統計量として評価できる
      • クリックから$k$回のコンバージョンまでにかかる期間として表現できる
  • モデル
    • DFMとNB Regressionの組み合わせ
    • コンバージョンを2パターンに分ける
      • $y$: 学習期間において観測されたコンバージョン数
      • $c$: 最終的にそのユーザが行うコンバージョン数
    • この$c$を、観測されている情報からうまいこと予測したい。
  • 結果
    • NBDFMは、キャリブレーション率も低く(≒予測値の補正などがあまりいらない)、
      精度もそこそこ担保できている。

超ざっくりした感想

  • 程度の差はあれ、きぬいとの修論でも近いことをやっていた記憶がある。
    • ここまで精緻に定式化はできていなかったんですがね!!!
  • この機械学習最強の時代においても、GLM(一般化線形モデル)ベースでも、問題設定と適用次第で
    十分実用に足る、というのは素直に嬉しい
  • マーケティング領域だと負の二項回帰は意外と人気。

3. Unbiased Lift-based Bidding System

超ざっくりした内容

  • Web広告における入札戦略のお話
    • 広告主によっては戦略が「最適」でない場合がある
    • 入札において非効率な側面が介在しうる。
      • 別に広告がなくても買うユーザに広告を投げてしまう
      • 広告を見て購買意欲を失ったのにDSP側がペナルティを受けない など
    • また、人によって広告の有無の条件下での行動は異なる
      • それに応じて最適な入札の戦略も変わってくる
  • Lift Based戦略によってこのあたりをうまいことやっていきたい
    • 広告をあてた場合のアウトカム期待値と、そうしなかった場合のアウトカムの期待値の差($\tau(s(a)|\bold{x}_i$)を推定し、重みにする
    • こいつの推定にはいろいろなバイアスが生じうる
      • 逆傾向スコア推定によってバイアスを削る
  • 社のデータで実装してみました。
    • より効率的に入札を行うことができるようになった

      超ざっくりした感想

  • 無理やり読んだので理解できていない部分が多い……
    • Web広告はマス広告と違い、買いたいときに枠を買える。
      • ユーザの行動に応じて入札の是非を選択できる
    • 競合が起きるので、オークション形式で、高い入札者が枠を勝ち取る
    • 効率よく打つには、広告にちゃんと反応してくれるユーザの枠を適切に選びたい
      • そのユーザが広告に接触する(しない)ことで行動を起こすかどうかを予測したい
      • 一方で、単純な予測ではバイアスが生じうる。
      • そのバイアスは入札行動のコストパフォーマンスに大きく影響しうる
      • のでバイアスのない推定・予測を考えました
    • ……ということなのだろうか。
  • 良く見たらCAの論文でした。
    • 広告のA/Bテストとか、因果推論周りを積極的に実装していることで(個人的に)有名
    • 「どれだけ効率化できたのか」が実験の結果から分かるというのは非常に企業らしい
      • 本来かくあるべしで、普通の企業でもこういうことはやっていく必要がありそう