英語が読めなくなって2億年経過した

Twitter ミームです。27年しか生きていません。
8月24日にAdKDDが開催され、そこでAcceptされた論文について公開されていました。
PDFで公開されている論文が9本ほどあり、読み進めようと努力しています。
広く見て、Web広告のコンバージョンとその予測や、入札の最適化といった話題が中心で、
それらを達成するために機械学習、強化学習などを適用する、という話題が中心でした。
きぬいとはとりわけ強化学習はなんもわからんなので、とりあえず追いつく範囲で読んでみようと思い、
3本の論文と、報告を読みました。
今回はコロナ禍の影響もあり、論文の著者によるスライドの説明がYoutubeに上げられています。いい時代だ。

www.adkdd.org

理解が及んでいない部分も多いので、メモがてら投下しておきます。

0. 選んだ基準

半分は気分。
なんとなく論文を読んで分かった順。
- それ以外も一通り読んでみたいです。

1. Predicting conversions in display advertising based on URL embeddings

超ざっくりした内容

オンラインのディスプレイ広告は、購入がリアルタイムで行われる。
- コストの最適化がすでに自動化されているので、コンバージョンの最大化を狙う。
- ユーザの広告コンバージョン率を適切に予測したい
ユーザがアクセスしたURLの履歴を旨いこと使うことで、コンバージョン率予測の精度を上げたい
- そのためにはURL情報を数値に置き換える必要がある
- URLそのものと、その配列に対してEmbeddingを行い、それを二値分類(コンバージョンの有無)。
結果、それなりに精度が向上した。
- 一番良かったのはトークンまでを含んでEmbeddingを行う形でRNNを実装したモデル。

超ざっくりした感想

ユーザのアクセス履歴をURLを使って表現する試みは実用性が高い。
- Embeddingとか良くわからないのだけど、URLという記号列と、その時系列を数値ベクトル化することで、
  そのユーザのWeb回遊行動を表現し、結果としてWeb広告でのコンバージョン率を精度良く予測できる
  という点は「まあそうだろうな」という感じ。
サービスのサイトに限定して、問題をコンバージョン率ではなくCSなどに置き換えても有用ではありそう
Neural Networkと言われるともうDeep Learningという感覚になるが、
このArticleでのNetworkはそこまで深くない。
- なるほどね、という気持ち。

2. Delayed Feedback Model with Negative Binomial Regression for Multiple Conversions

超ざっくりした内容

コンバージョン数を予測したい。
- 長期のDelayを取る(Delayed Feedback Model: DFM)
  - Delay: クリックからコンバージョンするまでの期間
- 複数のコンバージョン生起を予測する。
コンバージョンしたかどうかの二値分類(ロジスティック回帰)
- Delayは指数分布に従うと仮定する。
コンバージョン「数」を予測する
- 負の二項回帰(Negative Binomial Regression)
  - (Poisson Regressionだと多分Over-dispersionの問題があるんだと思う)
- Delayは順序統計量として評価できる
  - クリックから$k$回のコンバージョンまでにかかる期間として表現できる
モデル
- DFMとNB Regressionの組み合わせ
- コンバージョンを2パターンに分ける
  - $y$: 学習期間において観測されたコンバージョン数
  - $c$: 最終的にそのユーザが行うコンバージョン数
- この$c$を、観測されている情報からうまいこと予測したい。
結果
- NBDFMは、キャリブレーション率も低く(≒予測値の補正などがあまりいらない)、
  精度もそこそこ担保できている。

超ざっくりした感想

程度の差はあれ、きぬいとの修論でも近いことをやっていた記憶がある。
- ここまで精緻に定式化はできていなかったんですがね！！！
この機械学習最強の時代においても、GLM(一般化線形モデル)ベースでも、問題設定と適用次第で
十分実用に足る、というのは素直に嬉しい
マーケティング領域だと負の二項回帰は意外と人気。
- 計数データに対するモデリングでは、ポアソン分布じゃ満足できない皆さんに人気。

3. Unbiased Lift-based Bidding System

超ざっくりした内容

Web広告における入札戦略のお話
- 広告主によっては戦略が「最適」でない場合がある
- 入札において非効率な側面が介在しうる。
  - 別に広告がなくても買うユーザに広告を投げてしまう
  - 広告を見て購買意欲を失ったのにDSP側がペナルティを受けない　など
- また、人によって広告の有無の条件下での行動は異なる
  - それに応じて最適な入札の戦略も変わってくる
Lift Based戦略によってこのあたりをうまいことやっていきたい
- 広告をあてた場合のアウトカム期待値と、そうしなかった場合のアウトカムの期待値の差($\tau(s(a)|\bold{x}_i$)を推定し、重みにする
- こいつの推定にはいろいろなバイアスが生じうる
  - 逆傾向スコア推定によってバイアスを削る
社のデータで実装してみました。
- より効率的に入札を行うことができるようになった
  超ざっくりした感想
無理やり読んだので理解できていない部分が多い……
- Web広告はマス広告と違い、買いたいときに枠を買える。
  - ユーザの行動に応じて入札の是非を選択できる
- 競合が起きるので、オークション形式で、高い入札者が枠を勝ち取る
- 効率よく打つには、広告にちゃんと反応してくれるユーザの枠を適切に選びたい
  - そのユーザが広告に接触する(しない)ことで行動を起こすかどうかを予測したい
  - 一方で、単純な予測ではバイアスが生じうる。
  - そのバイアスは入札行動のコストパフォーマンスに大きく影響しうる
  - のでバイアスのない推定・予測を考えました
- ……ということなのだろうか。
良く見たらCAの論文でした。
- 広告のA/Bテストとか、因果推論周りを積極的に実装していることで(個人的に)有名
- 「どれだけ効率化できたのか」が実験の結果から分かるというのは非常に企業らしい
  - 本来かくあるべしで、普通の企業でもこういうことはやっていく必要がありそう

と。

Github: https://github.com/8-u8

AdKDD2020に提出された論文とかを読み始めた話

英語が読めなくなって2億年経過した

0. 選んだ基準

1. Predicting conversions in display advertising based on URL embeddings

超ざっくりした内容

超ざっくりした感想

2. Delayed Feedback Model with Negative Binomial Regression for Multiple Conversions

超ざっくりした内容

超ざっくりした感想

3. Unbiased Lift-based Bidding System

超ざっくりした内容

超ざっくりした感想