AdKDD2020に提出された論文とかを読み始めた話
英語が読めなくなって2億年経過した
Twitterミームです。27年しか生きていません。
8月24日にAdKDDが開催され、そこでAcceptされた論文について公開されていました。
PDFで公開されている論文が9本ほどあり、読み進めようと努力しています。
広く見て、Web広告のコンバージョンとその予測や、入札の最適化といった話題が中心で、
それらを達成するために機械学習、強化学習などを適用する、という話題が中心でした。
きぬいとはとりわけ強化学習はなんもわからんなので、とりあえず追いつく範囲で読んでみようと思い、
3本の論文と、報告を読みました。
今回はコロナ禍の影響もあり、論文の著者によるスライドの説明がYoutubeに上げられています。いい時代だ。
理解が及んでいない部分も多いので、メモがてら投下しておきます。
0. 選んだ基準
- 半分は気分。
- なんとなく論文を読んで分かった順。
- それ以外も一通り読んでみたいです。
1. Predicting conversions in display advertising based on URL embeddings
超ざっくりした内容
- オンラインのディスプレイ広告は、購入がリアルタイムで行われる。
- コストの最適化がすでに自動化されているので、コンバージョンの最大化を狙う。
- ユーザの広告コンバージョン率を適切に予測したい
- ユーザがアクセスしたURLの履歴を旨いこと使うことで、コンバージョン率予測の精度を上げたい
- そのためにはURL情報を数値に置き換える必要がある
- URLそのものと、その配列に対してEmbeddingを行い、それを二値分類(コンバージョンの有無)。
- 結果、それなりに精度が向上した。
- 一番良かったのはトークンまでを含んでEmbeddingを行う形でRNNを実装したモデル。
超ざっくりした感想
- ユーザのアクセス履歴をURLを使って表現する試みは実用性が高い。
- Embeddingとか良くわからないのだけど、URLという記号列と、その時系列を数値ベクトル化することで、
そのユーザのWeb回遊行動を表現し、結果としてWeb広告でのコンバージョン率を精度良く予測できる
という点は「まあそうだろうな」という感じ。
- Embeddingとか良くわからないのだけど、URLという記号列と、その時系列を数値ベクトル化することで、
- サービスのサイトに限定して、問題をコンバージョン率ではなくCSなどに置き換えても有用ではありそう
- Neural Networkと言われるともうDeep Learningという感覚になるが、
このArticleでのNetworkはそこまで深くない。- なるほどね、という気持ち。
2. Delayed Feedback Model with Negative Binomial Regression for Multiple Conversions
超ざっくりした内容
- コンバージョン数を予測したい。
- 長期のDelayを取る(Delayed Feedback Model: DFM)
- Delay: クリックからコンバージョンするまでの期間
- 複数のコンバージョン生起を予測する。
- 長期のDelayを取る(Delayed Feedback Model: DFM)
- コンバージョンしたかどうかの二値分類(ロジスティック回帰)
- Delayは指数分布に従うと仮定する。
- コンバージョン「数」を予測する
- 負の二項回帰(Negative Binomial Regression)
- (Poisson Regressionだと多分Over-dispersionの問題があるんだと思う)
- Delayは順序統計量として評価できる
- クリックから$k$回のコンバージョンまでにかかる期間として表現できる
- 負の二項回帰(Negative Binomial Regression)
- モデル
- DFMとNB Regressionの組み合わせ
- コンバージョンを2パターンに分ける
- $y$: 学習期間において観測されたコンバージョン数
- $c$: 最終的にそのユーザが行うコンバージョン数
- この$c$を、観測されている情報からうまいこと予測したい。
- 結果
- NBDFMは、キャリブレーション率も低く(≒予測値の補正などがあまりいらない)、
精度もそこそこ担保できている。
- NBDFMは、キャリブレーション率も低く(≒予測値の補正などがあまりいらない)、
超ざっくりした感想
- 程度の差はあれ、きぬいとの修論でも近いことをやっていた記憶がある。
- ここまで精緻に定式化はできていなかったんですがね!!!
- この機械学習最強の時代においても、GLM(一般化線形モデル)ベースでも、問題設定と適用次第で
十分実用に足る、というのは素直に嬉しい - マーケティング領域だと負の二項回帰は意外と人気。
3. Unbiased Lift-based Bidding System
超ざっくりした内容
- Web広告における入札戦略のお話
- 広告主によっては戦略が「最適」でない場合がある
- 入札において非効率な側面が介在しうる。
- 別に広告がなくても買うユーザに広告を投げてしまう
- 広告を見て購買意欲を失ったのにDSP側がペナルティを受けない など
- また、人によって広告の有無の条件下での行動は異なる
- それに応じて最適な入札の戦略も変わってくる
- Lift Based戦略によってこのあたりをうまいことやっていきたい
- 広告をあてた場合のアウトカム期待値と、そうしなかった場合のアウトカムの期待値の差($\tau(s(a)|\bold{x}_i$)を推定し、重みにする
- こいつの推定にはいろいろなバイアスが生じうる
- 逆傾向スコア推定によってバイアスを削る
- 社のデータで実装してみました。
- より効率的に入札を行うことができるようになった
超ざっくりした感想
- より効率的に入札を行うことができるようになった
- 無理やり読んだので理解できていない部分が多い……
- Web広告はマス広告と違い、買いたいときに枠を買える。
- ユーザの行動に応じて入札の是非を選択できる
- 競合が起きるので、オークション形式で、高い入札者が枠を勝ち取る
- 効率よく打つには、広告にちゃんと反応してくれるユーザの枠を適切に選びたい
- そのユーザが広告に接触する(しない)ことで行動を起こすかどうかを予測したい
- 一方で、単純な予測ではバイアスが生じうる。
- そのバイアスは入札行動のコストパフォーマンスに大きく影響しうる
- のでバイアスのない推定・予測を考えました
- ……ということなのだろうか。
- Web広告はマス広告と違い、買いたいときに枠を買える。
- 良く見たらCAの論文でした。
- 広告のA/Bテストとか、因果推論周りを積極的に実装していることで(個人的に)有名
- 「どれだけ効率化できたのか」が実験の結果から分かるというのは非常に企業らしい
- 本来かくあるべしで、普通の企業でもこういうことはやっていく必要がありそう