と。

Github: https://github.com/8-u8

Lifetime Value(LTV)を予測する(1)

またシリーズもんか

マーケティングは正直苦手なんですが書かないことには苦手も得意もないので書くことにします。
今回はLife Time Valueという概念とその統計的な推測についてのモデルについてガバガバと書こうと思います。

というのも、最近は以下のような論文などを読みながら「そういう時代になったのね〜〜」とか申し上げています。

https://www.jstage.jst.go.jp/article/pjsai/JSAI2019/0/JSAI2019_2Q1J202/_pdf/-char/jawww.jstage.jst.go.jp

https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4K2GS303/_pdf/-char/jawww.jstage.jst.go.jp

どちらも、顧客のLTVを精度良く予測しようというモチベーションのもとでのアプローチで、
前者は共変量を伴う形、後者は購買パターンを「トピック」として解釈して、それ別にパラメータに重みをつけることで、
より個別のLTVを予測しやすくしたアプローチです。
LTV予測って相応に需要があるのに、実際のところ理屈も王道も歩いたことないなと思ったので、歩こうと思います。

モチベーション

モノ・サービスを提供し、その対価として利益を得るビジネスモデルを持つ企業では、
「その人が生涯で自社製品をどの程度購入/利用するか」という観点をもって、
いわば「良好な関係を築きたい」という意図を持ちます。
その企業のモノ・サービスを利用する人を「顧客」といいますが、この顧客をどうにかしてつなぎ留めたいのです。
この意図には経験則に近い形での根拠があり、ReichheldとSchefterの報告などが有名です。

Ten years ago, Bain & Company, working with Earl Sasser of Harvard Business School, analyzed the costs and revenues derived from serving customers over their entire purchasing life cycle, and we published the results in this magazine. (See “Zero Defections: Quality Comes to Services” in the September–October 1990 issue.) We showed that in industry after industry, the high cost of acquiring customers renders many customer relationships unprofitable during their early years. Only in later years, when the cost of serving loyal customers falls and the volume of their purchases rises, do relationships generate big returns. The bottom line: increasing customer retention rates by 5% increases profits by 25% to 95%. Those numbers startled many executives, and the article set off a rush to craft retention strategies, many of which continue to pay large dividends.

顧客の5%にモノ・サービスを利用し続けてもらうだけで、利益が25%〜95%向上するという結果があるようです。これを「5:25の法則」と呼んだりします*1
これ以外にも(というかこれより有名な話ですが)、「新規顧客の獲得コストは、既存顧客の維持コストの5倍かかる」という経験則などがあります。
つまるところ「法則に妥当性があれば、『顧客を維持する』ということは効率的に利益を得るためには合理的な選択だ」ということで、そこから「維持しやすい顧客を探したい」というモチベーションに繋がります。
この時の評価指標に"Life Time Value"(顧客生涯価値; LTV)という概念が生まれたわけです。

LTVの測定可能な定義

"Life Time Value"は新規顧客の獲得と既存顧客の維持のコストバランスにある法則性があることを前提にして評価されていますが、ある程度測定可能な形で指標を定義することが可能な点において、データ分析との相性は良い指標でしょう。
これは完全に偏見ですが、多くのマーケティング指標は、それを追いかける事に意味があり、
統計的なモデルによって構造を明らかにしたり、予測モデルによって将来の変化を予測するようなタスクとは相性が悪い場面が多い気もします*2
マーケティングにおける多くのタスクは、場合によってはそれだけでも十分に機能しうることもありますし、それが悪いとは言わないんですが。
LTVでよく使われる指標には以下の3つがあります。

  • Recency(直近の購買からの経過日数)
  • Frequency(購買の回数)
  • Monetary(購買金額)

頭文字をとってRFM、とか言ったりします。
Eコマースサイトのログであれば、上記の指標は概ね集計によって得られそうです*3。 上記はECサイトなどでの典型的な指標ですが、R/F/Mをそれぞれ直近ログインの経過日数、サービス利用回数、利用あたり平均課金額、などと解釈することで、サービス・アプリなどにも転用は可能でしょう。
LTVは概ね  R×F×M という演算によって定義されることが多いです。
単純にこの掛け算の結果を目的変数にした線形回帰分析を行う、というのもシンプルではありますが、
これを統計的に評価する場合、生成過程の異なる確率変数の合成になるので、それを1つの確率分布から生成されるという前提をおいて、パラメータ推定を行うことは、気持ちが悪いなあと思います。思いますよね?

LTVの生成分布のパラメータ推定

つまり「LTVの確率分布は3つの確率分布を合成することで得られる」と考え、それぞれの分布のパラメータを同時に推定したくなるわけです。なりたくないですか?僕はなりたいです。
そのように考えた人はやはりいるわけです。Schmittlein et. al(1987)はPareto/NBDモデルとして、R,F,Mに対してそれぞれ確率分布を仮定し、それらのパラメータの推定によって、LTVの予測を試みたのでした。

上記は有料なので、その後Pareto/NBDモデルを改良したBG/NBDモデルを提唱したFeder et. al(2005b)での記述を元にすると、概ね以下の感じ。

  • ある期間  t での購買回数はパラメータ \lambda tポアソン分布に従う。
    •  \lambdaは人によって異なる。具体的には形状パラメータ rと尺度パラメータ \alphaのガンマ分布( Gamma(r, \alpha))に従う。
  • 個人は観測されない、長さ \tauの「生存期間」を持つ。個人がアクティブでなくなるまでの時間は、離脱率 \muの指数分布に従う。
    • もちろんこの \muも人によって違い、Gamma(s, \beta)に従う。
  •  \mu \lambdaは個人によって独立。

ParetoもNBDも出てこないんですが……と思ったら昔の自分がなんか書いてましたね

socinuit.hatenablog.com

NBDは別名「負の二項分布」なのですが、ポアソン分布のパラメータがガンマ分布に従う場合、
負の二項分布に確率的に近似します。
また、指数分布の離脱率がガンマ分布に従う場合、パレート分布に近似します
ベイズ推論において、ポアソン分布の共役事前分布はガンマ分布ですし、指数分布の共役事前分布も、ガンマ分布です。
つまるところ「計算がしやすい」関係性の確率分布で、R/F/Mを定義できる……ん?Mは?
MonetaryについてはFeder et. al(2005a)がPareto/NBDにMonetaryを追加したモデルを提案していて、これはガンマ分布に従うと仮定しています。もちろん(ry

ともあれ、とにもかくにも、上を同時に推定すればよい*4のですが、Feder et.al(2005a)は「時間を離散的にみて、 j期後に離脱する確率 pをもって評価すればよさそうじゃね?」という提案をしています。これは幾何分布に従います。もちろん pは人によって違うので、これをベータ分布 Beta(\alpha,\beta)に従うように設定しました*5

実装は?

Rには最高に便利なライブラリがあります。BTYDライブラリ。なんの略?"Buy Till You Die"。ヤバイ。 ここでは上記のPareto/NBDもBG/NBDも実装されており、Monetaryによるキャリブレーションもやってくれちゃいます。実装は書きたかったんですが、まだ使いこなせてないのでまた次回。

*1:あくまで経験則や特定の商材で見つかった規則性ですが、ある程度広く当てはまりうるので、広くマーケティング領域ではこれを根拠にしがちです。

*2:あるいは、それらのモデルの結果から事後的に計算したり、シミュレートしたりすることによって得られることもあるかも知れません

*3:店頭での購買に関する分析だと、市場調査会社がデータを保有していたり、あるいはポイントカードによって追跡していたりするでしょう

*4:MonetaryについてはBG/NBDのキャリブレーション(補正)に用いられるようです

*5:幾何分布とベータ分布を混合するとベータ幾何分布になるようですが、謎です