負の二項分布の疫学とマーケティングでの応用の比較

背景

2024年3月から休職をしていて、6月に復帰予定なのだが、リハビリとして統計学に関する記事を頑張って書くなどしたいと思い、テーマを取り上げた。

休職の状況などは以下のnoteに詳しい

note.com

目的

西浦『感染症を読み解く数理』と森岡・今西『確率思考の戦略論』において、負の二項分布を用いたモデル応用について記述されており、相互を参照・比較することで類似点や解釈の拡大を試みる。

1. 定義と準備

この記事で用いる各種関数と確率関数を定義する。

1.1 ガンマ関数

ガンマ関数は、実部が正である複素数 $z \in \mathbb{C}$ について

$\begin{align} \Gamma(z) = \int_0^{\infty}t^{z-1}\exp{\{-t\}} dt \end{align} \tag{1-1}$

で定義される。ガンマ関数は「階乗の一般化」としても知られており、その関係として以下が知られている。これは特に証明を用いずに以降で利用する。

$\begin{align} \Gamma(n) = (n-1)! \end{align} \tag{1-2}$

1.2 ポアソン分布

パラメータ $\lambda$ のポアソン分布は以下のように定義される。

$\begin{align} Po(x|\lambda) = \frac{\lambda^x}{x!}\exp(-\lambda) \end{align} \tag{1-3}$

ポアソン分布のよくある解釈は「所与の期間中に平均で $\lambda$ 回発生すると分かっている事象が、 $x$ 回発生する確率」が知られている。

1.3 ガンマ分布

パラメータ $p$ 、 $r$ のガンマ分布は以下のように定義される。

$\begin{align} G(X=x|p,r)=\frac{1}{\Gamma(r)p^r}x^{r-1}\exp{(-\frac{x}{p})}, \rm{for} \, x>0 \end{align} \tag{1-4}$

1.4 負の二項分布

負の二項分布の確率質量関数は、成功確率 $p$ で、 $r$ 回の成功を得るまでの失敗回数をモデル化するという解釈をすることが多い。失敗回数 $x$ を確率変数としたとき、負の二項分布は

$\begin{align} NegBin(X=x|p,r) = \binom{x+r-1}{x}p^r(1-p)^x \end{align} \tag{1-5}$

で定義される。

2 応用

2.1 負の二項分布のガンマ関数による表現

パラメータ $p$ 、 $r$ と確率変数 $x$ を勝手に複素数に拡張することを受け入れて、ガンマ関数と階乗の性質を用いると、負の二項分布の確率質量関数を表現できる。

$\begin{align} NegBin(X=x|p, r) = \frac{\Gamma(x+r)}{\Gamma(x-1)\Gamma(r)}p^r(1-p)^x \end{align} \tag{2-1}$

2.2 ポアソン分布とガンマ分布の混合

これらの性質から、ポアソン分布とガンマ分布の混合分布として負の二項分布を導出することができる。具体的には、ガンマ分布のパラメータを $p/(1-p)$ 、 $r$ と置いて、 $\lambda$ で周辺化することで得られる*1。細かな式展開はめんどくさくてしていないが、参考文献にあるWikipediaの証明を元に記載した。

$\begin{align} Pr(X=x | p,r) &= \int_{\lambda}Po(x|\lambda)G(\lambda|\frac{p}{1-p},r)d\lambda \\\ &= \int_{\lambda} \frac{\lambda^x}{x!}\exp(-\lambda) \frac{(\frac{p}{1-p})^r}{\Gamma(r)}\lambda^{r-1}\exp{(-(\frac{p}{1-p})\lambda)} d\lambda \\\ &=(省略) \\\ &= \frac{\Gamma(x+r)}{\Gamma(x-1)\Gamma(r)}p^r(1-p)^{x} \end{align} \tag{2-2}$

ポアソン分布とガンマ分布の混合を意識して、この分布関数を「ポアソンｰガンマ分布」と呼ぶこともある。

こうして導出された負の二項分布の解釈は基本的にはポアソン分布の解釈に近い。すなわち、所与の期間中に事象が何回発生したのかを表現する。その際、ポアソン分布のパラメータ $\lambda$ がガンマ分布に従って確率的に変動することを仮定している。

2.3 実務的な応用に関する紹介

ポアソン分布とガンマ分布の混合が、負の二項分布という確率モデルを構成できるという事実は、実務上の応用としても一定の知名度を持つ書籍で紹介されている。

一つは西浦(2022)におけるMERSの感染伝播リスクの評価で、負の二項分布による二次感染者数のモデル化とその計算による「新規感染者が1人加わったときの総感染者数」や、基本再生産数の推定に応用されている

もう一つは森岡・今西(2018)で紹介される「NBDモデル」である。これはマーケティングにおける消費者全体の商品購入(あるいはサービス利用)回数を負の二項分布でモデル化している。ある期間の各消費者の購入行動は独自にランダムに発生し、商品カテゴリーごとに一定の「プレファレンス(パラメータ)」を持っていることを前提として、市場への商品・サービスの浸透率が全体の購入回数の平均や売上にどの程度寄与するかをパラメータの解釈を通して実現している。

2.3.1 西浦（2022）での応用

西浦においては、MERSの感染拡大モデル（5章）と、大規模流行の数理（6章）で、感染者1人あたりが生み出す二次感染者の数を負の二項分布でモデル化している。5章での設定を述べると、感染者1人が伝染する感染者の数(二次感染者)を以下でモデル化している。ただし、2.2で示した要素との対比を明示するため、一部著書の数式と同値になるような変形を行って示す。

$\begin{align} Pr(X=x) = \frac{\Gamma{(k+x)}}{x!\Gamma{(k)}}(\frac{R_0}{R_0+k})^{x}(\frac{k}{R_0+k})^{k} \end{align} \tag{2-3}$

上記の導出は、感染者個々が生み出す二次感染者の数がポアソン分布 $Po(x_i|\lambda_i)$ に従い、そのパラメータがガンマ分布 $G(\lambda_i|\frac{k}{R_0},k)$ に従うと仮定することで得られる。上記で導出した負の二項分布と対応付けると、具体的なパラメータ $p$ は、基本再生産数 $R_0$ と分散パラメータ $k$ を用いて

$\begin{align} 1-p&=\frac{R_0}{R_0+k}, \\\ p&=\frac{k}{R_0+k} \end{align}$

と与えている。この定式化から、基本再生産数と、個々人の二次感染者のばらつきによって、二次感染者数全体の数に関する確率的な評価値が得られる。

2.3.2森岡・今西(2018)の定式化

森岡・今西においては、所与の期間で、消費者1人あたりがある商品を購入する回数をモデル化する。ここでも書籍にある数式の同値の変形を行い、上述の分布式に対応する形で表現する。

具体的には、購入者1人あたりの商品購入回数がポアソン分布、購入者個々の持つポアソン分布のパラメータがガンマ分布 $G(\lambda_i, \frac{K}{M}, K)$ に従うと仮定すると、以下を得られる。

$\begin{align} Pr(X=x) = \frac{\Gamma(x+K)}{\Gamma(x+1)\Gamma(K)}(\frac{M}{M+K})^{x}(\frac{K}{M+K})^{K} \end{align} \tag{2-4}$

このとき購入確率は $M$ を平均購入回数、 $K$ をパラメータとして、

$\begin{align} 1-p&=\frac{M}{M+K},\\\ p&=\frac{K}{M+K} \end{align}$

と表現している。

2.4 別領域の定式化を通じて理解が深まる点

森岡・今西(2018)は、あくまでビジネスマンやマーケターに向けた書籍であるため、数学的な補足は煩雑であり、扱う文字がそれぞれ何を意味しているのかがわかりにくい。一方で西浦(2022)との対応関係を確認すると、(2-2)で示したパラメータ $p$ の定式化は類似しており、NBDモデルの解釈を助けてくれることが期待できる。

たとえばNBDモデルにおける $M$ は、二次感染者数の分布における基本再生産数 $R_0$ に対応し、基本再生産数は「1人の感染者が起こす二次感染の総数」として以下のように定義される

$\begin{align} R_0 = \frac{\beta}{\gamma}N \end{align} \tag{2-5}$

ここで、 $\beta$ は伝達率、 $\gamma$ は治癒率、 $N$ は全人口である*2。 NBDモデルにおける $M$ については、別のパラメータ $\theta$ 、 $n$ 、 $N$ を使って、以下のように定義されている。

$\begin{align} M = \frac{\theta}{n}N \end{align} \tag{2-6}$

森岡・今西は「自社ブランドをすべての消費者が選択した延べ回数を、消費者の頭数で割ったもの」と述べている。 (2-5)と(2-6)とを比べると、その類似性が高いことがわかる。すなわち、 $\theta$ は「自社ブランド選択率」と解釈することで伝達率に対応し、 $n$ は消費者の頭数として治癒率に対応する。 $N$ は同じ文字であるが、消費者の商品カテゴリ全体の購入回数と解釈することができそうだ。

$K$ は $k$ にそのまま対応し、同様にばらつきを与えるパラメータとして解釈できる*3。 NBDモデルにおいては $K=\theta/d$ という形で定義されている。ここで $d$ は「選ばれた事自体が次の選ばれる確率に正の影響を与える要素」として解釈が記載されているが、具体的に何なのかはわからない*4。ただし、 $\theta$ が用いられていることから、「 $M$ が $K$ を決める」という著者らの説明は一定理解ができる。

NBDモデルにパネルデータを用いる前提であれば、 $M$ の値を推定し、パネルデータから $n$ 、 $N$ を算出して、 $\theta$ を算出できる。これはすなわちその商品カテゴリに置いて自社ブランドを選ぶ確率であるから、これを引き上げることで売上が上がる、というのは、マーケティングおいては自然な解釈だろう。

3. おわりに

この記事で述べたいことは、疫学とマーケティングという一見して距離のある領域で、負の二項分布を用いた現象の確率モデル化の事例が取り上げられていて面白いね、ということに尽きる。

負の二項分布モデルは応用の幅が広く、比較的様々なビジネスモデルに対してある程度の妥当性をもって当てはめやすそうに思われる*5。

なお、負の二項分布が、ポアソン分布とガンマ分布の混合によって得られるという事実は、実際統計検定1級の問題にも出題された事がある程度には面白い問題であるし、ポアソン回帰をしたい計数データの過大分散に対処する回帰モデルとして、負の二項回帰が知られている。

最後に愚痴っぽくなるが、この記事を書くにあたって、改めて森岡・今西(2018)を読むと、特にNBDモデルやNBD-デリシュレーモデルを理解しようとすると、やや見通しが悪い事がわかった。これには大きく幾つかの要因があると思われる：

用語の定義が筆者と読者との間で明確に合意されていない(プレファレンス、浸透率など)
巻末解説にある数学的説明が「玉を取り出す」という試行を例に挙げており、マーケティング問題との対応関係が明確でない
ブランド、カテゴリ、商品の意味する粒度について、読者と合意がとれているか不明

実をいうとこうした傾向は森岡の執筆した章(1～4章、8章)に顕著で、今西(5～7章)はある程度読みやすい。様々なリサーチ手法やそこから得たデータのモデル化とビジネス上の位置づけについて、かなりリアルな記述が見通しよく記述されている。

この記事を書くに当たってはZennに同様の懸念が念頭にある記事があった。参考文献としてリンクを置いておく。

また、上記の数式をすっ飛ばしてNBDモデルをサクッと試したい場合は、以下にExcelが公開されているようだ。

note.com

リハビリにしては、結構調べて書けたのだろうか。誤りは多くあると思うので、指摘は優しくしていただけると嬉しい*6

参考文献

*1: $\lambda$ は正の実数なので、積分範囲は $[0, \infty$ ]でよい、ハズ。

*2:これらに関する他の指標との連関については書籍を参照してほしい

*3:森岡・今西では $K$ を分布の形を決めるパラメータとして紹介している

*4:いずれにしてもマーケティングにおいてデータとして測定が難しそうであるので、好意度やNPSなどの指標で代替するか、仮定をおくのだと思う

*5:政治的な意味では数式が「それっぽく複雑」で、推定結果の解釈の自由度も高いので、偉い人にも説明や説得がしやすい、ということはあり得るかもしれない

*6:はてなブログの数式構成がよくわからなくなっていて、NotionからMarkdownでエクスポートしたものをそのまま反映できないのすごく面倒くさいので、これを解決する情報も適宜募集中です

と。

統計学は趣味、マーケティングは義務。