回帰係数の解釈のいろいろ

この記事は

統計・機械学習Advent Calendar9日目の記事です。

お久しぶりです

もうブログを書かないほうが多くなってしまったが1年に1回は書きたい……。
今回は線形回帰モデルのパラメータ推定値に対する解釈のお話を書きます。

免責事項

数式を入れているがたまにうまく表示されない
- 更新するとたまにうまく表示される。なんか直したい。
そんなに厳密な話は書いていない
ここ1年仕事で回帰分析について考えて思ったことが書いてある
網羅的ではない
要は細かいことは許してほしい

線形重回帰の基本構造

回帰係数の解釈をする前に、前提として重回帰モデルの基本的な構造を考えます。

共通する基本構造

観測 $i$ に関する目的変数を $y_i$ 、 $p$ 個の説明変数を $x_{ip}$ とおくと、重回帰モデルのモデル式は以下のように設定できます。

$\begin{equation} y_i = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} +\dots+ \beta_px_{ip} + \epsilon_i \end{equation}$

ここで、 $\beta_0$ は切片、 $\beta_p$ は各説明変数の回帰係数、 $\epsilon_i$ は誤差項です。
このモデル式で得られる回帰係数の推定値が統計的に望ましい性質を持つための条件などについても、数理的に重要ではありますが、今回詳細を省きます。
モデル式(1)はR言語のlm関数などで実施されるような、最もシンプルな形の回帰式で、解釈も比較的容易です。
反面、一般化線形モデルなど、目的変数の性質に応じてモデルを複雑にしていくと、モデルの解釈もそれに応じて難しくなっていきます。

一般化線形モデルのモデル式(ロジスティック回帰を例に)

ここでは二項ロジスティック回帰を例に、計量経済学でよく見られる潜在変数モデルの表現を使って整理します。
リンク関数を用いる表現については記載しませんが、潜在変数モデルとしての表現と等価であることが示せます。

潜在変数モデルによるロジスティック回帰の表現では、「観測された目的変数 $y$ は潜在的に連続変数であるが、観測できていない『本来の目的変数』 $y^*$ が存在する」という仮定のもと、観測されている目的変数 $y_i$ のメカニズムとして以下のように記述します。

$\begin{equation} y_i = \left \{ \begin{matrix} 1\; \rm{if}\; y^*_i + \epsilon_i \geq 0 \;\\ 0\; \rm{if}\; y^*_i + \epsilon_i < 0\\ \end{matrix} \right . \end{equation}$

$\epsilon_i$ は誤差項で、この誤差項が標準ロジスティック分布

$\begin{align} \Lambda(x) = \frac{\exp{(x)}}{1 + \exp{(x)}} \end{align}$

に従うことを仮定します。この $y_i^*$ について

$\begin{equation} y^*_i = \beta_0 + x_i^T\beta \end{equation}$

と定式化し、パラメータを推定することが、ロジスティック回帰モデルとなります。

なお、ポアソン回帰など「カウントデータとして観測され、その背景に連続変数を仮定しなくて良い」場合は、計量経済学の領域でもリンク関数を考慮したモデリングがなされるようですが、今回はすっ飛ばします。

回帰モデルを解釈する

回帰モデルを解釈する場合、実務上は大きく「目的変数に対する説明変数群それぞれの貢献度を知る」ことと「特定の変数が目的変数に与える影響を知ること」の2パターン存在します。前者はマーケティング領域で「どのプロモーション施策がどれだけ売上に寄与したのか」を評価する場面で注目されます。後者は統計的因果推論とも関係しますが、目的変数と説明変数の間に因果関係を仮定したり、因果関係を説明できるようなデータ測定を行ったりした上で回帰分析を行い、回帰係数を「因果関係を前提とした場合の影響度の強さ」として解釈するパターンです。

共通する回帰係数の解釈

2パターンの解釈に入る前に、通常の回帰モデルとロジスティック回帰モデルなどの一般化線形モデルにおける回帰係数の解釈には注意が必要な場面があります。具体的には、下表のように、観測された目的変数の生成過程に置く分布の仮定次第で、解釈の仕方が変わります。*1

モデル	目的変数	回帰係数 $\beta$ の解釈
OLS・一般線形モデル	連続値	説明変数 $x$ が1単位増加すると、目的変数 $y$ は $\beta$ 単位増加する
ロジスティック回帰モデル	2値(潜在変数)	説明変数 $x$ が1単位増加すると、 $y$ のオッズが平均して $\exp(\beta)$ 倍になる
ポアソン回帰モデル	計数値	説明変数 $x$ が1単位増加すると、 $y$ の増加個数が $\exp(\beta)$ 倍になる

これは後述の解釈パターンに共通した解釈上の注意になり、回帰係数が有意であるかどうか以上の情報を解釈しに行く場合には注意が必要です。

「目的変数に対する説明変数の貢献度としての評価」として解釈する

以下はダハナ・勝又(2023)より引用した牛乳の売上データの概要です*2。

項目	項目概要
Period	データが観測された期間
Sales	牛乳の日別の売上
Price	牛乳の価格
Display	特別陳列の実施の有無を表すダミー変数
Feature	チラシの配布の有無を表すダミー変数
DisFeat	特別陳列とチラシが同時に行われたかどうかのダミー変数

ダハナ・勝又(2023)では、これを使って、以下の線形回帰モデルを推定します。

$\begin{align} Sales_i &= \beta_0 + \beta_1Price + \epsilon_i, \\\ Sales_i &= \beta_0 + \beta_1Price + \beta_2Display + \beta_3Feature + \epsilon_i, \\\ Sales_i &= \beta_0 + \beta_1Price + \beta_2Display + \beta_3Feature + \beta_3DisFeat+ \epsilon_i \end{align}$

これらのモデル式の結果の解釈から、3つめのモデル式の結果を以下のように解釈しています

このモデルの推定結果を見ると、価格の係数の推定値は-154.688になっています。 (中略)特別陳列の効果も同様に有意に出ており、特別陳列を実施することによって売上げが10,660円程度増えるという結果になっています。チラシの効果も正で有意になっています。

この解釈は「牛乳の売上は、価格、特別陳列、チラシによって説明される」というマーケティング上の仮定を線形回帰モデルで表現し、それぞれの要素が売上にどの程度貢献しているかという問いに答えていると言えるでしょう。

別の例で言えば、顧客に商品の購入を促すような広告、あるいは顧客施策において何を訴求することが望ましいかを考えるときにも、この解釈をもとにした線形回帰モデルを考えることができます。

具体的には、消費者個人が商品を購入したかどうかが分かる場合は購入金額や購入個数、わからない場合はアンケートなどを通した「購入意向」を目的変数に、ブランドの認知や好意度、商品イメージなどを説明変数にしたモデルを推定し、施策における訴求ポイントを明らかにする、というイメージです。

こうした線形回帰モデルの解釈は非常にシンプルであり、実務上説明もしやすいことからよく用いられる印象です。

「因果的連関性の評価」として解釈する

「因果的連関性」とあえて冗長な表現にしているのは、統計学を学んだ人であれば必ず戒められる「相関と因果は違う」「統計学で因果を語るのはご法度」という経験則への配慮でもあります。
近年は統計的な理論に則って因果関係を評価するために必要な条件・前提が整理されてきている反面、実務現場では経験則や統計学の外の領域の理論を根拠にして目的変数と説明変数との間の因果関係を仮定することも多くあります。

例えばマーケティングで言えば「値引きをすれば消費者は商品を買いやすくなる」とか「目立つ場所に陳列すれば商品が目につきやすくなり、購入してもらいやすくなる」というような経験則から構築された因果関係をモデルに落とし込む「市場反応分析」はよく用いられるでしょう(佐藤, 2015; Hansen et al.2001=2018)。
計量経済学に回帰分析の応用例として、浅野・中村(2009)では為替レートと消費者物価の関係を例に、経済理論を前提にして2通りの説明ができると述べています。このように、統計学の外のドメインで仮定した因果関係の妥当性を回帰モデルによって判断する場合がこちらのパターンでの解釈が中心となります。*3

もう1つ、ランダム化比較試験を通して施策以外の影響要因を排除し、施策の効果を統計的に推定する場合もこちらの解釈に近いです。Web広告への接触の有無がコンバージョンにどの程度効果をもたらしているかを評価したいとき、推定値として知りたいのは「Web広告への接触の効果」だけであり、それ以外の要素は積極的な解釈をする必要は必ずしもありません。
ランダム化比較試験はこの意味で介入による影響を評価するための強力な方法ですが、往々にして実務では完全なランダム化比較試験を設計・実行することは難しく、選択バイアスに向き合う場面のほうが多いと思います。選択バイアスをもたらしていると想定される共変量を投入した重回帰モデルを考えますが、これら共変量の回帰係数を積極的に解釈することはありません。

特定の変数の因果的影響を考える際は、回帰モデルを以下のように考えます。

$\begin{align} E[y | x,z] = \beta_0 + \beta_1x + \beta_2z + \epsilon \end{align}$

ここで $y$ は目的変数、 $x$ は共変量、 $z$ は効果を知りたい介入変数を指します。ここで解釈するのは $\beta_2$ の推定値であり、 $\beta_1$ の解釈は積極的に行わない事が多いです。

おわりに

回帰分析は非常に強力な分析で、昨今話題のマーケティング・ミックス・モデリングの技術的基礎にもなっています。
簡単な変数での回帰分析であればExcelでも実行可能で解釈の幅も広く、データ分析でも「やってる感」を出せるオトクな分析です。ただし、回帰分析の結果を解釈する上で「何をモデル化したんだっけ」というところが見えなくなると、回帰係数のどこをどのように見るべきかを見失います。売上に対する各プロモーションの貢献度を知りたかったのか、売上に対する施策介入の効果を知りたかったのか、はたまた売上を予測できればよいのか、よく考えてモデルを使いましょう。

また、今回は主に回帰係数の解釈に焦点を当てましたが、その回帰係数が「良い」推定結果であるのかの判断や、多重共線性を始めとしたデータそのものが持つ課題などには触れていません。触れると魔境だったので。そのうちまた話します。

参考文献

ill-identified diary『[計量経済学] ロジスティック回帰の2通りの表現』

杉山雄大，井上浩輔，後藤温, 2021,『多変量回帰モデルを因果推論に用いる』,医学界新聞

Rio 『ロジスティック回帰の回帰係数を解釈したい』

ウィラワン・ドニ・ダハナ、勝又壮太郎, 2023, 『Rによるマーケティング・データ分析基礎から応用まで』, 新世社

浅野皙・中村二朗, 2009, 『計量経済学』, 有斐閣

佐藤忠彦, 2015, 『マーケティングの統計モデル』

Hansens, Dominique M. , Parsons, Leonard L. , and Schultz, Randall L.,2001, "Market Response Models", Springer US = 阿部誠, パワーズ恵子, 2018, 『マーケティング効果の測定と実践』, 有斐閣

*1:多変量回帰モデルを因果推論に用いるより引用・編集

*2:ダハナ・勝又(2023)p43より引用

*3:ただし、こうしたドメインベースの因果関係の検証も、ただモデルを組めば良いとは言えず、各変数の影響については具体的に因果構造図を定義して、それに応じたモデル推論が必要です。詳細はKRSK氏のブログなどに詳しいですが、市場反応分析をする場合、刺激がどのようなプロセスを経て商品の購入に至るのかを構造化し、その上で適切なモデル式を組み立てた推定が必要となります

と。

統計学は趣味、マーケティングは義務。