と。

Github: https://github.com/8-u8

【流し読みレビュー】Rによる実践的マーケティングリサーチと分析(原著第二版)

R言語使ってて、マーケティングやってる人なら天井から降ってくると思う

www.kyoritsu-pub.co.jp

そんな1冊です。

目次

目次はこんな感じです。高密度だ……。

第I部 Rの基礎

  • 第1章 Rの概要
  • 第2章 R言語入門

第II部 データ分析の基礎

  • 第3章 データの特徴を捉える
  • 第4章 連続変数間の関係
  • 第5章 グループの比較:テーブルとグラフ化
  • 第6章 グループの比較:統計的検定
  • 第7章 結果に対する要因を特定する

第III部 より高度なマーケティングへの応用

  • 第8章 データの複雑さを低減する
  • 第9章 線形モデルの発展的トピックス
  • 第10章 確認的因子分析と構造方程式モデル
  • 第11章 セグメンテーション:クラスタリングと分類
  • 第12章 マーケットバスケット分析とアソシエーションルール
  • 第13章 選択モデル
  • 第14章 行動シーケンス

おわりに

付録A Rのバージョンと関連ソフトウェア

付録B Rノートブックによる再現可能な分析入門

付録C スケールアップ

付録D 使用したパッケージ

付録E サポートウェブサイトとデータファイル

細かく見たい場合はこちら

流し読み感想文

感想

この本はRを「マーケティング課題の解決」のために活用することを目的にした本です。
もっといえば「Rによるデータ分析を通したマーケティング課題の解決」が目的になっています。
解決手段には様々ありますが、最も基本的な手法にはグループ別の要約統計量の算出や相関係数、各種検定があり、それらの可視化や解釈について触れています(5章、6章)。
中程度であれば*1重回帰分析や因子分析/主成分分析、
分散分析などの解析手法について丁寧に記述されています(7章、8章)。
多重共線性などについても章が割かれており(9章)、VIFによる多重共線性の検討なども紹介されています。 また、応用的な回帰モデルに階層線形モデルがありますが、実務面を意識した著作でこのモデルについて触れている本は、
私の知る限りでは多くはないと思います。
階層線形モデルだけかと思ったら階層ベイズモデルについても記述があります。
イデオロギー的な対立が根深い(?)頻度論とベイズ論?ですが、この本の前では平等です。目的は「マーケティング課題の解決」なので。
きぬいとが主にこれを購入するに至った理由には「構造方程式モデル」についての記述があったことがあります(10章)。

構造方程式モデルといえば最近構造方程式モデルの正則化法の存在を知り、
論文を日本語で取りまとめてドキュメント化したのでよかったらどうぞ(隙あらばできる奴アピール)
github.com

……話を戻して。

構造方程式モデルは非常に応用的ではありますが、マーケティング上では有益な場面がしばしば見られます。
目的変数と説明変数のある単純な回帰モデルでは説明できないような変数間相互作用の推定や、
調査設計やマーケティング上の仮説をモデル化して、その適合度を評価する、といった目的には有効です*2
上記のRegSemはその構造に正則化項をつけ、共分散構造に制約を設けて、
より多くの変数による複雑なモデルでも、ある程度適合度合いを評価しようというモデル……だと思っています。

11章はクラスタリングで、比較的よく知られた手法ではあるものの、マーケティングという文脈でどのように使われるかにかなり踏み込んで記述されています。
特筆するべきは12章以降で、昨今広く解析されるようになってきたトランザクションデータに対する分析手法として、
アソシエーション分析(12章)や、選択モデルとして多項ロジットモデルを応用する(13章)、ウェブ行動ログの解析(14章)と、
データサイエンスブームによって使えるようになったデータでの解析も充実しています。

この本のきぬいと的魅力

本書のいいところは大きく2つで、それは「base準拠コーディング」と「可視化の徹底」にあります。

第一の「base準拠コーディング」というのは、現在「モダンなコーディング」とされているtidyverseを用いず、
R言語のデフォルトで実装されているbaseによるコード例で一貫して記述されていることを意味します。
日本語であれば「宇宙本」が有名ですし、個人的には著者が懸念する
「初学者が両方の流儀を一度に学ぶことの困難さ」は多少緩和されているかな?と思いつつ、
確かにtidyverseネイティブになりすぎると、その外のコーディングで実装されたパッケージ群の運用で混乱するかもしれません*3。 何より以下(本書p9)が「それな」という感じです。

base Rの能力は(中略)すべてのRコマンド、パッケージ、言語構造、分析の基礎です。base Rによるコードはtidyverseによるものほど簡潔でないかもしれませんが、それは常に機能します。

tidyverseの有効な場面は、データの加工や操作にあり、それらで完結するレポーティングなどであればtidyverseで完結することが適している一方、
「統計的モデリング」を目的にする場合はbaseに慣れている必要がある、という主張です。
最近はtidymodelsなど、統計モデリングのtidy化も進んではいるので、目的や自身の流儀に合わせて使っていけばいいと思います。
ただ、個人的にはtidyverseの文法はプログラマ寄りでないデータ分析官でもコーディングがしやすいような設計になっていると思っていて、
baseプログラミング言語らしい記述を求められることもあり、Pythonやその他の言語を身につけやすくなるという隠れメリットはあるかなと思います。

第二の「可視化の徹底」は、これは言わずもがなかもしれません。
ヒストグラムや散布図はもちろん、相関係数や回帰係数、デンドログラム、アソシエーションルールなどに至るまで、
出力される結果に対して徹底して可視化をしています。
著者自身「可視化は分析プロセスの1つ」としてこの本の方針に組み込んでいるだけあります。
きぬいとは可視化などはいろいろな都合上*4Excelに渡しがちですが、
可視化の徹底はソフトウェアを越えた哲学だと思うので、見習って意識していきたいなと思っています。

誰が読むべき?

これは実は「Rの本」じゃないって気持ちになってきた(最初の1文どこいった?)。
きぬいと的には、マーケティングという領域において
「解析手法を適切に使って、妥当な結果を以て、良い意思決定につなげたい」というモチベーションがある人に読んでほしいです。
この本に書かれている内容が活きる対象は、決してRユーザに留まる話ではありません。
あくまで実装がRであり、Rが適している理由がちゃんとあるというだけで、
マーケティングにおいてちゃんとデータを扱いたいという気持ちがあるなら、Rを使っていない人にも手にとって欲しい1冊です。
そして結果的にRユーザになってくれたら、コミュニティに所属する身としては嬉しいなと思っています。

そんな感じで、流し読みレビューでした。
これからガッツリ読みます。

*1:これも昨今ではもはや基本的な内容になるかもしれない

*2:因子分析の拡張として使われることが多い気がします。

*3:きぬいとはどちらかというとbaseで生きてきたので、そこまででもないですが

*4:納品先がグラフをアレンジしたいとかいいやがるので