と。

Github: https://github.com/8-u8

【流し読みレビュー】『データ活用のための数理モデリング入門』

統計学にある程度習熟し、モデリングを通して価値を出したい人向け

gihyo.jp

水上ひろき,熊谷雄介,高野雅典,藤原晴雄 著
『データ活用のための数理モデリング入門』

流し読みした感想を書きます。
統計モデリングを中心に、実務(特に著者陣の主戦場のマーケティング)への数理モデルの「適切な応用」を主眼にした、とても良い本です。
きぬいとはこういう本が欲しかったところでした。お仕事であっても最低限わきまえたい仮定や必要十分なモデリングのための知識がしっかり書かれています。
ただ、統計学の入門的な書籍に書いてあるような知識は必要なので、「データ分析もよくわからん」という方にはもしかするとギャップを感じる部分があるかもしれません。
副読本(というより「わかんない!」って思った時に調べられる何か)がそばにいてくれると安心です。

何が書いてあるの?

実務、マーケティング領域におけるデータ分析で数理モデリングを応用することで
「新しい価値」を生み出すために必要な知識が記されています。
データが蓄積され、いろいろなプレイヤーがデータに基づいて意思決定したり、データを分析したりすることができるようになってきましたが、
一方で、ある程度データ分析に基づくプロジェクトを進められるようになると、「どのようにデータを使うと課題を解決できるのか」や「分析結果をどのように解釈するべきか」など、データを使えるようになったことによる新しい問題が表出します。
この本は、データを課題に併せて適切に活用するため、目的別に章が分けられ、それぞれの目的に応じた数理モデリングの応用を紹介しています。

いいところ①: 実務に近い応用例と手続きが記載されている

本書の素晴らしいところは応用例がビジネス課題に寄り添っている点にあります。
例えば2章「購買予測」では、協調フィルタリング、行列の特異値分解(クラスタリング)、線形回帰の3つの手法を紹介していますが、「どういうデータに対して」「どのような手続きで」「どのような指標(出力)を得て」「どう評価するか」を説明しています。
特に手法ドリブンにお仕事を進めてしまうと、これらの要素はおざなりになりがちです(2敗)。
RやPythonのライブラリを使えば分析そのものはAPIドン!で叩けても、
そこに至るまでのデータの前処理や出力の違和感に気づくためには、上記の要素を意識してモデルフロー全体を構築する必要があります。
本書は一貫して、モデルの適用プロセスに対して紙面を割くことを厭わないスタイルで進めていて、いいなあと思います(感想がユルすぎる)

いいところ②: 数理モデルそれぞれが持つ「仮定」について記述されている

数理モデルの結果から「言えること」と「言えないこと」を明確にしているという点は、実務応用(学術応用でも)において、他者への説明をする場合に非常に重要です。
特に2章の協調フィルタリングの部分での「似た購買傾向を持つ商品を買いやすい」という前提は、あたりまえだけどただ「協調フィルタリングしてみようぜ!」っていうモチベーションだと見落としがちだよなあと思いました(3敗)。
特にマーケティング領域での偏見ですが、画期的な手法・先進的な手法をただ使ってみたいというモチベーションで、仮定の検討を十分にしないまま実装し、よくわからない結果を無理やり解釈してしまう場面は、
多いとはいかずともまま経験しているのではないでしょうか*1
そういう場面を回避するためにも、各種手法がどのような仮定(制約条件・ルール)のもとで成立するのかを明確に記載している点は、非常に有意義だと思います。

気をつけて読む必要がある部分

この本はマジでとてもいい本です。手元に置く価値は十分にあります。
ただ、この本は「きぬいとのために編まれた本」ではないので、個人的に「思ってたよりゴツいな」とか「ここの説明がもっとほしい」みたいなところがいくつかありました。
以下は「あ、これは腰を据えて読まなきゃな」ってきぬいとがモチベを切り替えたポイント、ってだけの話ですが、本書を買うか迷っている人が、自身の持っているレベル感と照らし合わせるきっかけになれば、と思います。

データ分析の前提知識がある程度必要

この本はあくまで「数理モデリング」の入門書で、「データ活用」の入門書ではない、というところは非常に重要な線引きかと思います。
具体的には、モデリングに使う道具についてはある程度知っていることが前提にあるように思われました。
少なくとも全般的には久保拓也先生の「みどりぼん」は必携、個人的には3章「離脱予測」のためにはDobsonの『一般化線形モデル入門』を傍らに置くと、さらに理解が進むかと思います*2

www.iwanami.co.jp

www.kyoritsu-pub.co.jp

個人的には1章「数理モデリングの基礎」での確率変数の「厳密め」な定義付け*3や2章「購買予測」での類似度指標*4についての説明は物足りないなと思いました。
また、本書にでてくる数式は2020年時点での日本の教養水準では決して簡単な部類ではないと感じています*5
最低限、4年制大学の基礎教養で学ぶ微積分・線形代数の知識は(完全である必要はないにしろ)必要だと思います。

手元にあるといいと思う副読本

「データ分析も入門したばっかりだけどやっぱり数理モデリング理解しに行きたい」という意欲的な人は、
数学・統計学・数理計画法の基盤として以下副読本があると良いと思います。

www.asakura.co.jp

www.kspub.co.jp

www.kspub.co.jp

www.kspub.co.jp

特に講談社の「データサイエンス入門」シリーズが大体手元にあると、本書で困った時に理解の助けになると思いました。
というかなっています。

おわりに

適切にデータを使ってモデリングして、
気持ちよく会社とクライアントに貢献して、
気持ちよく自分の市場価値を上げていきましょう。

*1:もしかしてわたしだけ!?

*2:原著は4th editionなのでこっちの邦訳も進まないかなと思っています

*3:標本空間から実数空間への写像としての確率変数の定義なので知ってる人は知ってる

*4:ユークリッド距離とコサイン類似度の性質の違いなど。

*5:確かにデータサイエンス界隈でこの程度書き下せないとお仕事にはならないんですが