と。

統計学は趣味、マーケティングは義務。

私のデータサイエンスは人類を幸福にできたか?

閑話休題

並行して記事がいくつか進んでいてブロガーになるか〜〜〜になっています。嘘です。 仰々しいタイトルですが結局きぬいとの自己満足なので、「ふーん」で終わりです。

データサイエンスが人類に貢献してきたこと

2010年以降、データサイエンスがブームになって云々という話は深層学習の復活が大きいんだろうなあと感じています。
それまで「人間以下」だった画像認識において「人間を越え」、自然言語処理においても「人間を越える」成果を出してきました*1
これも完全に枯れた話なんですけど「機械が人間並かそれ以上に視覚や聴覚の情報を分かってくれる」という時代になったんだねぇ〜という話になり「それを実際に使ってみよう」というのがデータサイエンスブームの多くを支えて来たのだと考えています。
事実、多くの領域で「今まで人でしかできなかったこと」が機械との協業、あるいは機械だけで実現できるようになりました。
もちろん、その背景には大量に映像や画像を保存できるハードウェアや、学習や推論を高速で実現する回路や演算法則の発展にも支えられていることは皆さんの知るところです。
ただ、上記のような「人以上に画像を分類し、言語を翻訳する機械」は、必ずしも「どこでそう判断したのか」まで教えてくれるとは限らない、ということは、少し機械学習に触れれば自ずと分かってくる話ではないでしょうか。

ただ、機械学習に触れていない人にとっては「人でしかできなかったことが、機械にできるようになる」というわかりやすく省略された事実だけしか見えません。
そうなれば自ずと「機械がデータを読み込めば、判断基準も合わせて勝手にやってくれる」という拡大解釈を生み、最近は「そうじゃないらしい」ということが浸透しはじめて落ち着いてきたっぽい、というのがあるんだろうなあ。TJOさんあたり書いていそうですね。書いてました。

tjo.hatenablog.com

個人的には、これまでの10年間「セクシーな職業」として名をはせてきたデータサイエンスは、結局人にどんな喜びを提供できたのだろうか、ということが気になります。
その一つは「非構造データに対して人と同等以上の判別能を持つことができた」ことでしょうし、この成果の延長で「物体の制御」に応用できたこともそうかも知れません。

他にもあるでしょうが……それで?

裏方

きぬいとは結構「裏方」となるような仕事を好みます。明日の金になることよりも、3年後の金になるようなことができればいいなと思えるタイプです。
そういう意味ではマーケティング領域でのデータ分析は質にあっているのかも知れません。
「n年後」の利益の向上のために現状を分析する、というようなタスクがままあるからです。
ただ、こういう仕事は、スポットライトが当たることはあまりないものです。
スポットライトが当たるのは意思決定の主体であって、分析の主担当者ではないのです。

データサイエンスが流行する前「ビッグデータ」が流行しました。
企業はこぞってデータを蓄積して、大量のデータを持て余すことになります。
そこにデータサイエンスが入り込み「大量のデータと複雑な関係性から結果を導き出す」的な話が盛り上がるわけですが、蓋を開ければ「大量のデータから使えるものを選択し、複雑な関係性の一部を取り上げることで、コンパクトな成果を出すことがいいよね」という結果になっているのでした*2

ただ、そういうことも、データ分析を知らない人にとっては「魔法」のように思われるのでしょう。
膨大なデータから使えるデータを選び、複雑な関係性の中から妥当性のある構造を「データサイエンス」によって導いているように見えるのだと思います。
実際は手作業で、大小を問わず仮定や前提を置くことでなんとかしているだけなんですけど。

その手作業の過程で「よく考えてみたら確かにそうだけど、データを見ないと気づかなかった」というような事実や規則性がごくまれに発見できます。それはデータ間の関係性であり、時系列の規則性でもありますが、いずれにせよ、何らかの形でデータに触れないと見つけられないものだな、と思います。
そういうごくまれな発見を、うまく定式化・モデル化、あるいは抽象化することで、他の領域や問題にも応用できないか、ということを考えるのが、きぬいとは好きなわけでした。
これは「統計学」という学問でみれば「大きく見てこういう傾向がある」という、古典的な発想に近い感覚です。

ただ、こういうモデル化は、明日お金になる話とも限りません。
個人的にはそういうことはお金にすることを考えるのが好きな人がやればいいと思っているので、
難易度によらず「こういうデータがあり、こういう切り口で見た時に、これが言えれば良いのでは?」という話で楽しくやっていければそれ以上を望まない予定なのです。

「とにかく金になること」を志向してデータ分析に携わる人もいます。
身近な友人との会話では、現時点で一番金になるデータ分析業務は、
結局データ基盤の導入なんじゃないか、という話を良くします。
金になることは良いことですが、きぬいと個人はその仕事にやりがいを感じないので、
もしこれからのデータサイエンスの仕事がそればかりになるのなら、
データサイエンティストを名乗るのをやめて別の領域に行くことも考える必要があるんだろうなあ、とも思います。
とても嫌なのですが、マーケターとか。

「人がそのように行動する理由」とデータ

学生時代を含めると、かれこれデータ分析を生き甲斐にして6〜7年になるんですが、
「データサイエンス」という領域に世間が飽き始めているな、という気持ちとともに秋の突入を感じているところです。
つまりは「データ活用」の具体的な形が「データを貯める場所の構築」とか「人間で賄っていた機械的な検知の自動化」とか、そういうところで、それらが概ね実現できた、あるいは実現するための基本的な手続きが定型化されてきた、という直感がある、という感じです。

もとよりきぬいとはゼロから基盤を作る力とか、人間の代替としての機械学習技術とか、
そういう領域にも触れながらも「知的生産」や「知的開発・探究」という側面でもっとデータを使えないかなとか言いながらモニョモニョしていたのでした。
「知的生産」や「知的開発・探究」という側面においては「映像から異物を検知する」ことや「音声から字幕を生成する」こととはまた違ったデータの使い方になるのかなとも考えています。

例えばあるサービスを運用していて、ユーザに何らかのレコメンドを提供したいという場合、
きぬいと個人は「機械学習を応用したレコメンドエンジンの開発」ではなく「ユーザがサービスをどのように利用するのか、なぜそのように行動するのか」という、ある意味で「顧客の理解」という部分に強く興味を引かれます。
そして同時に、この部分の理解が、より良いレコメンドエンジンの開発に寄与するだろうとも思っています*3
その延長としての以下のTweetなのでした。

twitter.com

結局のところは「データ分析によって何ができることを期待されているか」という立場の違いだと思うのですが。

「納得感」を外部化する

きっと人はデータから「納得できる結果」がほしいのだと思います。
自分の直感があり、その直感に合うような結果が、データで得られれば気持ちがいいのです*4
そのために、データに閉じない範囲も含め、納得できるような仮説を立てます。
多くの場合はデータの関係性に関する仮説です。時系列による前後関係であったり、あるいは効果の因果関係であったりするわけで、この仮説には「納得感」が必要になります。
「納得感」とは一体何か。「それっぽさ」とも言えるような非常に主観的で感覚的なものでしょう。

機械学習のモデルは、残念ながらこの「納得感」を満足するような結論を十分に提供できません。線形回帰を含む、シンプルな統計モデルでも、(厳密には)提供できません。
ここにはいくつかの潮流があり、その一つが「解釈性」と言われるお話です。

www.slideshare.net

上記のスライドではとても端的に「解釈性」と「納得感」のギャップについて書かれているように感じます。
線形モデルが「納得感」を提供できているように感じるのは、回帰係数という「人間が納得できる形で解釈しやすい」数値が存在するからにすぎません。

tjo.hatenablog.com

きぬいとはこの「納得感」とかいうものをどうにか数字で測れないものか、
と考えています。アイデアとかは特にないのですが、ここまでをデータ分析の領域で閉じることができるのであれば、おそらくデータサイエンスはもう少し人類に貢献できるんだろうと思います。
「納得感」の数値化に近いものの一つに「因果効果」があるのかな、と今は思っています。
詳細は勉強しながらですが、ある種構造の妥当性の指標足り得るように見えているので。

で?

「データ分析だけができても意味がない」というのは理解できますし、
機械学習だけがデータ分析でもないので、広く浅く眺めることで見えてくるものはあるのですが、
結局の所言語化に失敗しました(笑)
多分ものすごくシンプルにいえば、
「なんでかわからないけどこの変数は予測精度に貢献する」で満足したくなくて、
「こういう理由で効く」ということを人間が納得できる構造で説明してはじめて、
きぬいとは仕事を楽しめるんだろうな、と思っています。
また、それが人のためのデータ分析につながってほしいな、とも思っているのでした。
現状の仕事は、それを重視して進めるようにあらゆる人を敵に回して動いているので、
多分仕事はたのしいんだろうと思います。
ただ、今の会社で仕事が楽しくなくなったら、自分はおそらくデータ分析のメインストリームからは離れるだろうな、とも思います。
とても嫌なのですが、マーケターとか。
なんかデータをつかって人間を思い通りに動かせる仕事に就けたらいいんですけどね。

*1:Alpha GOなどの強化学習の発展も無関係ではありませんが、きぬいとは詳しくないので、この記事では特に言及しません

*2:その使える変数の選択や、関係性の妥当性の担保に、データサイエンスの「成果」が活きていることは間違いないでしょうが

*3:ほぼ願望ですが

*4:鏡よ鏡よ鏡さん、というやつなのかもしれない