と。

Github: https://github.com/8-u8

2019年もJapan.R に行ってきました。

7〜8回目らしいですよ

きぬいとは今年で2回目です。

いつものイベント記事はこちらから

japanr.connpass.com

国内最大規模のRの勉強会として毎年開かれています。今年広い会場が全部埋まる参加者が集まり大盛り上がりでした。

初心者向けセッション

今日から始めるR

フリーランスのタナカケンタさんの発表です。
資料はこちら

……なんとハンズオン環境になり、手元で手を動かしながら発表を聞ける理想的な環境です。
データ分析をしたいけど知識・経験もないという人向けにRの導入からデータの加工、分析、レポートに至るまでのチュートリアルが20分でおわります。

懐かしいなあ。

LT(初めての人向け)

なんでも皆さん初めてLTにたつらしいですよ。
時間内に話せるだけ素晴らしいと思います!頭がッ…… というかみんなタイトルが面白いんですが

自分が便利に生きるためにRとShinyを使う

Shiny回で触発され、Shinyを使いたくなったとのこと。コミュニティの成果がちゃんとでてますね。
業務で現場の人とのコミュニケーションを行うため、データをうまく活用したいという非常に実用的なモチベーションで、いいですね。 「泥臭い作業を楽にしたい」……とてもエンジニアリング精神にあふれていていいなあと思いました。 plotlyパッケージでいろいろできるとのことで、私はあまり使わないのでへーって感じでした。

なにより「ここがわからないんです」というスライドを設けている点が非常に良かったです。

スポーツ番狂わせの統計学

ラグビーをきっかけにしたLTでした。
「番狂わせが起きにくい」と言われているスポーツらしいのですが「本当か?」というモチベーションです。
番狂わせの起きやすい競技、起きにくい競技をみてみたという内容です。 Rのrvestなどを使ってスクレイピングを行い、data.frameに形成することができるようです!
確かにラグビーは番狂わせが4%で、起きにくいようです*1
経験的な番狂わせのおきやすさとも一致する感じで、次回更に進んだ分析を持ってくるとのことです……!

Rで音声解析をしてみる

趣味がDTMとのことで、Rを使って音声に関する分析に挑戦したとのことです。
DTMを「音声素材のパッチワーク」と捉え、その素材を大量に用いる際に自動的に分類するモチベーションです。 今回はドラムの要素を分類するという問題に取り組んだようです。 tuneRを用いると音声ファイルを読み込みが可能とのこと。すごい。

分類器にはサポートベクターマシンを用いています。もはや最近初手ディープラーニングが増えすぎていて、
こういうシンプルなマシンの実装はあまり見なかったのでとてもいいです。

Rで人工衛星画像を覧る

まさかの不在

Long Talk

こっちでなら20分で話してもいいんだよね……ウッ……頭が……

三国志で学ぶデータ分析

私は勝手に大ファンなんですがill-identifiedさんの報告です。

speakerdeck.com

今回は特定の題材に基づき、応用範囲の広いことをRでやってみるモチベーションです。
三国志三国志演義では、登場人物の活躍が異なることがあります。
ゲーム『三國志』シリーズのステータス値を使って、登場人物像の変化を探ろうという方針を rvestを使って、一般サイトから人物のステータス値を獲得し、そのシリーズの変遷で検証ます。
ただ「表として見やすいデータ」と「解析しやすいデータ」は異なるため、tidyverseを使って整形を行います*2
登場人物名のゆらぎなどを省くために、文字をビットマップ出力して画像認識し、その結果を元にゆらぎの修正を行っています。

シリーズを追うとある程度ステータスの分布が集中する点、登場人物が多い人物ほどステータスが向上する傾向があるなどの発見がありました。

基本的なデータ処理をRで見るという点はかなり実践的でした。個人的には名寄せや表記ゆらぎについて大分勉強になりました。

メタアナリシスっぽいので公平な入試を受けたい

賞与倍率∞倍のMed_KUさんの報告です。

rpubs.com

昨年話題になった不正入試問題をきっかけに「男女の合格しやすさに差があるのか?」ということの検証です。
フィッシャーの正確力検定など、私にとっては懐かしいものばかりでした。
議論の中心では「男女差ないんじゃない?」という話ですが、それを更に深堀しようとする話でした。

メタアナリシスを使って、東京大学の男女合格実績の結果を2013年から2018年の合格率オッズ比を検討すると
そうでもないらしいですね。 浪人と現役生の合格率の格差は、多浪になるとちょっと厳しいけどそこまで大きな差はなさそうですとの結論でした。

大学別に性別と現役・浪人のオッズ比を軸に可視化するというかなり生々しい出力になっているのが非常に良かったです。生々しいデータが生きがい。

メタアナリシスは社会科学でも研究が行われており、私も修士時代一瞬やりました。懐かしい。

LTその2。

みんな時間どおりできてえらい! 20個の怒涛の内容だったので、connpassを参照いただけるとよいかと。

感想

規模がでかい。ここでLong Talkするにはちゃんと面白いデータとちゃんとした分析がないとダメそうだなあと思いました。

来年のきぬいとさんにご期待下さい!

*1:サッカーでは18%、テニスでは11%らしいです。一方相撲は24%とのことです。

*2:エグい処理をしていました