と。

Github: https://github.com/8-u8

ELO Merchant Category Recommendationで銅メダル圏でした

よくわからないですがExpertになってました

あまりいいExpertのなりかたではない*1こともあり,kaggle masterにならないと人権はないらしいので,地べたを這いつくばりながら行きていこうと思います.

今回のELO Merchant Category Recommendationでは,Rがメインの言語である私がPython縛りでいろいろ試行錯誤しながら進めたこともあり,いろいろと学ぶことが多かったのでまとめておきたいと思います.

ELO全体の振り返り等は以下の記事で詳しくまとめられています.

amalog.hateblo.jp

使ったソースコードは以下にぶっこんどきます.

github.com

*1:大炎上したRコンペで手抜きsubmissionしたら銀圏になってしまいました.たたかないでください

続きを読む

Rでone-hot encodingするときに便利なパッケージ{dummies}

はじめに

私生活でも仕事でも「カテゴリ変数を[0,1]実数で表現したい」という欲望に駆られる. どういうことか?下のように入っているデータがあるとする.

Category
A
B
C

これを,下のように変換したい.

Category_A Category_B Category_C
1 0 0
0 1 0
0 0 1

界隈ではこのようなデータの変換をone-hot encodingという. 自前でアルゴリズムを組んでみるのもためになるが,納期は迫る.焦る. そんなときのdummiesパッケージ. 開発元は下.

github.com

大したことやっていない実装例は下.

github.com

続きを読む

TokyoR #75に行ってきました

哲学回だった(?)

ここ1年はこれを楽しみに生きるという苦しみを耐え忍んできています(誇張表現)

今回は私が神話の話をして,ほかの方がパラレルワールドの話や存在意義の話をするというなかなか哲学な話が多かったのでは?という印象でした.

みんななにかに葛藤し,苦しみながら,この世界で楽しみを見出しているんだな……としんみりしています(?)

何故か応用セッションに登録してしまう

LTをするはずだったんですがついうっかり応用セッション宣言をしてしまい,どうしたものかと生まれたのが原点に立ち返るという話と叙事詩に見立てるというテーマでした.

そんなこんなで今回はRのバージョン1.0.0を触ってRの設計思想を理解しようみたいな話をしました.

github.com

Rの言語としての設計や関数の仕様については実際すでにRおじさんたちがいろいろ書いているものの,

好き好んでR1.0.0を触る人はいなかったので,挑んでみました.反省しています.

とはいえ,Twitterでは,私が紹介したやり方を最新バージョンで再現してくださった人などもいらっしゃったりして,少しでも誰かのためになったのであればそれでいいかなと思います.

次回は3月2日とのことで,LTに申し込んでいるところです.ネタは決まったので準備していこうと思います.

そんなこんなで,今回は応用セッションとLTの感想を書き連ねたいと思います.

続きを読む

2019年になった話

あけまして

おめでとうございます

今年も変わらぬご愛顧のほど,よろしくおねがいします.

下のようなことを言ってしまいました.

有言実行してしまった手前書いときます. やりたいことは山ほどあるんですが,この1年でやるのは以下3つに絞ろうと思います.

詳しくは続きに書きます.

kaggle solo gold

転職

OSS開発

続きを読む

PCを買い替えた話

PCを買い替えました. もともとLenovo Thinkpad X260を使っていましたが,修士1年から使っていた点,kaggleとかやっているとちょっと苦しそうな点,HDDなので遅い点など,いろいろと限界が来ていました. 「12月にボーナスも来るし,一括でいいやつ買うか」と思い,同じLenovo ThinkpadのT480sを購入しました.カード一括で

まぁボーナスは給与の1/3だったんですけど.

これから5ヶ月のリボ払いが始まります……グエー

スペックは

メモリ16GB*1

プロセッサは第8世代i7の弱い方(8550Uだっけか)

SSD512GB

です.なかなかいい買い物でした. 値切ったらこのスペックで17万切ったので「多少ボーナスが低くても一括でいけるなあ」とか思ってたらまさかの月給以下なので,これからどう暮らしていこうかな,という気持ちであります.

続きに写真ぶっこんどきますね.

*1:1スロット8GB,オンボード8GBでした.X260には16GBのメモリ使っていたので移植して今は24GBです

続きを読む

JapanRに行ってきました

JapanRに行ってきました.

japanr.connpass.com

なぜか今日12月1日はデータ関連がざわついており,複数のデータ関連のイベントがありました *1

JapanRは初めての参加ですが,その規模,人数,参加者の変態度優秀さ,どれをとっても年に1回あるかないかの濃厚な一日でした. connpassで全参加者のタイトル,そして公開されてるプレゼンはyoutubeでも流れるようにするとのお話だったので,この記事では僕が興味深いと思った話を取り上げようと思います.

一応取り上げた皆さんのTwitterリンクと,資料を公開されている人は資料のリンクを張ってますが「おいやめろ」ってときは僕のTwitterまでリプライください.

*1:例えばkaggler-meetupとかです.upuraさんがLT参加しているので,きっとブログで書いてくれるでしょう.

続きを読む

統計モデリングの「解釈」を価値にする営為は斜陽なんじゃね?という話

はじめに

というお話(ポエム)です.

※ ブログ執筆中に「もしかして『説明』と『解釈』をまぜこぜにしてませんか?」という心の声がしたので,そこをうまく切り分けてまとめられればと思います.

【2018年12月1日22時02分追記】

一回公開したところ「仮定について言っただけでわかったつもり扱いか」「客観的・定量的に評価することの出来ない対象を、それでも評価・解釈したいから、ドメイン知識で緩い仮定(ここが議論の余地有)を加えて定量評価しようって取り組みは、個人的にはそこそこ価値があると思う」,あるいは数学的な「『説明』は価値があるのではないか」など,いろいろ批判・意見をいただきました.ありがとうございます.確かに「説明」は,数学的な保証があるという意味では「説明」は評価のできる価値たりうるので,コレは完全に僕の主張が誤りです.

『統計モデリングによる「説明」とその「解釈」を価値にする企業は斜陽なんじゃね?という話』

から説明を削除して

『統計モデリングの「解釈」を価値にする営為は斜陽なんじゃね?という話』

に直した上,中身も「説明」と「解釈」についてちゃんと区別して話を進めたいと思います.

続きを読む