2019-06-01から1ヶ月間の記事一覧

CtoCで協調フィルタリングした記録〜訓練データ作り・評価指標・実装〜

以前、協調フィルタリングをお仕事で使う機会があったので、その時の記録を書きます。 訓練データづくりで注意したこと 性能評価で注意したこと 1. テストデータの用意の仕方を実際の問題設定に近づける 2. precisionあまり気にしない(問題設定によるけど) …

時系列クラスタリング手法のk-shapeの論文を一部読んでみた

以前の記事では適当にダミーデータを用意して、愚直にユークリッド距離 & k-meansによる時系列データのクラスタリングを試みましたが、やり残した感があったのでもう少しインプットを深めてみました。今回は*1k-shapeというクラスタリング手法の論文の一部に…

裾の長いデータに対数正規分布を仮定してベイズモデリング

顧客1人あたりの売上やら何やら、本当に様々なデータが裾の長い度数分布の形状を持ちます。 そういったデータに対して何か説明変数を設定してモデリングをする必要に迫られるシーンを想定して、下図のごときデータにフィットするモデリングを考えてみます。…

word2vecで専門用語バリバリのコーパスを扱うため、語彙をMeCabに覚えさせる

《渦巻く知識》というカード mecabに流行語や固有名詞を覚えさせて分かち書きの精度を上げようと考えた時に、いつも大変お世話なっている辞書はipadic neologdです。 しかしneologdといえどもマニアックすぎる語彙は分かち書きしてくれません。 本記事ではme…

ユーザがじわじわと課金を積んでいく時系列データをクラスタリングしたい

下図ではサービス利用開始の0日目から30日目までの、個々のユーザが課金を積み上げていく様子(のダミーデータ)を示しました。 この記事では 「このデータから『早熟ユーザ』『毎日じっくり課金するユーザ』『遅咲きユーザ』といった課金の積み上げ方のスタイ…

アドホック案件をtidyにグラフ作ってpdfでレポート出すまでの流れ

機械学習や統計モデリングを使った格好のよろしいデータ分析で成果を出したいものですが、「SQLで引いてきたデータからインサイトを得て、適切にグラフ作ってレポートにまとめる」のような作業も私は日々やっています。この手の分析はR言語のtidyverseを使う…