統計

時系列クラスタリング手法のk-shapeの論文を一部読んでみた

以前の記事では適当にダミーデータを用意して、愚直にユークリッド距離 & k-meansによる時系列データのクラスタリングを試みましたが、やり残した感があったのでもう少しインプットを深めてみました。今回は*1k-shapeというクラスタリング手法の論文の一部に…

裾の長いデータに対数正規分布を仮定してベイズモデリング

顧客1人あたりの売上やら何やら、本当に様々なデータが裾の長い度数分布の形状を持ちます。 そういったデータに対して何か説明変数を設定してモデリングをする必要に迫られるシーンを想定して、下図のごときデータにフィットするモデリングを考えてみます。…

ユーザがじわじわと課金を積んでいく時系列データをクラスタリングしたい

下図ではサービス利用開始の0日目から30日目までの、個々のユーザが課金を積み上げていく様子(のダミーデータ)を示しました。 この記事では 「このデータから『早熟ユーザ』『毎日じっくり課金するユーザ』『遅咲きユーザ』といった課金の積み上げ方のスタイ…

アドホック案件をtidyにグラフ作ってpdfでレポート出すまでの流れ

機械学習や統計モデリングを使った格好のよろしいデータ分析で成果を出したいものですが、「SQLで引いてきたデータからインサイトを得て、適切にグラフ作ってレポートにまとめる」のような作業も私は日々やっています。この手の分析はR言語のtidyverseを使う…

傾向スコアによる統計的因果推論をやろうとして悩むのはほどほどにしたい

観察研究に基づく因果推論は「よほど共変量についての先行研究が積み上がっていないかぎり、バイアスを取り除いたと言い切るのが大変に難しい」という事情があります。 なので私はweb業界というスピーディな業界にあって、観察研究的なアプローチが必要にな…

概念整理:ベイズ信頼区間とベイズ予測区間

Stanで統計モデリングをするにあたり、「信頼区間と予測区間を用語として意識して使い分けよう」と思ったので、下記書籍p14の辺りを復習。 StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/…