読書要約 道徳の系譜学 第一論文

本記事は、ニーチェの道徳の系譜学のうち、第一論文に限って要約したものです。 問いの設定 本論文では、今日(19世紀末当時のヨーロッパ)に行われている「善いとか悪いとかの価値判断」ということが慣行として根付くためには、どのような経緯が必要であっ…

CtoCで協調フィルタリングした記録〜訓練データ作り・評価指標・実装〜

以前、協調フィルタリングをお仕事で使う機会があったので、その時の記録を書きます。 訓練データづくりで注意したこと 性能評価で注意したこと 1. テストデータの用意の仕方を実際の問題設定に近づける 2. precisionあまり気にしない(問題設定によるけど) …

時系列クラスタリング手法のk-shapeの論文を一部読んでみた

以前の記事では適当にダミーデータを用意して、愚直にユークリッド距離 & k-meansによる時系列データのクラスタリングを試みましたが、やり残した感があったのでもう少しインプットを深めてみました。今回は*1k-shapeというクラスタリング手法の論文の一部に…

裾の長いデータに対数正規分布を仮定してベイズモデリング

顧客1人あたりの売上やら何やら、本当に様々なデータが裾の長い度数分布の形状を持ちます。 そういったデータに対して何か説明変数を設定してモデリングをする必要に迫られるシーンを想定して、下図のごときデータにフィットするモデリングを考えてみます。…

word2vecで専門用語バリバリのコーパスを扱うため、語彙をMeCabに覚えさせる

《渦巻く知識》というカード mecabに流行語や固有名詞を覚えさせて分かち書きの精度を上げようと考えた時に、いつも大変お世話なっている辞書はipadic neologdです。 しかしneologdといえどもマニアックすぎる語彙は分かち書きしてくれません。 本記事ではme…

ユーザがじわじわと課金を積んでいく時系列データをクラスタリングしたい

下図ではサービス利用開始の0日目から30日目までの、個々のユーザが課金を積み上げていく様子(のダミーデータ)を示しました。 この記事では 「このデータから『早熟ユーザ』『毎日じっくり課金するユーザ』『遅咲きユーザ』といった課金の積み上げ方のスタイ…

アドホック案件をtidyにグラフ作ってpdfでレポート出すまでの流れ

機械学習や統計モデリングを使った格好のよろしいデータ分析で成果を出したいものですが、「SQLで引いてきたデータからインサイトを得て、適切にグラフ作ってレポートにまとめる」のような作業も私は日々やっています。この手の分析はR言語のtidyverseを使う…

傾向スコアによる統計的因果推論をやろうとして悩むのはほどほどにしたい

観察研究に基づく因果推論は「よほど共変量についての先行研究が積み上がっていないかぎり、バイアスを取り除いたと言い切るのが大変に難しい」という事情があります。 なので私はweb業界というスピーディな業界にあって、観察研究的なアプローチが必要にな…

Magic: The Gatheringの大会記録をスクレイピングした

有名な米国産カードゲームでMagic: The Gatheringというのがあります(通称MTG)。 Youtubeでよく対戦動画を観たりなどするのですが、ふと「データ分析してみたい」と思いました。 とはいえオープンデータな棋譜が存在するわけでもないので、手に入りやすい…

matplotlibを使いこなして複数のword cloudをpdf1枚にまとめる

pythonの大変便利なライブラリにwordcloudがあります。 私はgensimでトピックモデルを扱ったときに特にこれにお世話になりました。 github.com 本記事では「matplotlibを使って複数のwordcloudを単一のpdfにまとめるコード」を紹介します。 import matplotli…

BigQueryでクエリパラメータを連想配列的にSELECTする

SQL

apacheのサーバーログを「とりあえずBigQueryにETLしたみた」という状態で分析を進めるにあたり、クエリパラメータを効率的に取り扱うためのSELECT文を工夫した記録です。 なお、本文ではBigQueryで用いるSELECT文のバージョンはStandardSQLです。 サンプル…

gensimで「文書を全部メモリに載せる」をやめてジェネレータでやるようにした

10GB強のテキストファイルを自然言語処理するにあたり、「とりあえずcsvファイルをpandasで読み込む」というアプローチができないため、きちんとジェネレータを使って「ファイルを1行ずつ読む」という処理を実装した記録です。 なお、「csvファイルをpandas…

概念整理:ベイズ信頼区間とベイズ予測区間

Stanで統計モデリングをするにあたり、「信頼区間と予測区間を用語として意識して使い分けよう」と思ったので、下記書籍p14の辺りを復習。 StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/…