python

CtoCで協調フィルタリングした記録〜訓練データ作り・評価指標・実装〜

以前、協調フィルタリングをお仕事で使う機会があったので、その時の記録を書きます。 訓練データづくりで注意したこと 性能評価で注意したこと 1. テストデータの用意の仕方を実際の問題設定に近づける 2. precisionあまり気にしない(問題設定によるけど) …

matplotlibを使いこなして複数のword cloudをpdf1枚にまとめる

pythonの大変便利なライブラリにwordcloudがあります。 私はgensimでトピックモデルを扱ったときに特にこれにお世話になりました。 github.com 本記事では「matplotlibを使って複数のwordcloudを単一のpdfにまとめるコード」を紹介します。 import matplotli…

gensimで「文書を全部メモリに載せる」をやめてジェネレータでやるようにした

10GB強のテキストファイルを自然言語処理するにあたり、「とりあえずcsvファイルをpandasで読み込む」というアプローチができないため、きちんとジェネレータを使って「ファイルを1行ずつ読む」という処理を実装した記録です。 なお、「csvファイルをpandas…