python
以前、協調フィルタリングをお仕事で使う機会があったので、その時の記録を書きます。 訓練データづくりで注意したこと 性能評価で注意したこと 1. テストデータの用意の仕方を実際の問題設定に近づける 2. precisionあまり気にしない(問題設定によるけど) …
pythonの大変便利なライブラリにwordcloudがあります。 私はgensimでトピックモデルを扱ったときに特にこれにお世話になりました。 github.com 本記事では「matplotlibを使って複数のwordcloudを単一のpdfにまとめるコード」を紹介します。 import matplotli…
10GB強のテキストファイルを自然言語処理するにあたり、「とりあえずcsvファイルをpandasで読み込む」というアプローチができないため、きちんとジェネレータを使って「ファイルを1行ずつ読む」という処理を実装した記録です。 なお、「csvファイルをpandas…