自然言語処理

matplotlibを使いこなして複数のword cloudをpdf1枚にまとめる

pythonの大変便利なライブラリにwordcloudがあります。 私はgensimでトピックモデルを扱ったときに特にこれにお世話になりました。 github.com 本記事では「matplotlibを使って複数のwordcloudを単一のpdfにまとめるコード」を紹介します。 import matplotli…

gensimで「文書を全部メモリに載せる」をやめてジェネレータでやるようにした

10GB強のテキストファイルを自然言語処理するにあたり、「とりあえずcsvファイルをpandasで読み込む」というアプローチができないため、きちんとジェネレータを使って「ファイルを1行ずつ読む」という処理を実装した記録です。 なお、「csvファイルをpandas…