2019-03-01から1ヶ月間の記事一覧
有名な米国産カードゲームでMagic: The Gatheringというのがあります(通称MTG)。 Youtubeでよく対戦動画を観たりなどするのですが、ふと「データ分析してみたい」と思いました。 とはいえオープンデータな棋譜が存在するわけでもないので、手に入りやすい…
pythonの大変便利なライブラリにwordcloudがあります。 私はgensimでトピックモデルを扱ったときに特にこれにお世話になりました。 github.com 本記事では「matplotlibを使って複数のwordcloudを単一のpdfにまとめるコード」を紹介します。 import matplotli…
apacheのサーバーログを「とりあえずBigQueryにETLしたみた」という状態で分析を進めるにあたり、クエリパラメータを効率的に取り扱うためのSELECT文を工夫した記録です。 なお、本文ではBigQueryで用いるSELECT文のバージョンはStandardSQLです。 サンプル…
10GB強のテキストファイルを自然言語処理するにあたり、「とりあえずcsvファイルをpandasで読み込む」というアプローチができないため、きちんとジェネレータを使って「ファイルを1行ずつ読む」という処理を実装した記録です。 なお、「csvファイルをpandas…