2019-03-01から1ヶ月間の記事一覧

Magic: The Gatheringの大会記録をスクレイピングした

有名な米国産カードゲームでMagic: The Gatheringというのがあります(通称MTG)。 Youtubeでよく対戦動画を観たりなどするのですが、ふと「データ分析してみたい」と思いました。 とはいえオープンデータな棋譜が存在するわけでもないので、手に入りやすい…

matplotlibを使いこなして複数のword cloudをpdf1枚にまとめる

pythonの大変便利なライブラリにwordcloudがあります。 私はgensimでトピックモデルを扱ったときに特にこれにお世話になりました。 github.com 本記事では「matplotlibを使って複数のwordcloudを単一のpdfにまとめるコード」を紹介します。 import matplotli…

BigQueryでクエリパラメータを連想配列的にSELECTする

SQL

apacheのサーバーログを「とりあえずBigQueryにETLしたみた」という状態で分析を進めるにあたり、クエリパラメータを効率的に取り扱うためのSELECT文を工夫した記録です。 なお、本文ではBigQueryで用いるSELECT文のバージョンはStandardSQLです。 サンプル…

gensimで「文書を全部メモリに載せる」をやめてジェネレータでやるようにした

10GB強のテキストファイルを自然言語処理するにあたり、「とりあえずcsvファイルをpandasで読み込む」というアプローチができないため、きちんとジェネレータを使って「ファイルを1行ずつ読む」という処理を実装した記録です。 なお、「csvファイルをpandas…