はてブ記事を用いた興味分析のLDAによるトピック解析のためのスクリプトです.
事前にデータの準備が完了していることを前提とします.
本スクリプトにより,はてブ記事のトピック解析結果を下のようなワードクラウドに出力できます.
またこの図の見方は下のとおりです.
MacOSX環境を前提に説明します.
データの準備に従って,はてブ記事群をMySQLに登録します.
lda, a Latent Dirichlet Allocation package.の"C version"をダウンロードし,バイナリを「./LDA/lda」に配置します. 具体的には次のような手順を行います.
$ cd ./LDA
$ wget http://chasen.org/~daiti-m/dist/lda/lda-0.2.tar.gz
$ tar xvf lda-0.2.tar.gz
$ cd lda-0.2
$ make
$ cp lda ../lda
$ rm -Rf lda-0.2*
3. d3-cloudのインストール
$ cd ./LDA
$ git clone https://github.com/jasondavies/d3-cloud.git wordcloud
wkhtmltopdfの「Download」からダウンロードし,インストールします.
インストール後$ wkhtmltoimage
が実行できれば完了です.
$ cd ./LDA
$ ./mkldainput.sh > lda_input.dat
$ cd ./LDA
$ ./lda -N [number_of_topics] lda_input.dat lda_output
[number_of_topics]にはトピック数を指定します.例えば30など.
$ cd ./LDA
$ ./parseBeta lda_output.beta [number_of_topics] [number_of_rankings]
[number_of_topics]にはトピック数を指定します.これは2.の値と一致する必要があります.
[number_of_rankings]には出力する単語数を指定します.これはワードクラウドに表示するおおよその単語数です.例えば1000など.
結果は「./LDA/wordcloud/visualize_csv/lda_output/topic[トピック番号].png」に出力されます.
これが上図のワードクラウドです.