柏市議会議事録を自動要約する
October 19, 2017
先日 、DivRank という自動要約アルゴリズムを触ってみたので、柏市議会のとある定例会に適用してみました。
結果はこちらです。
[2017/11/07] 規約的に公開が良いのかはっきりしないので一旦公開やめます。
ttp://datavis.hokuma.net/contents/city_council_gijiroku/summary/h29_2nd_0602.html
要約文の生成処理には、aws lambda を使っています。要約文を生成するために、以下の3つの処理を実行しています。
- plain text な議事録から必要な情報をjsonフォーマットにする
- mecabで形態素に分割する
- textacyで要約文を生成する
各処理を、S3をinput/outputとするaws lambdaの関数として実装しました。 議事録サイトから手動 1 でDLしたファイルをアップロードすると順番に関数が実行されていき、最終的に要約文がs3に吐き出されます。
mecab や textacy(というかscipyやnumpyを使ったライブラリ)を lambda で動かすのはそれはそれで一苦労なのですが、その辺は以下の記事を参考にしていただければと。
- http://dev.classmethod.jp/cloud/aws-lambda-with-mecab/
- https://serverlesscode.com/post/deploy-scikitlearn-on-lamba/
生成された結果への感想としては、正直微妙です。要約しても読むのきついですね。。。 どんな話題が上がっているかをざっくり把握するのであれば、要約文を生成するよりもワードクラウドを作ってどんなトピックが出ているかを眺め、気になるワードをクリックするとそれが出現する発言に辿りつけるシステムの方が要求によりマッチしていそうです。
ワードクラウドによる分析もやってみようと思います。
-
特定の会のテキストをダウンロードするには、全発言にチェックをつけてダウンロードせねばならんのです。。。 ↩︎