市議会議員を2次元空間にマップする

議員の特徴量をTFIDFベクトルで表現し、次元削減の手法を使って2次元空間にマップしてみました。

November 25, 2017

個々の議員がどんな人かを知ることはなかなか大変です。 全員がtwitterやfacebookなどのSNSを使ってくれているわけではありません。 また、仮に使っていたとしても、botかな?という感じで、ブログの更新通知が流れているだけのようなものもあります。

議員を知るには彼らの仕事っぷりを見るのが一番。 ということで、議事録に残されている彼らの発言を解析してみます。 解析の方法はいろいろあると思いますが、まずは可視化してみましょう。 二次元空間に議員を配置してみて、どんな集合ができるか、誰と誰が近い(遠い)のか、 と言ったのを見てみるだけでも何か得るものはありそうです。

例のごとく、対象は柏市の市議会議員です。 現在の議員は平成27年の8月の選挙で選ばれているので、その年の第3回から今年の第2回までの合計8回の定例会の議事録を利用しました。

解析の流れとしては、

です。

次元削減は、scikit-learnに実装されている

の二つを試しました。TruncatedSVDは行列の特異値分解、Non-negative Matrix Factorization(NMF) は行列を非負値の二つの行列に分解する手法です。NMFでは目的関数を the generalized Kullback-Leibler divergence にしてます。scikit-learnの説明によると、この場合 PLSA と等価らしい?ですが、その裏付けの議論はきちんと追えてないです。

以下がTruncatedSVDでの結果です。 日本共産党と護憲市民会議の議員は右下の近い位置に集まっています。 市民サイド・ネットの議員を見ると、二人は右下にいますが、一人だけ外れた位置にいます。 同じ会派とは言え、若干主張が違うのかもしれません。 柏清風は結構散らばっている印象を受けます。

SVD result

次元削減後の横と縦それぞれの軸を構成するベクトルの上位50単語は以下の通りです。 それぞれの軸の特徴を一言でいうのは難しそうですが、横軸については介護や病院といった単語から見るに社会保障とか高齢者福祉的な話題という感じでしょうか?一方縦軸は児童やいじめなど、学校、子供、教育的な話題と言えるかもしれません。

横軸

お尋ね
ふう
病院
答弁
制度
考え
伺い
委員
議会
保育
障害
議論
介護
市立
センター
負担
児童
保険
開発
実施
議案
保護
災害
相談
条例
方針
福祉
調査
議員
都市
000
健康
公共
住民
防災
図書館
要望
国保
子育て
日本
いじめ
非常
推進
財政
基本
交通
意見
企業
避難
公園

続いて縦軸

お尋ね
考え
いじめ
災害
伺い
避難
実施
産後
トイレ
児童
安全
投票
導入
子育て
相談
接種
認知
自転車
空き家
被害
防犯
火災
方々
が
ん
スポーツ
防止
発生
詐欺
電柱
虐待
進捗
防災
予防
水道
道路
難病
交通
自動
見通し
出産
自殺
動物
通学
aed
ブロック
保護
公明党
選挙
方針
地震

以下がNMFの結果です。ちょっと配置は変わりました。 非負値の制約があるのでマイナスの領域はありません。 今回もやはり日本共産党と護憲市民会議、市民サイド・ネットの2名は近い位置にいます。 SVDの時もそうでしたが、柏清風の一名が外れた場所にいるのがやや強調された印象を受けます。

NMF result

横と縦それぞれの上位50単語は以下の通りです。 ちょっと数字列が上位に来てしまっており、前処理で覗いておくべきだったかな、という気がします。 この結果を見る限りだと、各軸を一言で特徴づけるのはSVD同様難しそうですが、横軸は福祉などの社会保障の話題で、縦軸は何でしょうか、ちょっと一言で言えるフレーズが思いつきません。

横軸

100
35
29
40
27
いずれ
サービス
児童
住宅
原因
安心
交流
一番
家族
予想
15
困難
33
31
中央
委員
福祉
解消
公共
市政
大震災
30
実現
ことし
11
000
一部
26
スケジュール
あり方
財政
保育園
トイレ
制度
介護
言葉
意見
一定
人口
隣接
ごみ
小中学校
努力
午前

続いて縦軸

会社
初め
傾向
230
観点
健康
自立
特徴
進捗
交通
迅速
安全
がち
制定
過去
連携
町会
事故
主体
強化
変化
東武
開始
現実
適正
認識
特定
防災
募集
啓発
都市
選挙
東京大学
同様
実施
利便
防犯
要因
センター
システム
運動
カード
オリンピック
アクセス
乳がん
維持
不足
道路
2015
組織
市街地

次元削減後の軸をどう解釈するかで見方はいろいろ変わるかと思いますが、同じ党でもだいぶ離れた場所に配置される人もいたりと、会派というくくりでは見えないものが浮き彫りになるな、という感想です。

余計な単語を削ればもう少し結果の見通しが改善しそうな気がするので、前処理をもうちょっと頑張って議員の名前つきでちゃんとどこかに公開したいです。各議員のTFIDFのTOP50とか並べても良いかもしれません。


  1. http://taku910.github.io/mecab/ ↩︎

comments powered by Disqus