研究テーマ

J48 C4.5  fileOtaruH19-J48-C025-M1.txt の場合

  • アンケート項目を作成するための関連段落抽出
  • 流れ

アンケートの質問項目の抽出方法を考える。

  1. 議事録から関連段落を抽出し、「、」と「。」で区切り、表示しただけ。
  2. カテゴリ名を含む文だけを抽出
  3. カテゴリ名を含む文だけを抽出(定例会、段落数を削除してシンプル表示)
  4. カテゴリ名を含むフレーズを構文解析した後に、2文節の係り受けを抽出し、句末が名詞で終了するように修正
  5. 1段落1カテゴリの段落のみを抽出
  6. 1段落に対して1カテゴリの注釈付けが行われている段落を抽出。 句点で区切った文を構文解析し、係り元->係り先の対を作成し、名詞で終わるように助詞、助動詞などを削除する。
  7. 1段落に対して1カテゴリの注釈付けが行われている段落を抽出。 句読点点で区切ったフレーズを名詞で終わるように助詞、助動詞などを削除する。
  8. 複合名詞を抽出し、出現頻度の高いものを出力する。名詞連続を複合名詞とする。
  9. アンケートを作ってみる。アンケート項目適当に選択する。
  10. アンケートを作ってみる。アンケート項目、TFIDF編 単独カテゴリ
  11. アンケートを作ってみる。アンケート項目、TFIDF編 複数カテゴリ
  12. アンケートを作ってみる。
  13. アンケートを作ってみる。
  14. アンケートを作ってみる。
  15. アンケートを作ってみる。 ver15削除してしまった。
  16. アンケートを作ってみる。
  17. アンケートを作ってみる。
  18. アンケートを作ってみる。 状態遷移表の考察

  1. 複合名詞を抽出し、出現頻度の高いものを出力する。名詞連続、「の」による連結名詞を複合名詞とする。
  2. 名詞トライグラムをカウントする。

抽出対象

  • 対象の会議録
    • 小樽市市議会会議録 平成19年 第1〜4回
  • 条件
    • Cオプション 0.25
    • Mオプション 1
  • カテゴリの有無について
    	 "カテゴリ名 <= 数値" は 無し  
    	 "カテゴリ名 >   数値" は 有り  
    	数値は無視している。 ”>” があるということは、注力していると判断する。
  • アンケート項目
    • 各議員の特徴的なカテゴリを対象として、発言を抽出してくる。
    • 句読点で分割
    • 特徴的なフレーズを抽出する。
  • C4.5から判断した各議員を特徴付けるカテゴリ
    	   1. 見楚谷登志 --
    	   2. 山口保 -- 財務
    	   3. 佐々木勝利 -- 医療
    	   4. 横田久俊 -- 条例
    	   5. 大橋一弘 -- 児童福祉
    	   6. 前田清貴 -- 児童福祉,財務
    	   7. 斉藤陽一良 -- 医療保険
    	   8. 大竹秀文 -- 医療保険,財務
    	   9. 吹田友三郎 -- 後期高齢者医療
    	  10. 久末恵子 -- 後期高齢者医療,財務
    	  11. 成田晃司 -- 後期高齢者医療,まちづくり
    	  12. 北野義紀 -- 後期高齢者医療,介護保険
    	  13. 古沢勝則 -- 軍事
    	  14. 井川浩子 -- 軍事,財務
    	  15. 高橋克幸 -- 軍事,どのカテゴリにも属さない
    	  16. 新谷とし -- 軍事,スポーツ
    	  17. 菊地葉子 -- 軍事,地球温暖化・気候変動
  • 考察
    • 山口さんが、まちづくり、観光に注力していることを考えると、この分岐はおかしい。
    • 個人相対頻度 上位3件 について考えてみる。

添付ファイル: fileOtaruH19-J48-C025-M1.txt 107件 [詳細]