トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS

調査統計学2008/20080708

by y --> by y -->

調査統計学2008

今日の実習

今日の目標

  • KH coderをインストール
  • 新聞記事データのテキストファイルを使って、計量テキスト分析に手を染めてみる
  • 課題を終える

使用するプログラム

  • kh-coder

マニュアル

今日やること2

  • チュートリアルにそってKH-Coderができることを確認

前処理

  • 強制的に抽出する語の取捨選択
  • 「前処理」→「語の取捨選択」で「強制抽出する語」に"K"を入力
  • 前処理の実行

頻出語の確認

  • どのような言葉がテキスト中に多く出現しているか?
    • 「ツール」→「抽出語」→「品詞別出現回数順リスト」
    • EXCELで「KH Coder」→「品詞別出現回数順リスト」→「一列に成形」
    • EXCELで「KH Coder」→「品詞別出現回数順リスト」→「頻出150語の表を作成」

部ごとに特徴的な言葉

    • テキストファイルで、<h1></h1>タグで指定
    • 第一部から第三部まである
  • コーディングファイル
    • <h1></h1>で囲まれた見出しに名前をつける
    • part.cod
    • コーディングファイルはダブルクリックして開かずに、メモ帳から開いて編集すること
  • 部ごとに特徴的な言葉・良く出てくる言葉あるか?
    1. 「ツール」→「文書」→「抽出後連関規則」
    2. 「参照」ボタンをクリックして、"part.cod"を指定
    3. 「集計範囲」は"文"
    4. 「コード選択」で「*上 先生と私」をダブルクリック
    5. 「フィルタ設定」をクリック
    6. 末尾に"B"がついた品詞と「形容詞(非自立)」のチェックを外す
    7. 「OK」をクリック
    8. 第一部に特徴的な言葉がわかる
    9. 第二部、第三部ではどうか?

コーディングルールの作成

  • ある概念にあてはまる言葉をまとめる(コーディングする)
    • "thema.cod"
  • コーディングルールの書き方
    1. *コード名
    2. 言葉 or 言葉 or 言葉
  • 言葉の検索
    1. 「ツール」→「抽出語」→「検索」
    2. 活用したいくつかの言葉が表示される

部ごとに各概念(コード)の出現頻度は異なるか?

  1. 「ツール」→「コーディング」→「章・節・段落ごとの集計」
  2. 「参照」をクリックして、"thema.cod"を選択
  3. 「コーディング単位」を「段落」に
  4. 「集計単位」で「H1」を選択
  5. 「セル内容」を「パーセントのみ」に
  6. 「集計」をクリック
  7. 各部ごとに何%の段落に各概念(コード)が含まれているかが表示される

章ごとに各概念(コード)の出現頻度は異なるか?

  1. 「ツール」→「コーディング」→「章・節・段落ごとの集計」
  2. 「参照」をクリックして、"thema.cod"を選択
  3. 「コーディング単位」を「段落」に
  4. 「集計単位」で「H2」を選択
  5. 「セル内容」を「パーセントのみ」に
  6. 「集計」をクリック
  7. 各部ごとに何%の段落に各概念(コード)が含まれているかが表示される
  8. でてきた結果をEXCELにコピペして、グラフを作ってみよう

課題

  1. こころに出てくる頻出名詞トップ10を調べる
  2. 第一部によく出てくる形容詞トップ5を調べる
  3. 何かに関する言葉をコーディングし、部ごとに出現率が異なるかを調べる
  4. 結果は、レポートとして中野に提出(紙) ゼミ・実習I2007春?

今日やること3

  • 戦争に関する新聞記事データをもとにして内容分析を行う。KH-coderでテキストを数値化し、(1)言葉の使われ方、(2)記事の特徴、を多変量解析の一種であるクラスター分析と対応分析を使って分析してみる
    1. 言葉の使われ方:テキストデータに含まれる「社会のイメージ」
      • 「抽出語×文脈ベクトル」表を作成して、どのような言葉がお互いに関連して使われいてるのかを探る
      • 「抽出語×文脈ベクトル」表とは、抽出された単語がどのような単語とともに出現しているのかをまとめた表である。
    2. 記事の特徴:テキストデータに含まれる「社会のイメージ」の時系列的な変化
      • 「文書×抽出語」表を作成して、記事内容が月別にどのように変化し、各月の内容はお互いにどのような類似度をもっているのかを探る
      • 「文書×抽出語」表とは、指定した文書単位ごとに抽出された言葉がどのような頻度で出現するかをまとめた表である。

朝日新聞の戦争記事(1985)

  • ファイルのDLとプロジェクトの登録
    • このページ下段にある oorlog-html-85.txt 上にマウスカーソルをもっていき、右クリックして「ファイル名をつけて保存」
    • 保存場所はお好きなところに
  • KH Coder をたちあげて、プロジェクトを登録する
    • 前処理を実行

データの抽出

  • 抽出語×文脈ベクトル(ツール→文書→「抽出語×文脈ベクトル」表の出力→CSVファイル)
    • 抽出語
      • 最小出現数:120
      • 品詞による語の選択: 名詞、サ変名詞、固有名詞、組織名、人名、地名
    • 文脈ベクトル使用語
      • 最小出現数:12
      • 品詞による語の選択:形容詞、形容動詞、副詞(104)
    • 集計単位と重み付けの
      • 文:1
    • ファイル名:oorlog-120X104-vector.csv
  • 文書×抽出語(ツール→文書→「文書×抽出語」表の出力→CSVファイル)
    • 集計単位の選択:H1
    • 最小出現数:50
    • 品詞による語の選択:名詞、サ変名詞、固有名詞、組織名、人名、地名
    • ファイル名:oorlog-meishiXmonth.csv

データ分析

  • フリーな統計ソフト R を利用する
    • R を起動
    • 「ファイル」→「ディレクトリの変更」で、csvファイルを保存しているフォルダを選ぶ(例えば、デスクトップなど)
    • 以下、次のスクリプトを一行ずつ実行
#データの読み込み(文脈ベクトルのデータをファイルからよみこむ。)
read.csv("oorlog-120X104-vector.csv", header = TRUE, sep = ",", quote="\"", dec=".") -> x
#クラスター分析して結果を樹状図で表示
plot(hclust(dist(x)),labels=x[,1])
#図上で右クリックすると、図のコピーや保存のメニューが出る

#データの読み込み(文書×抽出語のデータをファイルから読み込む。)
read.csv("oorlog-meishiXmonth.csv", header = TRUE, sep = ",", quote="\"", dec=".") -> y
#クラスター分析して結果を樹状図で表示
plot(hclust(dist(y)),labels=y[,1])
#対応分析を行い結果を二次元の散布図で表示 
library(MASS)
plot(corresp(y,nf=2))

結果の解釈

oorlog-mva-00.png
oorlog-mva-02.png
  • クラスター分析(文脈ベクトル)
    • 同じ(近い)クラスターに含まれるのが、「距離」が近い語
    • 記事の中で各語がどのような文脈で使われているのかが分かる
  • クラスター分析(文書×抽出語)
    • 同じ(近い)クラスターに含まれるのが、同じような言葉が出て来る記事を多く含む「近い」月
    • 月毎の記事の類似度がわかる
  • 対応分析(文書×抽出語)
    • 近い場所にプロットされている月が、同じような言葉が出て来る記事を多く含む「近い」月
    • 近い場所にプロットされている語が、同じ月の記事に出て来ることが多い「近い」語
    • 月毎の記事の類似度と、その内容がわかる

課題

  • 言葉の使われ方の分析(1)
    • 文脈ベクトルを作成
      • 最小出現回数120の、名詞、サ変名詞、固有名詞、組織名、人名、地名、を抽出
      • 最小出現回数12の、形容詞、形容動詞、副詞、を文脈ベクトルに使用
      • 集計単位と重み付けの設定で、集計単位を記事単位(h2)にする(要チェック)
      • 文脈ベクトルファイル"oorlog-120x104-h2-vector.csv"を出力
    • Rでクラスター分析
      • 分析を行い、その図を保存
      • wordにその図を張り付けて、解釈を報告
  • 言葉の使われ方の分析(2)
    • 文脈ベクトルを作成
      • 最小出現回数120の、名詞、サ変名詞、固有名詞、組織名、人名、地名、を抽出
      • 最小出現回数50の、名詞、サ変名詞、固有名詞、組織名、人名、地名、を文脈ベクトルに使用
      • 文脈ベクトルファイル"oorlog-120x50-vector.csv"を出力
    • Rでクラスター分析
      • 分析を行い、その図を保存
      • wordにその図を張り付けて、解釈を報告
  • 記事の月毎の特徴分析(1)
    • 文書×抽出語表を作成
      • 集計単位の選択:H1
      • 最小出現数:120
      • 品詞による語の選択:名詞、サ変名詞、固有名詞、組織名、人名、地名
      • 文書×抽出語表ファイル"oorlog-meishiXmonth-120.csv"を出力
    • Rでクラスター分析および対応分析
      • 分析を行い、その図を保存
      • wordにその図を張り付けて、解釈および二つの分析方法による違いを報告
  • 記事の月毎の特徴分析(2)
    • 文書×抽出語表を作成
      • 集計単位の選択:H1
      • 最小出現数:30
      • 品詞による語の選択:形容詞、形容動詞、副詞
      • 文書×抽出語表ファイル"oorlog-keiyouXmonth-30.csv"を出力
    • Rでクラスター分析および対応分析
      • 分析を行い、その図を保存
      • wordにその図を張り付けて、解釈および二つの分析方法による違いを報告

添付ファイル: fileoorlog-mva-02.png 937件 [詳細] fileoorlog-mva-00.png 890件 [詳細]