データの分析と知識発見

第１回「はじめに」

データ分析の流れと尺度水準について説明する。講義で導入するソフトウェアとしてRやRStudioについて説明し、Rを用いた基本的な計算について説明する。

第２回「Ｒによるレポートの作成」

Rにおける関数の使い方や定義の仕方について説明し、RStudioを用いてレポートを作成する方法について説明する。

第３回「Ｒにおけるファイル操作」

多次元のデータを扱うことを考え、配列やリストといったデータの形式について説明する。ファイルからデータを読み込むための方法について述べる。

第４回「表の作成」

質的データを分析する方法としてクロス集計について説明する。クロス集計表において項目間の関連を判断するための指標について説明し、データを読み込み、Rで表を作るための方法について学ぶ。

第５回「グラフの作成」

データをグラフにすることによって、データの持つ特徴を視覚的に把握することができ、より多くの情報を得ることができる。ここでは、代表的なグラフの種類や書き方について説明し、グラフを作成する上で気をつけるべき事柄について述べる。

第６回「検定」

検定はデータを元に何か判断を下す場合の定量的な根拠となる。根拠を得るためには確率分布の知識が必要となる。そこで検定の考え方、確率分布について説明し、Rでカイ２乗検定を行う手順を説明する。

第７回「回帰分析」

回帰分析とは、データの中のある変数を他の変数の線形結合によって表現しようとする方法である。まず回帰分析の係数の導出法や、当てはまりの指標について説明し、Rでシミュレーションを行う。

第８回「主成分分析」

主成分分析とは、多次元の成分の中で主となる成分を見つけ出す手法のことであり、それによって、多次元のデータを低次元で表現することも可能になる。主成分分析について説明し、Rを用いてシミュレーションを行う。

第９回「因子分析」

主成分分析と似た方法として因子分析がある。因子分析はデータの中に潜む共通の要因を見つけようとするものである。因子分析の概要、および因子負荷量の計算について説明し、Rでシミュレーションを行う。

第１０回「多次元尺度法」

距離をもとに座標を計算する方法である多次元尺度法について説明する。まず、距離の公理について説明したのち、手法について説明し、Rでシミュレーションを行う。

第１１回「クラスター分析」

データの集まりの中で似た特徴をもつまとまりのことをクラスターという。最初に近い特徴を持つものから順にクラスターを結合する階層的クラスター分析について説明し、次に非階層的クラスター分析の方法として、k-means法について説明する。

第１２回「アソシエーション分析」

データの関係として関係があるかどうかを表すのが相関であった。ここでは、データを元に「AであればBである」といった因果関係を導く方法であるアソシエーション分析について説明し、Rでシミュレーションを行う。

第１３回「決定木」

決定木とは条件の分岐を木構造で表現したものである。それは、データをある条件をもとに分割していく手法である。そこで、まず木構造について説明し、次にどのようにデータを分割するかという判断基準について説明し、Rでシミュレーションを行う。

第１４回「ニューラルネットワーク」

ニューラルネットワークについて説明する。それを踏まえ、例題を元に学習を行う教師あり学習について説明し、データの中からルールを学び予測する方法について説明し、Rでシミュレーションを行う。

第１５回「テキストマイニング」

講義のまとめとしてテキストを分析する手法の例について紹介する。この回では形態素解析をするフリーのソフトウェアを利用して文書から形態素解析によってテキストから定量的なデータを導き、今までに説明した手法を用いて文書の分類を行う例を示す。