R言語/統計 復習中
データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成
- 出版社/メーカー: 技術評論社
- 発売日: 2013/08/08
- メディア: 大型本
- この商品を含むブログ (13件) を見る
学生時代のゼミで触ってはいたけどもうすっかり忘れたので復習。 完全にメモ書きなので新しい情報はないです。
Rで統計解析をはじめよう
R関数
関数 | 用途 |
---|---|
geom_point() | 散布図 |
geom_histgram() | ヒストグラム |
summay() | 要約 |
aes() | “aesthetics(エステティクス、美的要素)”の略でグラフの色付けなどを指定 |
geom_smooth() | 回帰直線の描画 |
lm() | 線形回帰モデルの作成 |
glm() | ロジスティック回帰モデルの作成 |
rep() | ベクトル要素の反復 |
単語帳
英語 | 日本語 |
---|---|
Residuals | 残差(予測値と実績値の差) |
Intercept | 回帰直線の切片 |
Coefficients | 係数 |
Std.Error | 標準誤差 |
Estimate | 推定値 |
t value | T値*1 |
Pr | 相関係数 |
Multiple R-squared | 決定係数 |
Adjusted R-squared | 自由度調整済み決定係数 |
F-statistic | F統計量*2 |
DF | 自由度 |
z value | Z値*3 |
AIC | 赤池情報量基準*4 |
Fisher Scoring | フィッシャー情報量*5 |
deviance | 尤離度*6 |
likelihood | 尤度*7 |
多変量解析:予測モデル
予測モデルとは、どのような要因が結果に影響するかという因果関係を定量的に明確にするための技法。
回帰モデル
線形回帰モデル
目的変数を直線的な関係で予測するモデル。 説明変数が被説明変数(目的変数)に与える影響度を明らかにする。 直線上の点が説明変数に対する目的変数の予測値で、 予測値と実績値との差を残差という。 残差が小さいほどモデルの当てはまり(フィット)がよいと言える。
残差のパターン
残差の表れ方のパターンの例として以下のものがある。 1. モデルに対して程よく散らばっている 1. 放物線を描いている 1. 波のような曲線を描いている
放物線の場合は傾きの変化やフィットしていない値の特徴を分析する。 波の場合は周期性を持って変動する説明変数がないか検討する。
plot関数で出力されるグラフ
グラフ名 | 内容 |
---|---|
Residual vs Fitted | SPC:目的変数値に応じた残差の値を縦軸に表示 |
Normal Q-Q | 観測値の標準化後残差が正規分布に従う場合の期待値をx軸、観測値の標準化後残差をy軸にとったプロット。 |
Sacle-Location | Residual vs Fitted valuesのy軸について平方根をとったもの。 |
Regiduals vs Leverage | Leverage(てこ比)とは回帰分析の観察点(サンプル)毎に説明変数のデータを変えずに目的変数yの値を1だけ変えたときの予測値の変化量 |
引用元:R Linear Regression (線形回帰) (2) 予測モデルの作成と評価 - nakhirotのブログ
ロジスティック回帰モデル
2値データの目的変数(生存/死亡、メダルの裏表)に対して説明変数の影響力を推定する手法。 ある説明変数が変化することで、ある基準(reference)と比較して目的の確率がn倍になる(オッズ比)、という議論ができる。 Rではglm関数を使うことでモデルを構築できる。
決定木モデル
説明変数をツリーのノードとして、説明変数の分岐により目的変数への寄与度を可視化する手法。 より寄与度の高い説明変数がツリーの上に来る。
多変量解析:分類
分類モデルは、多変数のデータの類似関係を定性的に明確化する技法。 大きく分けて==次元縮約==と==クラスタリング==がある。
主成分分析
複数の量的データの類似関係を把握できるように、なるべく情報を落とさず少ない==次元==に要約するときに用いる手法。 複数因子のデータの散らばり(情報)から散らばりが残るような軸(主成分)を見つけ1次元のデータに要約する。 主成分同士の矢印の方向が近しいほど関連が高いといえる。
多次元尺度法(MDS)
データ間の距離や類似度から仮想的なマップを作成する手法。 ブランドイメージを二次元で可視化することでブランド同士のクラスタの分類などができる。 距離の算出手法は別に存在する。 MDSを実行するにはcmdscale関数を用いる。*8
クラスタリング
多数の変数で表現されたデータを、類似度という指標で似ている物同士をグルーピングする手法。 最短距離法などの階層的クラスタリングとk-means法などの非階層的クラスタリングがある。
k-means法
以下の手順でデータをグルーピングする。 1. k個のクラスタの中心の初期値を決める。 2. 各データをk個のクラスタの中心との距離を求めもっとも近いクラスタに分類。 3. 形成されたクラスタに分類されたデータの中心を求める。 4. クラスタの中心が変化しない時点まで2,3を繰り返す。 なお、初期値の扱いには注意が必要。
k-means法は欲張り探索で局所解を求める手法であるため,初期状態によって最終結果は大きく影響されます.一般的な対処法は,初期状態をランダムに変更して複数回 k-meansを実行して幾つかの分割を獲得し,それらの分割の中で評価関数を最小にするものを選びます.*9
*2:F 統計量と t 統計量 - MATLAB & Simulink - MathWorks 日本
*4:赤池情報量基準ってナニ? - hiroyukikojimaの日記
*8:書籍では北海道の都市間距離をプロットしてたけどOSXでは日本語が文字化けしてハマった。解決法はリンク参照。Using CJK Fonts in R and ggplot2 | Hi!!