Rを用いた
データ解析の基礎と応用2023

石川由希（名古屋大学生命理学）
2023年6月29日-7月2日

Rを用いた
データ解析の基礎と応用2023

※ Step 1 ~ 6をクリックするとスライドが表示されます

※ これは2023年度版です！最新のスライドをチェックしたければこちら

Step 1：まずは準備しよう！

実習までに行うこと（RとR Studioのインストール）
実習について

Step 2：Rの基本をマスターしよう！

Step 3：データを可視化しよう！

データ可視化の重要性
ggplot2でデータを眺めよう
- geom_histogram ヒストグラム
- geom_density 密度分布
- geom_point 散布図
  - aes(color) 色を表現する
  - facet_wrap, facet_grid グラフを分ける
- geom_boxplot 箱ヒゲ
  - theme_*** 全体の雰囲気を変える
  - color（aesの外）線を特定の色にする
  - fill（aesの外）特定の色で塗りつぶす
  - color（aesの中）線を値に応じた色にする
- coord_cartesian 軸の範囲を変える
- labs タイトルや軸ラベルを書く／書き換える
- theme 文字の大きさなどを細かく設定
- ggsave() 図をファイルとして保存
- その他のグラフの描き方を知りたい方は
  - ggplot2公式サイト
  - Jaehyun Songさんの解説
  - など

Step 4：データを解析しよう！

dplyrでデータを解析しよう
- head() データをざっくり眺める
- str() データの変数をリストアップする
- select() 指定した列を選び出す
  - select(starts_with()) 部分一致
- filter() 特定の値の行を抽出する
  - filter(【列名】 %in% c(【値1】, 【値2】)) 複数の値
  - filter(【列名】 > 【値】) 比較演算子
  - filter(【列名A】 > 【値】, 【列名B】 > 【値】) 複数条件（AND）
  - filter(【列名A】 > 【値】| 【列名B】 > 【値】) 複数条件（OR）
- mutate() 新しい列を作る／既存の列の値を変更する
  - mutate(if_else()), mutate(case_when) 条件に応じた値
- summarize() 数値を要約する
  - group_by() 特定のグループに分けて要約する
  - across() 複数条件の要約を短く書く
- bind_cols, bind_rows 複数のデータフレームを結合する
- ***_join 複数のデータフレームを列で紐付けて結合する
- その他便利な関数を探したい方は
  - Heavy Watalさんの解説
  - dplyr公式チートシート
tidyrでデータを使える形に変形しよう
- pivot_wider() 縦長のデータを横広に
- pivot_longer() 横広のデータを縦長に
- separate() 文字列カラムを複数に分割
- unite() 複数の文字列カラムを結合
- その他便利な関数を探したい方は
  - Heavy Watalさんの解説
  - tidyr公式チートシート
ggplot2の実例
- 棒グラフ±エラーバー

Step 5：自分のデータを扱おう！

整然（tidy）データとは何か
readrで自分のデータを読み込もう
- read_csv() CSVファイルの読み込み
- write_csv() CSVファイルの書き出し

Step 6：統計解析をしよう！

よくあるエラーの解決方法

自由課題とレポート作成について

著者について

石川由希（名古屋大学生命理学）
- 名古屋大学理学研究科生命理学専攻講師
- 専門：進化生物学、神経行動学