Rを用いたデータ解析の基礎と応用2022

※資料作成は岩嵜航さん（東北大学）にご協力いただきました。

（左右キーで進みます！）

Return to HOME

もう少し高度なデータ解析へ！

1. 課題を見つける／仮説を立てる

2. 実験や観察をしてデータを集める

3. データを整理する

4. データを解析して仮説を検証する

生データをプロットするだけではつまらない…
データの計算や解析もプログラミングで行おう！

Return to HOME

データを解析しよう

データ解析にはdplyrとtidyrが便利

dplyrとtidyrとは

tidyverseパッケージ群の一つ
シンプルな関数がたくさん
繋げて使う（piping）といろんな解析ができる

再現性が高まる！

同じデータ処理の繰り返しが楽！

（３回同じ操作をするならプログラミングするべし！）

Return to HOME

dplyrの使い方の基本！

パイプ演算子（%>%）で指示を繋げて使う

ショートカットも使える（Ctrl + Shift + m）

library(tidyverse)                 #読み込み
result = diamonds %>%              #diamondsのデータから
  select(carat, cut, price) %>%    #carat, cut, priceだけ抽出して
  filter(carat > 2) %>%            #carat > 2のデータを抽出して
  group_by(cut) %>%                #cutごとにグループにして
  summarise_all(mean) %>%          #すべての平均値を計算する
  print()                          #表示してみる

## # A tibble: 5 × 3
##   cut       carat  price
##   <ord>     <dbl>  <dbl>
## 1 Fair       2.30 11972.
## 2 Good       2.14 14629.
## 3 Very Good  2.12 15133.
## 4 Premium    2.16 14992.
## 5 Ideal      2.15 15589.

Return to HOME

さっそくやってみよう！

サンプルデータ（penguins)で練習します

Return to HOME

dplyrを使ってみよう！

【復習】まずはサンプルデータ（penguins)をインストール

install.packages("palmerpenguins")    #インストールは最初の１回でOK

【復習】インストールしたら読み込み

library(palmerpenguins)               #penguinsを読み込み
library(tidyverse)                    #tidyverseを読み込み

Return to HOME

dplyrを使ってみよう！

文法（１）データをざっくり眺める

head(【data.frameの名前】)
- データフレームの先頭7行を表示する

head(penguins)                        #penguinsの最初を見せて！

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           NA            NA                 NA          NA <NA> 
## 5 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 6 Adelie  Torge…           39.3          20.6              190        3650 male 
## # … with 1 more variable: year <int>

Return to HOME

dplyrを使ってみよう！

文法（２）データの変数をリストアップする

str(【data.frameの名前】)
どの列を指定したらいいか調べるときに便利

str(penguins)                         #penguinsデータの変数を確認

## tibble [344 × 8] (S3: tbl_df/tbl/data.frame)
##  $ species          : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ island           : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ bill_length_mm   : num [1:344] 39.1 39.5 40.3 NA 36.7 39.3 38.9 39.2 34.1 42 ...
##  $ bill_depth_mm    : num [1:344] 18.7 17.4 18 NA 19.3 20.6 17.8 19.6 18.1 20.2 ...
##  $ flipper_length_mm: int [1:344] 181 186 195 NA 193 190 181 195 193 190 ...
##  $ body_mass_g      : int [1:344] 3750 3800 3250 NA 3450 3650 3625 4675 3475 4250 ...
##  $ sex              : Factor w/ 2 levels "female","male": 2 1 1 NA 1 2 1 2 NA NA ...
##  $ year             : int [1:344] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...

Return to HOME

dplyrを使ってみよう！

文法（３）指定した列を選び出す

select(【列名】)
- 指定した列名の列を選び出す

result = penguins %>%                    #penguinsのデータから
  select(species, bill_length_mm)        #species, bill_length_mm だけ選ぶ
head(result)                             #表示

## # A tibble: 6 × 2
##   species bill_length_mm
##   <fct>            <dbl>
## 1 Adelie            39.1
## 2 Adelie            39.5
## 3 Adelie            40.3
## 4 Adelie            NA  
## 5 Adelie            36.7
## 6 Adelie            39.3

Return to HOME

dplyrを使ってみよう！

文法（３）指定した列を選び出す

select(【列番号】)
- 列番号でも指定できる

result = penguins %>%                    #penguinsのデータから
  select(1, 4)                           #1, 4列目を選ぶ
head(result)                             #表示

## # A tibble: 6 × 2
##   species bill_depth_mm
##   <fct>           <dbl>
## 1 Adelie           18.7
## 2 Adelie           17.4
## 3 Adelie           18  
## 4 Adelie           NA  
## 5 Adelie           19.3
## 6 Adelie           20.6

Return to HOME

dplyrを使ってみよう！

文法（３）指定した列を選び出す

select(starts_with(“【文字】”))
- 部分一致でも指定できる
- 文字は”“で囲むこと！

result = penguins %>%                    #penguinsのデータから
  select(starts_with("b"))               #bで始まる列を選ぶ
head(result)                             #表示

## # A tibble: 6 × 3
##   bill_length_mm bill_depth_mm body_mass_g
##            <dbl>         <dbl>       <int>
## 1           39.1          18.7        3750
## 2           39.5          17.4        3800
## 3           40.3          18          3250
## 4           NA            NA            NA
## 5           36.7          19.3        3450
## 6           39.3          20.6        3650

Return to HOME

dplyrを使ってみよう！

文法（３）指定した列を選び出す

select(-【列名】)
- 除外したい列も設定できる（マイナス）
- 複数の列を除外したい場合は、列名をベクトルで指定

result = penguins %>%                    #penguinsのデータから
  select(-c(species, island))            #speciesとisland以外
head(result)                             #表示

## # A tibble: 6 × 6
##   bill_length_mm bill_depth_mm flipper_length_mm body_mass_g sex     year
##            <dbl>         <dbl>             <int>       <int> <fct>  <int>
## 1           39.1          18.7               181        3750 male    2007
## 2           39.5          17.4               186        3800 female  2007
## 3           40.3          18                 195        3250 female  2007
## 4           NA            NA                  NA          NA <NA>    2007
## 5           36.7          19.3               193        3450 female  2007
## 6           39.3          20.6               190        3650 male    2007

Return to HOME

dplyrを使ってみよう！

［練習問題］

islandとbody_mass_gを選んで表示してみよう
（次ページに答えがあります）

Return to HOME

dplyrを使ってみよう！

［練習問題］

islandとbody_mass_gを選んで表示してみよう

result = penguins %>%                    #penguinsのデータから
  select(island, body_mass_g)            #islandとbody_mass_gを選ぶ
head(result)                             #表示

## # A tibble: 6 × 2
##   island    body_mass_g
##   <fct>           <int>
## 1 Torgersen        3750
## 2 Torgersen        3800
## 3 Torgersen        3250
## 4 Torgersen          NA
## 5 Torgersen        3450
## 6 Torgersen        3650

Return to HOME

dplyrを使ってみよう！

文法（４）特定の値の行を抽出する

filter(【列名】 == 【値】)
- 完全一致は ==
- 文字列は”“で囲む

result = penguins %>%                    #penguinsのデータから
  filter(species == "Gentoo")            #ジェンツーペンギンだけを抽出
head(result)                             #表示

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Gentoo  Biscoe           46.1          13.2              211        4500 fema…
## 2 Gentoo  Biscoe           50            16.3              230        5700 male 
## 3 Gentoo  Biscoe           48.7          14.1              210        4450 fema…
## 4 Gentoo  Biscoe           50            15.2              218        5700 male 
## 5 Gentoo  Biscoe           47.6          14.5              215        5400 male 
## 6 Gentoo  Biscoe           46.5          13.5              210        4550 fema…
## # … with 1 more variable: year <int>

Return to HOME

dplyrを使ってみよう！

文法（４）特定の値の行を抽出する

filter(【列名】 %in% c(【値1】, 【値2】))
- 複数の値も抽出できる
- 複数の値はベクトルc(A, B, C)で与える

result = penguins %>%                            #penguinsのデータから
  filter(species %in% c("Chinstrap", "Gentoo"))  #ヒゲとジェンツーだけを抽出
head(result)                                     #表示

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Gentoo  Biscoe           46.1          13.2              211        4500 fema…
## 2 Gentoo  Biscoe           50            16.3              230        5700 male 
## 3 Gentoo  Biscoe           48.7          14.1              210        4450 fema…
## 4 Gentoo  Biscoe           50            15.2              218        5700 male 
## 5 Gentoo  Biscoe           47.6          14.5              215        5400 male 
## 6 Gentoo  Biscoe           46.5          13.5              210        4550 fema…
## # … with 1 more variable: year <int>

Return to HOME

dplyrを使ってみよう！

文法（４）特定の値の行を抽出する

filter(【列名】 > 【値】)
- 比較演算子も使える

result = penguins %>%                #penguinsのデータから
  filter(bill_length_mm < 45)        #bill_length_mmが45以下を抽出
head(result)                         #表示

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 5 Adelie  Torge…           39.3          20.6              190        3650 male 
## 6 Adelie  Torge…           38.9          17.8              181        3625 fema…
## # … with 1 more variable: year <int>

Return to HOME

うまく抽出できたかな…？（1/2）

変数（result）を直接見る

Environment > resultをクリック

Return to HOME

うまく抽出できたかな…？（2/2）

【復習】試しにプロットしてみよう！

まずは何もしていないデータ（penguins）で！

data.frame…penguins
X軸…bill_length_mm
Y軸…bill_depth_mm
色…species
（次ページに答えがあります）

Return to HOME

うまく抽出できたかな…？（2/2）

【復習】試しにプロットしてみよう！

gp = ggplot(data = penguins) +  
     geom_point(aes(x = bill_length_mm, y = bill_depth_mm, color = species))  
gp

## Warning: Removed 2 rows containing missing values (geom_point).

Return to HOME

うまく抽出できたかな…？（2/2）

【復習】試しにプロットしてみよう！

今度は抽出したデータ（result）で！

data.frame…result
X軸…bill_length_mm
Y軸…bill_depth_mm
色…species
（次ページに答えがあります）

Return to HOME

うまく抽出できたかな…？（2/2）

【復習】試しにプロットしてみよう！

gp = ggplot(data = result) +  
     geom_point(aes(x = bill_length_mm, y = bill_depth_mm, color = species))  
gp

45以下のデータだけになってますね！

Return to HOME

dplyrを使ってみよう！

文法（４）特定の値の行を抽出する

filter(【列名A】 > 【値】, 【列名B】 > 【値】)
- AND(,)も使える

result = penguins %>%                
  filter(bill_length_mm < 45, bill_depth_mm > 16) 
head(result)

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 5 Adelie  Torge…           39.3          20.6              190        3650 male 
## 6 Adelie  Torge…           38.9          17.8              181        3625 fema…
## # … with 1 more variable: year <int>

Return to HOME

うまく抽出できたかな…？

gp = ggplot(data = result) +  
     geom_point(aes(x = bill_length_mm, y = bill_depth_mm, color = species))  
gp

Return to HOME

dplyrを使ってみよう！

文法（４）特定の値の行を抽出する

filter(【列名A】 > 【値】|【列名B】 > 【値】)
- OR(|)も使える

result = penguins %>%                
  filter(bill_length_mm < 40| bill_length_mm > 50) 
head(result)

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 4 Adelie  Torge…           39.3          20.6              190        3650 male 
## 5 Adelie  Torge…           38.9          17.8              181        3625 fema…
## 6 Adelie  Torge…           39.2          19.6              195        4675 male 
## # … with 1 more variable: year <int>

Return to HOME

うまく抽出できたかな…？

plotしてみる

gp = ggplot(data = result) +  
     geom_point(aes(x = bill_length_mm, y = bill_depth_mm, color = species))  
gp

Return to HOME

dplyrを使ってみよう！

［練習問題］

2008年以降のDream島のメスの体重を種ごとに比較しよう
- どの列のどの値を取り出したらいいか？
- 何をX軸、Y軸にして可視化したらいいか？

Return to HOME

dplyrを使ってみよう！

［練習問題］

2008年以降のDream島のメスの体重を種ごとに比較しよう
データ抽出は…
- year > 2007 あるいは year >= 2008
- island == “Dream”
- sex == “female”
データ可視化は…
- X軸 = species
- Y軸 = body_mass_g

Return to HOME

dplyrを使ってみよう！

［練習問題］

result2 = penguins %>%                
  filter(year >= 2008, island == "Dream", sex == "female") 
head(result2)

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Dream            37.3          17.8              191        3350 fema…
## 2 Adelie  Dream            36.9          18.6              189        3500 fema…
## 3 Adelie  Dream            38.9          18.8              190        3600 fema…
## 4 Adelie  Dream            35.7          18                202        3550 fema…
## 5 Adelie  Dream            34            17.1              185        3400 fema…
## 6 Adelie  Dream            36.2          17.3              187        3300 fema…
## # … with 1 more variable: year <int>

Return to HOME

dplyrを使ってみよう！

［練習問題］

gp = ggplot(data = result2) +  
     geom_point(aes(x = species, y = body_mass_g))  
gp

できた人は、種ごとに色を付けてみよう！

Return to HOME

dplyrを使ってみよう！

［練習問題］

2008年以降のDream島のメスの体重を種ごとに比較しよう

gp = ggplot(data = result2) +  
     geom_point(aes(x = species, y = body_mass_g, color = species))  
gp

Return to HOME

dplyrを使ってみよう！

［練習問題］

2008年以降のDream島のメスの体重を種ごとに比較しよう

gp = ggplot(data = result2) +  
     geom_point(aes(x = species, y = body_mass_g, color = species),
                position = position_jitter(width = 0.1))  #横にばらつかせる
gp

Return to HOME

dplyrを使ってみよう！

文法（５−１）新しい列を作る／既存の列の値を変更する

mutate(【値】)

result = penguins %>%                 
  mutate(bill_length_mm/bill_depth_mm)  #(bill_length_mm)÷(bill_depth_mm)
head(result)

## # A tibble: 6 × 9
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           NA            NA                 NA          NA <NA> 
## 5 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 6 Adelie  Torge…           39.3          20.6              190        3650 male 
## # … with 2 more variables: year <int>, `bill_length_mm/bill_depth_mm` <dbl>

Return to HOME

dplyrを使ってみよう！

文法（５−１）新しい列を作る／既存の列の値を変更する

mutate(【値】)

result = penguins %>%                 
  mutate(bill_length_mm/bill_depth_mm)  #(bill_length_mm)÷(bill_depth_mm)
head(result)

## # A tibble: 6 × 9
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           NA            NA                 NA          NA <NA> 
## 5 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 6 Adelie  Torge…           39.3          20.6              190        3650 male 
## # … with 2 more variables: year <int>, `bill_length_mm/bill_depth_mm` <dbl>

Return to HOME

dplyrを使ってみよう！

文法（５−１）新しい列を作る／既存の列の値を変更する

mutate(【列名】=【値】)
- 列名も指定できる（既存の列名にすると上書き）

result = penguins %>%                   
  mutate(slenderness = bill_length_mm/bill_depth_mm)  #slendernessと名付ける
head(result)

## # A tibble: 6 × 9
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           NA            NA                 NA          NA <NA> 
## 5 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 6 Adelie  Torge…           39.3          20.6              190        3650 male 
## # … with 2 more variables: year <int>, slenderness <dbl>

Return to HOME

dplyrを使ってみよう！

文法（５−２）新しい列を作る／既存の列の値を変更する

mutate(【列名】=【値】)
- if_elseで条件に応じた値も入れられる（２条件分岐）

result = penguins %>%                   
  mutate(large_small = if_else(
    body_mass_g  < 4000,  "<4000", ">4000"
  ))  # body_mass_g が4000未満か, TRUEなら"<4000", FALSEなら">4000"

Environment > resultで見てみよう！

Return to HOME

dplyrを使ってみよう！

文法（５−２）新しい列を作る／既存の列の値を変更する

mutate(【列名】=【値】)
- case_whenで条件に応じた値も入れられる（３条件以上）

result = penguins %>%                   
  mutate(large_small =  case_when(
    flipper_length_mm > 200 & body_mass_g > 4000 ~ "long_large",
    flipper_length_mm < 200 & body_mass_g > 4000 ~ "short_large",
    flipper_length_mm > 200 & body_mass_g < 4000 ~ "long_small",
    flipper_length_mm < 200 & body_mass_g < 4000 ~ "short_small",
    TRUE                      ~ "others" #全て条件外の場合の指定
  ))

Environment > resultで見てみよう！
large_smallの列は思ったとおりになってるか？

Return to HOME

dplyrを使ってみよう！

［練習問題］

flipper_length_mm/body_mass_gを計算し、ratioという新しい列として加えよう
group列に、ratioが0.05以上の場合はlarge, 0.05未満の場合はsmallと入れよう
（次ページに答えがあります）

Return to HOME

dplyrを使ってみよう！

［練習問題］

flipper_length_mm/body_mass_gを計算し、ratioという新しい列として加えよう
group列に、ratioが0.05以上の場合はlarge, 0.05未満の場合はsmallと入れよう

result = penguins %>%                                   
  mutate(ratio = flipper_length_mm/body_mass_g) %>% 
  mutate(group = if_else(ratio >= 0.05, "large", "small"))
head(result)

## # A tibble: 6 × 10
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           NA            NA                 NA          NA <NA> 
## 5 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 6 Adelie  Torge…           39.3          20.6              190        3650 male 
## # … with 3 more variables: year <int>, ratio <dbl>, group <chr>

Return to HOME

dplyrを使ってみよう！

文法（６）数値を要約する

summarize(【関数名】(【列名】))
- 使える関数はmean, median, sd, max, min, n, Q1, Q2…

result = penguins %>%                   
  summarize(mean(bill_length_mm))       #くちばしの長さを平均する
head(result)

## # A tibble: 1 × 1
##   `mean(bill_length_mm)`
##                    <dbl>
## 1                     NA

値にNAが含まれているとNAを返す

Return to HOME

dplyrを使ってみよう！

文法（６）数値を要約する

summarize(【関数名】(【列名】))
- na.rm = TRUEとするとNAを除外して計算してくれる

result = penguins %>%                           
  summarize(bill_length_mean = mean(bill_length_mm, na.rm = TRUE)) 
                                                #くちばしの長さを平均する
head(result)

## # A tibble: 1 × 1
##   bill_length_mean
##              <dbl>
## 1             43.9

Return to HOME

dplyrを使ってみよう！

文法（６）数値を要約する

summarize(【関数名】(【列名】))
- group_byを組み合わせるとすごく便利！

result = penguins %>%                           
  group_by(species) %>%                  #speciesごとにグループ分けして
  summarize(bill_length_mean = mean(bill_length_mm, na.rm = TRUE), 
            .groups     = "drop")        #グループわけ解除
head(result)

## # A tibble: 3 × 2
##   species   bill_length_mean
##   <fct>                <dbl>
## 1 Adelie                38.8
## 2 Chinstrap             48.8
## 3 Gentoo                47.5

Return to HOME

dplyrを使ってみよう！

文法（６）数値を要約する

summarize(【関数名】(【列名】))
- 複数の集計もできる！

result = penguins %>%                           
  group_by(species) %>%                  #speciesごとにグループ分けして
  summarize(bill_length_mean = mean(bill_length_mm, na.rm = TRUE),
            bill_depth_median = median(bill_depth_mm, na.rm = TRUE), #中央値
            .groups     = "drop")               
head(result)

## # A tibble: 3 × 3
##   species   bill_length_mean bill_depth_median
##   <fct>                <dbl>             <dbl>
## 1 Adelie                38.8              18.4
## 2 Chinstrap             48.8              18.4
## 3 Gentoo                47.5              15

Return to HOME

dplyrを使ってみよう！

文法（６）数値を要約する

summarize(【関数名】(【列名】))
- 複数のグループもできる！

result = penguins %>%                           
  group_by(species, island) %>%     #species, islandごとにグループ分けして
  summarize(bill_length_mean = mean(bill_length_mm, na.rm = TRUE),
            bill_depth_median = median(bill_depth_mm, na.rm = TRUE), #中央値
            .groups     = "drop")               
head(result)

## # A tibble: 5 × 4
##   species   island    bill_length_mean bill_depth_median
##   <fct>     <fct>                <dbl>             <dbl>
## 1 Adelie    Biscoe                39.0              18.5
## 2 Adelie    Dream                 38.5              18.4
## 3 Adelie    Torgersen             39.0              18.4
## 4 Chinstrap Dream                 48.8              18.4
## 5 Gentoo    Biscoe                47.5              15

Return to HOME

dplyrを使ってみよう！

文法（６）数値を要約する

summarize(across(【列名のベクトル】, 【関数名】))
- across()を使うと短く書ける

result = penguins %>%                           
  group_by(species, island) %>%     #species, islandごとにグループ分けして
  summarize(across(c(bill_length_mm, bill_depth_mm),  
                   c(mean, sd), na.rm = TRUE),
            .groups     = "drop")            
head(result)

## # A tibble: 5 × 6
##   species   island    bill_length_mm_1 bill_length_mm_2 bill_depth_mm_1
##   <fct>     <fct>                <dbl>            <dbl>           <dbl>
## 1 Adelie    Biscoe                39.0             2.48            18.4
## 2 Adelie    Dream                 38.5             2.47            18.3
## 3 Adelie    Torgersen             39.0             3.03            18.4
## 4 Chinstrap Dream                 48.8             3.34            18.4
## 5 Gentoo    Biscoe                47.5             3.08            15.0
## # … with 1 more variable: bill_depth_mm_2 <dbl>

Return to HOME

dplyrを使ってみよう！

［練習問題］

種×性ごとのペンギンの体重の平均（mean）と分散（sd）を計算しよう
(次ページに答えがあります)

Return to HOME

dplyrを使ってみよう！

［練習問題］

種×性ごとのペンギンの体重の平均（mean）と分散（sd）を計算しよう

result2 = penguins %>%                           
  group_by(species, sex) %>%     #species, sexごとにグループ分けして
  summarize(body_mass_mean = mean(body_mass_g, na.rm = TRUE), #mean
            body_mass_sd = sd(body_mass_g, na.rm = TRUE),     #sd
            .groups     = "drop") 
head(result2)

## # A tibble: 6 × 4
##   species   sex    body_mass_mean body_mass_sd
##   <fct>     <fct>           <dbl>        <dbl>
## 1 Adelie    female          3369.         269.
## 2 Adelie    male            4043.         347.
## 3 Adelie    <NA>            3540          477.
## 4 Chinstrap female          3527.         285.
## 5 Chinstrap male            3939.         362.
## 6 Gentoo    female          4680.         282.

Return to HOME

dplyrを使ってみよう！

［練習問題］

種ごとの体重の性差を棒グラフ±エラーバーで示そう
- 棒グラフ…geom_col(x, y)
- エラーバー…geom_errorbar(x, ymin, ymax)
  - ymin…【平均の列名】-【分散の列名】
  - ymax…【平均の列名】+【分散の列名】
  - width…0.2
- 種ごとにfacet_wrap()かfacet_grid()でグラフを分ける
  - Step 2の p.25-26あたり

Return to HOME

dplyrを使ってみよう！

［練習問題］

gp = ggplot(data = result2) +  
     geom_col(aes(x = sex, y = body_mass_mean)) +
     geom_errorbar(aes(x = sex, 
                       ymin = body_mass_mean - body_mass_sd, 
                       ymax = body_mass_mean + body_mass_sd),
                       width = 0.2) +
     facet_wrap(~species)
gp

Return to HOME

dplyrを使ってみよう！

文法（７）複数のデータフレームを結合する

［練習問題］準備として…

penguinsのspecies, bill_length_mmをデータフレームpenguins_1に格納
island, body_mass_gをデータフレームpenguins_2に格納
ちゃんとできているかhead()で確認

Return to HOME

dplyrを使ってみよう！

文法（７）複数のデータフレームを結合する

［練習問題］準備として…

penguins_1 = penguins %>%
  select(species, bill_length_mm) %>%
  rownames_to_column() #行数を列にする
head(penguins_1)

## # A tibble: 6 × 3
##   rowname species bill_length_mm
##   <chr>   <fct>            <dbl>
## 1 1       Adelie            39.1
## 2 2       Adelie            39.5
## 3 3       Adelie            40.3
## 4 4       Adelie            NA  
## 5 5       Adelie            36.7
## 6 6       Adelie            39.3

Return to HOME

dplyrを使ってみよう！

文法（７）複数のデータフレームを結合する

［練習問題］準備として…

penguins_2 = penguins %>%
  select(island, body_mass_g) %>%
  rownames_to_column() #行数を列にする
head(penguins_2)

## # A tibble: 6 × 3
##   rowname island    body_mass_g
##   <chr>   <fct>           <int>
## 1 1       Torgersen        3750
## 2 2       Torgersen        3800
## 3 3       Torgersen        3250
## 4 4       Torgersen          NA
## 5 5       Torgersen        3450
## 6 6       Torgersen        3650

Return to HOME

dplyrを使ってみよう！

文法（７）複数のデータフレームを結合する

横に繋げるならbind_cols() 、縦に繋げるならbind_rows()

penguins_merge = 
  bind_cols(penguins_1, penguins_2) # peguins_1とpenguins_2を結合

## New names:
## • `rowname` -> `rowname...1`
## • `rowname` -> `rowname...4`

head(penguins_merge)

## # A tibble: 6 × 6
##   rowname...1 species bill_length_mm rowname...4 island    body_mass_g
##   <chr>       <fct>            <dbl> <chr>       <fct>           <int>
## 1 1           Adelie            39.1 1           Torgersen        3750
## 2 2           Adelie            39.5 2           Torgersen        3800
## 3 3           Adelie            40.3 3           Torgersen        3250
## 4 4           Adelie            NA   4           Torgersen          NA
## 5 5           Adelie            36.7 5           Torgersen        3450
## 6 6           Adelie            39.3 6           Torgersen        3650

Return to HOME

dplyrを使ってみよう！

文法（８）複数のデータフレームを列で紐付けて結合する

なんとか_join(【データフレーム１】, 【データフレーム２】, by = 【紐付けたい列名】)

- leftはデータフレーム1, rightはデータフレーム2のこと 
- left_joinは左に合わせる、right_joinは右に合わせる…

Return to HOME

dplyrを使ってみよう！

文法（８）複数のデータフレームを列で紐付けて結合する

なんとか_join(【データフレーム１】, 【データフレーム２】, by = 【紐付けたい列名】)

penguins_merge =
  left_join(penguins_1, penguins_2, by = "rowname") 
head(penguins_merge)

## # A tibble: 6 × 5
##   rowname species bill_length_mm island    body_mass_g
##   <chr>   <fct>            <dbl> <fct>           <int>
## 1 1       Adelie            39.1 Torgersen        3750
## 2 2       Adelie            39.5 Torgersen        3800
## 3 3       Adelie            40.3 Torgersen        3250
## 4 4       Adelie            NA   Torgersen          NA
## 5 5       Adelie            36.7 Torgersen        3450
## 6 6       Adelie            39.3 Torgersen        3650

Return to HOME

dplyrの文法まとめ

文法（１）head() …データを見る
文法（２）str()…変数のリストアップ
文法（３）select()…列の抽出
文法（４）filter()…特定の値の行の抽出
文法（５−１）mutate()…新たな行を作る
文法（５−２）mutate(if_else), mutate(casewhen)…条件分岐
文法（６）summarize()…数値の要約
文法（７−１）bind_cols()…横に結合
文法（７−２）bind_rows()…縦に結合
文法（８）なんとか_join()…特定の列で紐付けて結合

dplyrの文法まとめ

他にもエクセルでできること全て + さらに複雑なこともできる
知りたかったらこのあたり

Return to HOME

いよいよ難関の…tidyrを使ってみよう！

データの変形ができる最強ツール

他人のデータの多くはそのまま使えない…
手でコピペして新たなcsvを作るのはナンセンス
そんなときはtidyrで一気に変換！
ちょっとハードルは高いけど、使えるようになると最強です

Return to HOME

いよいよ難関の…tidyrを使ってみよう！

tidyrでできること

縦長←→横広の変換

セルの分割/結合

などなど…

Return to HOME

tidyrを使ってみよう！

文法（９−１）縦長のデータを横広に

pivot_wider(names_from = 【新しく列名になる列の名前】, values_from = 【動かしたい値の列の名前】)

penguins_wide = penguins %>%
  pivot_wider(names_from = year,         #yearの列を横に並べて列名に
              values_from = body_mass_g) #値にはbody_mass_g列の値が入る
head(penguins_wide)

## # A tibble: 6 × 9
##   species island    bill_length_mm bill_depth_mm flipper_length_mm sex    `2007`
##   <fct>   <fct>              <dbl>         <dbl>             <int> <fct>   <int>
## 1 Adelie  Torgersen           39.1          18.7               181 male     3750
## 2 Adelie  Torgersen           39.5          17.4               186 female   3800
## 3 Adelie  Torgersen           40.3          18                 195 female   3250
## 4 Adelie  Torgersen           NA            NA                  NA <NA>       NA
## 5 Adelie  Torgersen           36.7          19.3               193 female   3450
## 6 Adelie  Torgersen           39.3          20.6               190 male     3650
## # … with 2 more variables: `2008` <int>, `2009` <int>

詳しい使い方はこちらを参照

Return to HOME

tidyrを使ってみよう！

文法（９−２）横広のデータを縦長に

pivot_longer(cols = 【動かしたい値が含まれている列】, names_to = 【元々列名だったものを入れる列の名前】, values_to = 【値の移動先の列名】)

penguins_long = penguins_wide %>%
  pivot_longer(cols = c(`2007`, `2008`, `2009`), #これらを縦に並べて値に
               names_to = "YEAR",                #新たな列名はYEAR（文字列なので""で囲む）
               values_to = "BODY_MASS_G")        #元々の値を入れる列名はBODY_MASS_Gに
head(penguins_long)

## # A tibble: 6 × 8
##   species island    bill_length_mm bill_depth_mm flipper_length_mm sex    YEAR 
##   <fct>   <fct>              <dbl>         <dbl>             <int> <fct>  <chr>
## 1 Adelie  Torgersen           39.1          18.7               181 male   2007 
## 2 Adelie  Torgersen           39.1          18.7               181 male   2008 
## 3 Adelie  Torgersen           39.1          18.7               181 male   2009 
## 4 Adelie  Torgersen           39.5          17.4               186 female 2007 
## 5 Adelie  Torgersen           39.5          17.4               186 female 2008 
## 6 Adelie  Torgersen           39.5          17.4               186 female 2009 
## # … with 1 more variable: BODY_MASS_G <int>

詳しい使い方はこちらを参照

Return to HOME

tidyrを使ってみよう！

［練習問題］

くちばしの長さと幅を比較するグラフを書きたいとき…
- 比較する値はX軸に示したい

Return to HOME

tidyrを使ってみよう！

［練習問題］

くちばしの長さと幅を比較するグラフを書きたいとき…
- まずは元データがどうだったか確認する
- くちばしの長さと幅を直接X軸に指定できない…

head(penguins)                        #penguinsデータを確認

## # A tibble: 6 × 8
##   species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex  
##   <fct>   <fct>           <dbl>         <dbl>            <int>       <int> <fct>
## 1 Adelie  Torge…           39.1          18.7              181        3750 male 
## 2 Adelie  Torge…           39.5          17.4              186        3800 fema…
## 3 Adelie  Torge…           40.3          18                195        3250 fema…
## 4 Adelie  Torge…           NA            NA                 NA          NA <NA> 
## 5 Adelie  Torge…           36.7          19.3              193        3450 fema…
## 6 Adelie  Torge…           39.3          20.6              190        3650 male 
## # … with 1 more variable: year <int>

Return to HOME

tidyrを使ってみよう！

［練習問題］

くちばしの長さと幅を比較するグラフを書きたいとき…
- こんな形だったら、x = PARTS, y = VALUE で指定できる

## # A tibble: 688 × 3
##    species PARTS          VALUE
##    <fct>   <chr>          <dbl>
##  1 Adelie  bill_length_mm  39.1
##  2 Adelie  bill_depth_mm   18.7
##  3 Adelie  bill_length_mm  39.5
##  4 Adelie  bill_depth_mm   17.4
##  5 Adelie  bill_length_mm  40.3
##  6 Adelie  bill_depth_mm   18  
##  7 Adelie  bill_length_mm  NA  
##  8 Adelie  bill_depth_mm   NA  
##  9 Adelie  bill_length_mm  36.7
## 10 Adelie  bill_depth_mm   19.3
## # … with 678 more rows

Return to HOME

tidyrを使ってみよう！

［練習問題］

くちばしの長さと幅を比較するグラフを書きたいとき…
- pivod_longerでpenguinsを変換しよう！
- pivot_longer(cols = 【動かしたい値が含まれている列】, names_to = 【元々列名だったものを入れる列の名前】, values_to = 【値の移動先の列名】)
  - もともとの列名を入れる列の名前…“PARTS”
  - 値の移動先の列名…“VALUE”
  - 動かしたい列はどれ？
    - 複数はベクトルc(【列名１】, 【列名２】)で指定

Return to HOME

tidyrを使ってみよう！

［練習問題］

penguins2 = penguins %>%                                  #penguins2に格納
  pivot_longer(cols = c(bill_length_mm, bill_depth_mm),   #列を指定
               names_to = "PARTS", values_to = "VALUE")   #新たな列の名前
head(penguins2)

## # A tibble: 6 × 8
##   species island    flipper_length_mm body_mass_g sex     year PARTS       VALUE
##   <fct>   <fct>                 <int>       <int> <fct>  <int> <chr>       <dbl>
## 1 Adelie  Torgersen               181        3750 male    2007 bill_lengt…  39.1
## 2 Adelie  Torgersen               181        3750 male    2007 bill_depth…  18.7
## 3 Adelie  Torgersen               186        3800 female  2007 bill_lengt…  39.5
## 4 Adelie  Torgersen               186        3800 female  2007 bill_depth…  17.4
## 5 Adelie  Torgersen               195        3250 female  2007 bill_lengt…  40.3
## 6 Adelie  Torgersen               195        3250 female  2007 bill_depth…  18

できたらggplot2でグラフを作ろう！（geom_pointで）

Return to HOME

tidyrを使ってみよう！

［練習問題］

gp = ggplot(data = penguins2) +
  geom_point(aes(x = PARTS, y = VALUE)) +
  facet_wrap(~species)
gp

## Warning: Removed 4 rows containing missing values (geom_point).

Return to HOME

tidyrを使ってみよう！

文法（１０）文字列カラムを複数に分割

separate(col = 【切り分けたい列の名前】, into = 【新しい列名】, sep = 【セパレータ】)
- セパレータを指定しないと非アルファベットで切れる
- 整数を渡すと位置で切れる（“A4”を1Lで切ると”A”と”4”に）
- 詳しい使い方はこちらを参照

penguins2_sep = penguins2 %>%
  separate(col = PARTS, into = c("A", "B", "C"), sep = "_") 
　　　　　　　　　　　　　　　　　　　　      　　#intoは文字列ベクターで
head(penguins2_sep)

## # A tibble: 6 × 10
##   species island    flipper_length_mm body_mass_g sex     year A     B     C    
##   <fct>   <fct>                 <int>       <int> <fct>  <int> <chr> <chr> <chr>
## 1 Adelie  Torgersen               181        3750 male    2007 bill  leng… mm   
## 2 Adelie  Torgersen               181        3750 male    2007 bill  depth mm   
## 3 Adelie  Torgersen               186        3800 female  2007 bill  leng… mm   
## 4 Adelie  Torgersen               186        3800 female  2007 bill  depth mm   
## 5 Adelie  Torgersen               195        3250 female  2007 bill  leng… mm   
## 6 Adelie  Torgersen               195        3250 female  2007 bill  depth mm   
## # … with 1 more variable: VALUE <dbl>

Return to HOME

tidyrを使ってみよう！

冗長だったX軸の値もスッキリ！

gp = ggplot(data = penguins2_sep) +
  geom_point(aes(x = B, y = VALUE)) +
  facet_wrap(~species)
gp

## Warning: Removed 4 rows containing missing values (geom_point).

Return to HOME

tidyrを使ってみよう！

文法（１１）複数の文字列カラムを結合

unite(col = 【新しい列名】, 【結合したい列名をベクターで】, sep = 【セパレータ】)
- 詳しい使い方はこちらを参照

penguins2_unite = penguins2_sep %>%
  unite(col = "PARTS", c(A, B, C), sep = ".") 
head(penguins2_unite)

## # A tibble: 6 × 8
##   species island    flipper_length_mm body_mass_g sex     year PARTS       VALUE
##   <fct>   <fct>                 <int>       <int> <fct>  <int> <chr>       <dbl>
## 1 Adelie  Torgersen               181        3750 male    2007 bill.lengt…  39.1
## 2 Adelie  Torgersen               181        3750 male    2007 bill.depth…  18.7
## 3 Adelie  Torgersen               186        3800 female  2007 bill.lengt…  39.5
## 4 Adelie  Torgersen               186        3800 female  2007 bill.depth…  17.4
## 5 Adelie  Torgersen               195        3250 female  2007 bill.lengt…  40.3
## 6 Adelie  Torgersen               195        3250 female  2007 bill.depth…  18

Return to HOME

tidyrの文法まとめ

文法（９−１）pivod_wider() …縦長を横広に
文法（９−２）pivod_longer()…横広を縦長に
文法（１０）separate()…カラムを分割
文法（１１）unite()…カラムを結合

Return to HOME

tidyrの文法まとめ

他にもたくさん便利な機能がある
知りたかったらこのあたり
- R自学自習の基礎知識（Heavy Watal）
- 公式チートシート

Return to HOME

dplyrとtidyrの使い方のおさらい！

パイプ演算子（%>%）で指示を繋げて使う

library(tidyverse)                 #読み込み
result = diamonds %>%              #diamondsのデータから
  select(carat, cut, price) %>%    #carat, cut, priceだけ抽出して
  filter(carat > 2) %>%            #carat > 2のデータを抽出して
  group_by(cut) %>%                #cutごとにグループにして
  summarise_all(mean) %>%          #すべての平均値を計算する
  print()                          #表示してみる

エラーを解決するコツは…
一度にコードを走らせず、各行の%>%の前まで走らせる
head(result)で結果を見て、どこまでうまくいってるか調べる
エラーが出た行をよく見て間違いを探す

Return to HOME

dplyrとtidyrのまとめ

データを解析したいな

まずはどんなグラフを描きたいか考えよう
次にどんなdata.frameがほしいか考えよう

どうやるんだっけ

規則性のある形ならだいたいなんとかなる。
具体的な方法を忘れたらググる！前のコードを使い回す！
めっちゃエラーが出るんですけど…
- 凡ミスがないか確認、エラーコードもよく読む
- よくあるエラー集

→Step 5：自分のデータを扱おう

Return to HOME