1. 課題を見つける/仮説を立てる
2. 実験や観察をしてデータを集める
3. データを整理する
4. データを解析して仮説を検証する
- 実はデータを使える形にするのが最も重要!!
- 最近総務省も「統計表における機械判読可能なデータの表記方法の統一ルール」を策定
- データ入力に関する、全国民が見るべき資料と話題に
※資料作成は岩嵜航さん(東北大学)にご協力いただきました。
(左右キーで進みます!)
library(palmerpenguins) #読み込みはRを起動するたびに必要 head(penguins)
## # A tibble: 6 × 8 ## species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g sex ## <fct> <fct> <dbl> <dbl> <int> <int> <fct> ## 1 Adelie Torge… 39.1 18.7 181 3750 male ## 2 Adelie Torge… 39.5 17.4 186 3800 fema… ## 3 Adelie Torge… 40.3 18 195 3250 fema… ## 4 Adelie Torge… NA NA NA NA <NA> ## 5 Adelie Torge… 36.7 19.3 193 3450 fema… ## 6 Adelie Torge… 39.3 20.6 190 3650 male ## # … with 1 more variable: year <int>
library(tidyverse) #読み込みはRを起動するたびに必要 data = read_csv("test.csv") head(data)
## # A tibble: 0 × 25 ## # … with 25 variables: plant_id <chr>, march_2021 <chr>, april_2021 <chr>, ## # may_2021 <chr>, june_2021 1 <chr>, 25 <chr>, 60 <chr>, 42 <chr>, 83 2 <chr>, ## # 4...10 <chr>, 10 <chr>, 30 <chr>, 21 3 <chr>, 81 <chr>, 92 <chr>, ## # NA...16 <chr>, 52 4 <chr>, 13 <chr>, NA...19 <chr>, 15 <chr>, 12 5 <chr>, ## # 94 <chr>, 23 <chr>, 4...24 <chr>, 0 <chr>
write_csv(data, file = "test2.csv")
サンプル数(N数)は多いほど良い!
違いが微妙なものより極端なものを比較する!
注目する要因以外のばらつきの存在もお忘れなく