Chapter 11 Import Data
데이터 분석의 첫번째 단계는 데이터를 불러오는 것이며, 일반적으로 텍스트 혹은 엑셀 파일로 저장된 데이터를 사용합니다.
아래와 같은 데이터가 각각 csv, excel, RDS 파일로 저장된 예제를 살펴보겠습니다.
variable 1, variable 2, variable 3
10,beer,TRUE
25,wine,TRUE
8,cheese,FALSE
해당 파일의 주소는 다음과 같습니다.
csv: https://github.com/hyunyulhenry/data_wrangling/blob/master/mydata.csv
txt: https://github.com/hyunyulhenry/data_wrangling/blob/master/mydata.txt
excel: https://github.com/hyunyulhenry/data_wrangling/blob/master/mydata.xlsx
rds: https://github.com/hyunyulhenry/data_wrangling/blob/master/mydata.rds
먼저 다음 코드를 이용해 해당 파일들을 다운로드 받도록 합니다.
download.file('https://raw.githubusercontent.com/hyunyulhenry/data_wrangling/master/mydata.csv', 'mydata.csv')
download.file('https://raw.githubusercontent.com/hyunyulhenry/data_wrangling/master/mydata.txt', 'mydata.txt')
download.file('https://github.com/hyunyulhenry/data_wrangling/raw/master/mydata.xlsx','mydata.xlsx', mode = 'wb')
download.file('https://github.com/hyunyulhenry/data_wrangling/raw/master/mydata.rds','mydata.rds')
11.1 csv 파일 불러오기
먼저 R의 기본함수와 readr
패키지를 이용하여 csv 파일을 불러오는 법에 대해 살펴보겠습니다.
11.1.1 기본함수
read.table()
함수는 데이터를 불러오는 R의 가장 기본인 함수며, read.csv()
와 read.delim()
함수는 특수한 경우의 래퍼 함수라 볼 수 있습니다.
= read.csv('mydata.csv')
mydata mydata
## variable.1 variable.2 variable.3
## 1 10 beer TRUE
## 2 25 wine TRUE
## 3 8 cheese FALSE
str(mydata)
## 'data.frame': 3 obs. of 3 variables:
## $ variable.1: int 10 25 8
## $ variable.2: chr "beer" "wine" "cheese"
## $ variable.3: logi TRUE TRUE FALSE
먼저 열이름인 variable 다음에 점(.)이 붙은 것이 확인됩니다. 이처럼 기본함수를 사용할 경우 열 이름의 공백은 점으로 바뀌게 됩니다.
read.table()
함수를 이용하여 csv 데이터를 불러올 수도 있습니다.
read.table('mydata.csv', sep = ',', header = TRUE)
## variable.1 variable.2 variable.3
## 1 10 beer TRUE
## 2 25 wine TRUE
## 3 8 cheese FALSE
구분자에 해당하는 sep를 ’,’로 지정해 주며, 열이름에 해당하는 header를 TRUE로 지정해줍니다.
read.table('mydata.csv', sep = ',', header = TRUE,
row.names = c('Row 1', 'Row 2', 'Row 3'),
col.names = c('Var 1', 'Var 2', 'Var 3'))
## Var.1 Var.2 Var.3
## Row 1 10 beer TRUE
## Row 2 25 wine TRUE
## Row 3 8 cheese FALSE
row.names와 col.names 인자를 통해 행 및 열이름을 직접 지정할 수도 있습니다.
= read.table('mydata.csv', sep = ',', header = TRUE,
set_classes colClasses = c('numeric', 'character', 'character'))
str(set_classes)
## 'data.frame': 3 obs. of 3 variables:
## $ variable.1: num 10 25 8
## $ variable.2: chr "beer" "wine" "cheese"
## $ variable.3: chr "TRUE" "TRUE" "FALSE"
colClasses 인자를 통해 각 열에 해당하는 클래스를 직접 지정해줄 수도 있으며, 2번째 열이 팩터가 아닌 문자 형태로 입력됩니다.
read.table('mydata.csv', sep = ',', header = TRUE, nrows = 2)
## variable.1 variable.2 variable.3
## 1 10 beer TRUE
## 2 25 wine TRUE
nrows 인자를 통해 전체 데이터가 아닌 지정한 행까지의 데이터만 불러올 수도 있습니다.
11.1.2 readr
패키지
기본 함수 대비 readr 패키지를 이용할 경우 10배 정도 빠르게 데이터를 불러올 수 있습니다.
library(readr)
= read_csv('mydata.csv')
mydata3 str(mydata3)
## spec_tbl_df [3 x 3] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ variable 1: num [1:3] 10 25 8
## $ variable 2: chr [1:3] "beer" "wine" "cheese"
## $ variable 3: logi [1:3] TRUE TRUE FALSE
## - attr(*, "spec")=
## .. cols(
## .. `variable 1` = col_double(),
## .. `variable 2` = col_character(),
## .. `variable 3` = col_logical()
## .. )
## - attr(*, "problems")=<externalptr>
read_csv()
함수를 이용해 csv 파일을 불러올 수 있습니다. 열이름의 공백이 그대로 유지되며, 문자 형태 역시 팩터가 아닌 원래 형식이 그대로 유지됩니다.
read_csv('mydata.csv', col_types = list(col_double(),
col_character(),
col_character()))
## # A tibble: 3 x 3
## `variable 1` `variable 2` `variable 3`
## <dbl> <chr> <chr>
## 1 10 beer TRUE
## 2 25 wine TRUE
## 3 8 cheese FALSE
col_types 인자를 통해 원하는 타입을 직접 입력할 수도 있습니다.
read_csv('mydata.csv', col_names = c('Var 1', 'Var 2', 'Var 3'),
skip = 1)
## # A tibble: 3 x 3
## `Var 1` `Var 2` `Var 3`
## <dbl> <chr> <lgl>
## 1 10 beer TRUE
## 2 25 wine TRUE
## 3 8 cheese FALSE
col_names 인자를 통해 열이름을 입력할 수 있으며, skip을 통해 위에서 n번째 행을 건너뛰고 데이터를 불러올 수 있습니다.
read_csv('mydata.csv', n_max = 2)
## # A tibble: 2 x 3
## `variable 1` `variable 2` `variable 3`
## <dbl> <chr> <lgl>
## 1 10 beer TRUE
## 2 25 wine TRUE
n_max 인자를 통해 전체 데이터가 아닌 지정한 행까지의 데이터만 불러올 수도 있습니다.
11.2 텍스트 파일 불러오기
.txt
파일로 저장된 텍스트 파일 역시 read.delim()
혹은 read.table()
함수를 이용해 불러올 수 있습니다.
read.delim('mydata.txt', sep = ',')
## variable.1 variable.2 variable.3
## 1 10 beer TRUE
## 2 25 wine TRUE
## 3 8 cheese FALSE
read.table('mydata.txt', sep = ',', header = TRUE)
## variable.1 variable.2 variable.3
## 1 10 beer TRUE
## 2 25 wine TRUE
## 3 8 cheese FALSE
11.3 엑셀 파일 불러오기
엑셀 파일을 불러오기 위한 패키지는 매우 많으며, 이 중 openxlsx
와 readxl
패키지를 살펴보도록 하겠습니다.
11.3.1 openxlsx
패키지
openxlsx
패캐지의 read.xlsx()
함수를 이용해 엑셀 데이터를 불러올 수 있습니다.
library(openxlsx)
read.xlsx('mydata.xlsx', sheet = 'Sheet1')
## variable.1 variable.2 variable.3
## 1 10 beer TRUE
## 2 25 wine TRUE
## 3 8 cheese FALSE
read.xlsx('mydata.xlsx', sheet = 'Sheet2')
## variable.4 variable.5
## 1 Dayton johnny
## 2 Columbus amber
## 3 Cleveland tony
## 4 Cincinnati alice
엑셀은 여러 시트로 구성되어 있으므로, sheet 인자를 통해 원하는 시트명의 내용만 불러올 수 있습니다.
read.xlsx('mydata.xlsx', sheet = 'Sheet3')
## Header.Company.A X2
## 1 What if we want to disregard header text in Excel file? <NA>
## 2 variable 6 variable 7
## 3 200 Male
## 4 225 Female
## 5 400 Female
## 6 310 Male
간혹 엑셀 파일에는 데이터가 아닌 설명을 위한 텍스트가 적힌 경우도 있으므로, 이를 제외하고 데이터를 불러올 필요가 있습니다.
read.xlsx('mydata.xlsx', sheet = 'Sheet3', startRow = 3)
## variable.6 variable.7
## 1 200 Male
## 2 225 Female
## 3 400 Female
## 4 310 Male
startRow 인자를 통해 3번째 행부터 데이터를 불러오게 되어, 불필요한 텍스트가 제거되었습니다.
read.xlsx('mydata.xlsx', sheet = 'Sheet3', rows = 3:5)
## variable.6 variable.7
## 1 200 Male
## 2 225 Female
rowIndex 인자를 통해 원하는 행의 데이터만 불러올 수 있습니다.
11.3.2 readxl
패키지
readxl
패키지는 readr
패키지와 거의 비슷하며, C++을 기반으로 하여 매우 빠른 속도를 자랑합니다.
library(readxl)
= read_excel('mydata.xlsx', sheet = 'Sheet5')
mydata mydata
## # A tibble: 3 x 5
## `Variable 1` `Variable 2` `Variable 3` `Variable 4` `Variable 5`
## <dbl> <chr> <dbl> <dttm> <dttm>
## 1 10 beer 1 2015-11-20 00:00:00 2015-11-20 13:30:00
## 2 25 wine 1 NA 2015-11-21 16:30:00
## 3 8 <NA> 0 2015-11-22 00:00:00 2015-11-22 14:45:00
str(mydata)
## tibble [3 x 5] (S3: tbl_df/tbl/data.frame)
## $ Variable 1: num [1:3] 10 25 8
## $ Variable 2: chr [1:3] "beer" "wine" NA
## $ Variable 3: num [1:3] 1 1 0
## $ Variable 4: POSIXct[1:3], format: "2015-11-20" NA ...
## $ Variable 5: POSIXct[1:3], format: "2015-11-20 13:30:00" "2015-11-21 16:30:00" ...
read_excel()
함수 역시 sheet 인자를 통해 원하는 시트의 데이터를 불러올 수 있습니다. 빈 칸의 경우 결측치(NA)로 변형되며, 날짜의 경우 POSIXct 형식으로 불러옵니다.
read_excel('mydata.xlsx', sheet = 'Sheet5', skip = 1,
col_names = paste('Var', 1:5))
## # A tibble: 3 x 5
## `Var 1` `Var 2` `Var 3` `Var 4` `Var 5`
## <dbl> <chr> <dbl> <dttm> <dttm>
## 1 10 beer 1 2015-11-20 00:00:00 2015-11-20 13:30:00
## 2 25 wine 1 NA 2015-11-21 16:30:00
## 3 8 <NA> 0 2015-11-22 00:00:00 2015-11-22 14:45:00
skip 인자를 통해 위에서 n 번째까지 행을 건너뛸 수 있으며, col_names 인자를 통해 원하는 열이름을 직접 입력할 수 있습니다.
간혹 결측치가 NA가 아닌 999와 같은 특정 값으로 입력되는 경우도 있으므로, 이를 찾아 NA로 변형해주어야 합니다.
read_excel('mydata.xlsx', sheet = 'Sheet6')
## # A tibble: 3 x 4
## `variable 1` `variable 2` `variable 3` `variable 4`
## <dbl> <chr> <dbl> <dbl>
## 1 10 beer 3 42328
## 2 25 wine 1 999
## 3 8 999 0 42330
read_excel('mydata.xlsx', sheet = 'Sheet6', na = '999')
## # A tibble: 3 x 4
## `variable 1` `variable 2` `variable 3` `variable 4`
## <dbl> <chr> <dbl> <dbl>
## 1 10 beer 3 42328
## 2 25 wine 1 NA
## 3 8 <NA> 0 42330
NA로 지정하고 싶은 값을 직접 입력할 수 있습니다.
read_excel('mydata.xlsx', sheet = 'Sheet5')
## # A tibble: 3 x 5
## `Variable 1` `Variable 2` `Variable 3` `Variable 4` `Variable 5`
## <dbl> <chr> <dbl> <dttm> <dttm>
## 1 10 beer 1 2015-11-20 00:00:00 2015-11-20 13:30:00
## 2 25 wine 1 NA 2015-11-21 16:30:00
## 3 8 <NA> 0 2015-11-22 00:00:00 2015-11-22 14:45:00
read_excel('mydata.xlsx', sheet = 'Sheet5',
col_type = c('numeric', 'blank', 'numeric', 'blank', 'date'))
## # A tibble: 3 x 3
## `Variable 1` `Variable 3` `Variable 5`
## <dbl> <dbl> <dttm>
## 1 10 1 2015-11-20 13:30:00
## 2 25 1 2015-11-21 16:30:00
## 3 8 0 2015-11-22 14:45:00
col_types 인자를 통해 원하는 클래스를 직접 입력할 수 있으며, blank를 입력할 경우 해당 셀은 불러오지 않습니다.
11.4 R object File
R을 통해 작업한 내용을 csv나 excel 파일이 아닌 Rdata/object 형식(.RData, .rda, .rds)으로 저장하여 공유하는 경우가 있습니다.
readRDS('mydata.rds')
## V1 V2 V3
## 1 variable 1 variable 2 variable 3
## 2 10 beer TRUE
## 3 25 wine TRUE
## 4 8 cheese FALSE
각 파일 형식에 따라 load('mydata.RData)
, load(file = 'mydata.rda)
, readRDS(mydata.rds)
와 같은 형태로 데이터를 불러올 수 있습니다.