'r기본함수' 태그의 글 목록 :: 채린's datascience

r기본함수

R 데이터 조작 II 2019.08.13
R 데이터 조작 I 2019.08.12

R 데이터 조작 II

2019. 8. 13. 17:23

R 데이터 조작 II

데이터 처리에 중요한 패키지

전처리 -> sqldf, plyr, reshape2, data.table, foreach
병렬처리 패키지 -> doMC
코드 테스트 -> testthat, browser(), system.time(), Rprof()
모두 필요하다

sqldf 패키지: SQL 명령이 주어지면 자동으로 스키마 생성, 테이블로 데이터 로딩, SQL문을 수행, 이후 다시 R로 로딩

sqldf(‘SQL명령문’)

ex) sqldf(‘select distinct Species from iris’)
iris내에 Sepal.Length의 평균을 구해보자

sqldf(“select avg(Sepal_Length) from iris where Species=’setosa’”)
SQL은 컬럼명에’.’이 들어갈 수 없어서 Sepal_Length로 적어야하고, 대소문자 구분이 없다.

iris내의 Species별 평균을 구해보자

sqldf(‘select Species, avg(Sepal_Length) from iris group by Species’)

plyr 패키지: 데이터를 분활(split),특정함수에 적용(apply), 그 결과를 조합(combine)하는 세단계를 처리하는 함수를 제공

입력값: 배열, 데이터프레임, 리스트
함수의 첫번째와 두번째자리의 의미: a: array, d: data.frame, l: list 중 (1) 입력값, (2) 출력값
함수

adply(): 입력값이 꼭 a일 필요가 없다. 숫자 색인으로 각 행이나 열을 읽을 수 있으면 됨

왜쓰나? apply()를 사용하면 output은 ‘행렬’로 결과를 변환해서 문자가 섞여있으면 모두 문자로 변환됨

ddply()

Species로 그룹지을 때, .(변수) <- 이렇게 사용

ex) ddply(iris, .(Species), function(sub){data.frame(Sepal.Length.mean)=mean(Sepal.Length))})

여러변수들로 그룹지을 때 -> .(변수, 변수)

ex) ddply(iris, .(Species, Sepal.Length > 5.0), function(sub){data.frame(Sepal.Length.mean=mean(Sepal.Length))})

m*ply()

데이터프레임 혹은 함수만 인자로 받아서 output을 바꾸는 함수
난수 생성해서 프레임에 추가하는 예제

ex) mdply(x, rnorm, n=2)

transform(), summaries(), subset(): plyr()패키지들과 함께 사용되는 함수들

transform(): 데이터프레임 내의 데이터를 수정하여 새로운 항목으로 추가할 때

ex) ddply(baseball, .(id), transform, cyear=min(year))
만일 두개 이상의 항목을 추가하고 싶다면 -> mutate()사용

ex) ddply(baseball, .(id), mutate, cyear, cyear1)

summarise(): 데이터를 조작하고 추가하고 싶은 컬럼을 새로운 데이터프레임에 넣어서 반환

ex) ddply(baseball, .(id), summarise, cyear= min(year))

subser(): 조건에 맞는 데이터를 추출

ex) ddply(baseball, .(id), g == max(g))

reshape2()

melt(): 데이터 변형
melt(인자, dataframe name)

ex) melt(id=1:4, french_fries)

id는 식별해주는 id, french_fries는 data.frame자료

NA값이 포함된 것을 지우고 싶을 때

rm.na =T

complete.cases(data.frame): 하나라도 NA가 있으면 FALSE, 하나도 없으면 TRUE를 반환

cast(): dcast/ acast -> d: data.frame/ a: vector, matrix, array

dcast(데이터명, formula)

ex) m <- melt(id=1:2, smiths)
ex) x <- dcast(m, subject + time ~ … )
identical(x, smiths) : 확인작업

id를 모두 안 써도 됨

ex) id = time만 써도 됨

data.table(): data.frame와 비슷한 구조

패키지이기 때문에 다운과 library필수
모든 내용을 print하지 않아 편리

하지만 내용을 충분히 보고 싶을때는 x[1:n,]을 사용해서 지정

데이터 프레임과 호환이 잘 되어 프레임이사용하는 함수는 웬만하면 사용 가능, 하지만 안될 시 as.data.frame()으로 변환해서 사용
data.table[행,표현식,옵션]으로 인덱싱

사용법 예시: as.data.table(iris), iris[1, Species]

주의할 점: 따옴표 사용 안함, data.frame은 사용함

옵션은 by를 사용

ex) iris_table[,Sepal.Length,by=Species]

setkey()

만일 어떤 조건을 줘서 그에 맞는 조건에 해당하는 행을 모두 출력할 때는 R은 모든 행을 훑고지나가면서 탐색한다. 이는 시간이 많이 걸리는 행위이기 때문에 미리 조건에 맞는 색인을 만들어 놓고 한다면 훨씬 수월 -> 이를 위해, key를 지정
사용법

setkey(데이터명, key로 설정할 column)
ex) setkey(dt1, x)
dt1[dt2,]: dt1에서 x를 key로 설정했기 때문에 이에 대응되는 dt2의 컬럼을 dt1에 추가해서 보여줌

datatable1[x=13,list(x_mean=mean(x),x_std=s\d(x))]: datatable1의 x값이 13인 애들만 search하고 y의 평균 구해라
merge()사용 가능 -> 속도 느림

참조를 이용한 데이터 수정

사용법: dt[i,변수명 := 값]

rbindlist

plyr패키지에 ldply()가 llply()보다 느리다.
rbindlist()는 llply()로 계산결과를 리스트로 반환해서 이를 list를 묶어 데이터프레임으로 변환하는 것

doMC: 멀티코어를 사용해서 병렬 컴퓨팅을 하는 것

plyr(), foreach()함수를 사용해서 가능

'R > 기초' 카테고리의 다른 글

R 새로운 종류의 Plot (0)	2019.08.13
R 데이터 plot 함수 (0)	2019.08.13
R 데이터 조작 I (0)	2019.08.12
R에서 사용하는 제어문, 함수, 그에따른 연산 (0)	2019.08.12
R에서 사용하는 변수 (0)	2019.08.12

R 데이터 조작 I

2019. 8. 12. 09:41

R 데이터 조작 I

데이터 읽고 쓰기, 데이터 자체를 저장, 데이터끼리 묶기

read.csv(파일명, header=TRUE/FALSE)

읽어올 때 문자들을 모두 factor처리하기 때문에, 이를 문자열로 바꾸기 위해 -> stringAsFactors=FALSE처리하여 들여옴 ex)read.csv(a.csv, stringAsFactors=FALSE)
NA를 읽어들어 올때, 이를 문자처리 하기 위해 NIL로 변환되서 들어옴. 이 때, 그 열의 나머지 숫자들도 문자처리해서 이를 막아줘야 함. -> na.strings이용 ex) x <- read.csv(a.csv, na.strings=c(‘NIL’)) : 이러면 NIL을 인식해 na처리

write.csv(변수, ‘파일이름.csv’,row.names = F)

row.names는 행에 자동으로 이름을 부여하는가인데, default가 T
save,load: 데이터만 저장하고 읽어올 수 있음

save(x,y,file=’xy.RData’)
load(‘xy.RData’)

rbind/cbind: rowbind/columnbind

rbind로 벡터나 데이터 프레임을 결합할 수 있음
data.frame을 생성할 때, stringsAsFactors = FALSE로 하는 이유는 데이터가 명목형이 아닌 단순 문자열이기 때문이다.
데이터프레임은 cbind로 결합은 가능하나 오른쪽에 같다 붙이는거라서 새로운 행이 추가됨, 목적과 맞지 않음.

$를 사용해서 열 추가

apply류 함수

기본 구조 apply류함수(적용대상, 함수->만드는 것 가능)

ex)apply(x, function(x){x*2})

행렬의 경우 -> apply함수를 사용

ex)apply(행렬, 1/2=행/열, apply함수명)
iris데이터를 이용 -> apply(iris[,1:4],2,sum): 4개 열들의 합

대체가능한 함수들

rowSums(),colSums()
ex) colSums(iris[,1:4])

벡터 또는 리스트의 경우 -> lapply

ex)lapply(1:3,function(x){x*2}) -> output이 list가 아닌 벡터이고 싶을 때 -> unlist(리스트) 사용
list를 사용해서 평균구하기 -> ex) lapply(리스트,mean)

list인 아웃풋을 데이터프레임으로 변환하고 싶을 때 ->

unlist(): 벡터로 변환
matrix(): 행렬로 변환
as.data.frame(): 행렬을 데이터프레임으로 변환
do.call(): data.frame(do.call(cbind, lapply(iris[,1:4],mean))) -> 이런 방식 가능

벡터, 리스트, 데이터프레임의 경우, output이 list가 아닌 행렬,벡터로 반환하는 함수 -> sapply

ex) sapply(iris[,1:4],mean) -> 결과가 벡터 -> as.data.frame을 이용해서 데이터프레임으로 구조 변환 가능

이 때, 행과 열이 뒤바뀌어서 나오는데, t(행렬)을 수행해서 원래 모양으로 변형

한가지 타입만 저장 가능한 벡터, 행렬, 배열로 반환하기 때문에 입력값들이 동일한 구조형이어야한다. -> 여러 데이터 타입에 대해 사용하고 싶다면 lapply()사용

어떤 범주에 해당f하는 값들만 연산하고 싶을 때 -> tapply()

ex) tapply(iris$Sepal.Length, iris$Species, mean): 종에 따른 꽃받침 길이의 평균

함수에 인자를 넘겨주어서 연산 -> mapply()

ex) mapply(function, c(1,2,3), c(‘a’,’b’,’c’))를 수행하면 (1,’a’)와 (2,’b’),(3,’c’)로 묶여서 function에 들어가서 연산하여 결과를 도출
ex) mapply(mean, iris[1:4]): 1부터 4열까지 한 열씩 평균을 구함

base패키지가 기본이 됨

summary(): generic function in r

인자가 자료일 땐 -> 통계값, 인자가 모델일 때 ->모델 요약
수치형 자료의 경우 quantile사용 가능

ex) quantile(iris$Sepal.Length)

order(): index를 output으로 내보냄

기본 패키지여서 자주사용

sample(): 주어진 데이터에서 샘플 추출

replace =TRUE 중복 허용
sample(1:10,5,replace=T)
무작위로 데이터 뽑고 싶을 때 사용

iris[sample(nrow(iris)),]: iris데이터를 무작위 index를 부여해 무작위로 뽑음

split(데이터, 분리조건)

ex) split(iris, iris$Species): 종을 기준으로 iris구분

반환값은 list - > lapply사용

doBy 패키지

summaryBy(): 특정 조건을 주어서 summary를 함

ex) summaryBy(Sepal.Length + Sepal.width ~ Species, iris)

+로 묶은건 열을 주는 것, Species는 행, iris는 데이터

orderBy(): 특정 조건으로 ordering

ex) orderBy(~Sepal.Width, iris)

모든 열을 볼것이기 때문에 공백 후, ~ Sepal.Width를 기준으로 정렬
이 때, Species에 의해 먼저 정렬 후, 정렬

sampleBy()

ex) sampleBy(~Species, frac=0.1, data=iris)
10%로씩 끊어서 추출

subset(데이터, 조건, select=열선택)

split()함수와 유사하지만 특정 조건의 것을 분류하는데 사용

ex) subset(iris, Species ==’setosa’ & Sepal.Width > 5.0, select = c(Sepal.Width))

select 조건을 걸면 그 조건에 해당하는 것만 보여줌
특정열을 제외하려면 select = -c(Sepal.Width)이런 식

merge(): 두개의 공통된 프레임으로 데이터셋을 묶는 것

ex) x<- data.frame(name =c(‘a’,’b’,’c’), math =c(20,30,40))
ex) y<- data.frame(name =c(‘a’,’b’,’c’), english =c(20,30,40))
ex) merge(x,y)

만약 한쪽 데이터의 갯수가 모자르면 all=TRUE로 설정

빈 데이터를 NA로 채움

cbind()는 단순히 열을 합치는 것

sort()/order()

sort(): 값을 반환
order(): index반환

with()/within()

with(): 데이터프레임의 열을 데이터프레임 이름 없이 접근하기 위함

ex) with(iris, {print(Sepal.Width)})

within(): 데이터를 수정할 때 사용, with와 비슷

ex) within(x, ifelse(is.na(val),val <- median(val, rm.na =T),x))
median(열, na값을 지움)

attach()/detach(): with()와 within()함수랑 비슷, 아얘 불러놓고 쓰기

ex) attach(iris)
attach()하고 나서 데이터 프레임을 변경하면 detach()하고나서 변한 데이터가 적용되지 않음

which(): 조건에 해당하는 위치 찾음

ex) which(x%%2==0)
ex) x[which(x%%2==0)]

which.min(x), ex) x[which.min(x)]
which.max(x)

aggregate(formula, 데이터, 함수)

ex) aggregate(Sepal.Length ~ Species, iris, mean)

stack()/ unstack(): summaryBy()등을 사용하기 편치않은 데이터 구조를 바꿀 때

x<- data.frame(medicine =c(‘a’,’b’,’c’), ctl = c(1,2,3), exp = c(2,3,4))
stack(x)
unstack(stacked_x, values~ind)

'R > 기초' 카테고리의 다른 글

R 새로운 종류의 Plot (0)	2019.08.13
R 데이터 plot 함수 (0)	2019.08.13
R 데이터 조작 II (0)	2019.08.13
R에서 사용하는 제어문, 함수, 그에따른 연산 (0)	2019.08.12
R에서 사용하는 변수 (0)	2019.08.12

PREV 1 NEXT

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바