수십기가짜리 데이터 파일도 쉽게 다룰 수 있게 해주는 R패키지입니다.
disk.frame 패키지
대용량 파일을 하드 디스크에 쪼개어 넣고 병렬처리하는 방식이라
메모리보다 훨씬 큰 데이터도 빠르게 다룰 수 있습니다.
무엇보다 dplyr함수들을 적용할 수 있습니다. spark를 이용할때보다도 속도가 빠르다고 합니다.
github.com/xiaodaigh/disk.frame/
www.youtube.com/watch?v=EOjObl_GSi4
'R > R베이스의 머신러닝' 카테고리의 다른 글
Confusion matrix in R: AUC, accuracy, sensitivity, specificity (0) | 2021.03.25 |
---|