수십기가짜리 데이터 파일도 쉽게 다룰 수 있게 해주는 R패키지입니다.

disk.frame 패키지

 

대용량 파일을 하드 디스크에 쪼개어 넣고 병렬처리하는 방식이라

메모리보다 훨씬 큰 데이터도 빠르게 다룰 수 있습니다. 

무엇보다 dplyr함수들을 적용할 수 있습니다. spark를 이용할때보다도 속도가 빠르다고 합니다. 

github.com/xiaodaigh/disk.frame/

www.youtube.com/watch?v=EOjObl_GSi4

 

+ Recent posts