수십기가짜리 데이터 파일도 쉽게 다룰 수 있게 해주는 R패키지입니다.

disk.frame 패키지

 

대용량 파일을 하드 디스크에 쪼개어 넣고 병렬처리하는 방식이라

메모리보다 훨씬 큰 데이터도 빠르게 다룰 수 있습니다. 

무엇보다 dplyr함수들을 적용할 수 있습니다. spark를 이용할때보다도 속도가 빠르다고 합니다. 

github.com/xiaodaigh/disk.frame/

www.youtube.com/watch?v=EOjObl_GSi4

 

 

좋은 블로그가 있기에 스크랩해왔습니다. 

이해를 간결하게 시켜주시고 재밌는 예시를 들어주셔서 리포스팅하게 되었습니다. 

 

 

 

m.blog.naver.com/PostView.nhn?blogId=ibuyworld&logNo=221520332874&proxyReferer=https:%2F%2Fwww.google.com%2F

'R > R베이스의 머신러닝' 카테고리의 다른 글

대용량 데이터 다루기 R  (0) 2021.04.05

+ Recent posts