[pig] hug number of part files - dsindex/blog GitHub Wiki
- pig input으로 여러 디렉토리가 있고, 개별 디렉토리에 많은 수의 part file이 존재하는 경우
LOAD
명령이 실패할 수 있다. - 이런 경우 사용하는 방법
- partition
A = LOAD '$input' USING PigStorage('\t'); STORE A INTO '$output' USING PigStorage('\t');
- 개별 part file의 사이즈는 작은데 수가 많은 경우 유용하다.
- block size단위로 다시 쓰기 때문에 part file의 수는 줄어든다.