본문 바로가기
Computer/Etc

hadoop distcp

by hexists 2014. 10. 27.

hdfs 간 파일을 복사하기 위해서는 distcp를 사용하면 된다.

방법에 대해 정리해보면...


1. 실행은 destination hdfs에서 한다.

2. destination의 모든 cluster에서는 source의 모든  cluster의 host name을 등록해야 한다.(/etc/hosts)

3. hadoop distcp를 사용하여 복사한다.(디렉토리, 파일 지정)

   ex) hadoop distcp hdfs://source hdfs://destination

   (다른 버전간에 복사를 하려면, hadoop distcp hftp://source hdfs://destination)


간단하지만, 알고 있으면 할 수 있는 것이고, 모르면 잠시 삽질?!을 해야 하는 거라서 정리해놓는다.


참고 : http://hadoop.apache.org/docs/r0.19.0/distcp.html