본문 바로가기

Computer82

hadoop distcp hdfs 간 파일을 복사하기 위해서는 distcp를 사용하면 된다.방법에 대해 정리해보면... 1. 실행은 destination hdfs에서 한다.2. destination의 모든 cluster에서는 source의 모든 cluster의 host name을 등록해야 한다.(/etc/hosts)3. hadoop distcp를 사용하여 복사한다.(디렉토리, 파일 지정) ex) hadoop distcp hdfs://source hdfs://destination (다른 버전간에 복사를 하려면, hadoop distcp hftp://source hdfs://destination) 간단하지만, 알고 있으면 할 수 있는 것이고, 모르면 잠시 삽질?!을 해야 하는 거라서 정리해놓는다. 참고 : http://hadoop... 2014. 10. 27.
python2.x에서 unicodedata 사용법 파이썬(python)을 이용하여, 한글을 처리할 때 여러가지 방법이 있겠지만, 다음과 같이 unicodedata라는 클래스를 이용하면 좀 더 편리하게 처리할 수 있다. unicodedata documenation : https://docs.python.org/2/library/unicodedata.html unicode type category(5.5.1 General Category Values) : http://www.unicode.org/reports/tr44/tr44-4.html 각 unicode에 대해 어떤 category을 갖는지 확인해서 제거할 수 있으며, 한글의 경우에는 Lo(other characters)에 속한다. 아래 코드는 utf-8 문자열을 입력받아, unicode로 변환한 뒤, .. 2014. 10. 21.
베이지안 정리(Bayes' Theorem) 베이즈 정리에 대해 잘 안다고 말하는 정도가 어느정도인지...이 정도를 안다고 하는 건 들어는 봤다고 말하는 느낌이다.하지만, 일단 이해한 부분까지 정리해본다.http://darkpgmr.tistory.com/62 의 글을 통해 이해했다. * 조건부 확률 = 베이지안 룰 = 베이지안 정리 = 베이지안 법칙 P(x | z) = p( z | x) * p( x ) / p( z ) - 용어 정리p(x | z) : 사후 확률(posterior probability), 어떤 사건(관측값) 이후에 나타나는 확률p(z | x) : 우도, 가능도(liklihood), 표본이 모집단을 대표하는 정도?(이 부분에 대해서는 공부가 더 필요하다)p( x ) : 사전 확률(prior probability), 어떤 사건(관측값) .. 2014. 10. 20.
쉘 스크립트 쉘 스트립트를 사용하는 변수에 대해 정리해봅니다. $? : 마지막 프로그램의 종료 상태 $# : 명령행 인자 개수 $0 : 실행중인 프로그램 경로 $1 ~ $9, ${10} … : 명령행 인자 shift : 명령행 인자를 하나씩 감소시킴, $1←$2, … ($# 도 1 감소됨) "$@", $* : 모든 명령행 인자 $$ : 실행중인 스크립트의 pid 2014. 10. 5.