moses는 smt(statistical machine translation) tool이다.
예전에 더 어려웠던 것 같은데, 설치 과정이 많이 단순해졌다.
직접 경험했던 설치 과정을 공유한다.
일단 링크부터...
http://www.statmt.org/moses/?n=Development.GetStarted
위 사이트를 가서 한 단계씩 따라한다면 아주 쉽게 설치할 수 있다...
(사실 여러번의 삽질을 통해 쉽게 설치할 수 있다는 것을 알았다.)
1. moses download & release 3.0 선택
$ git clone https://github.com/moses-smt/mosesdecoder.git
$ git checkout RELEASE-3.0
처음에 릴리즈 된 버전을 선택하지 않고, 사용했다가 설치를 못했었는데...
내가 받았던 그 버전이 ... 한참 수정중인 버전이였다. ㅠㅠ
릴리즈 관련 링크: http://www.statmt.org/moses/?n=Moses.Releases
2. boost_1_55_0 설치(moses 사이트에 있는 설명 그대로... 하면 된다.)
설치 문서에 있는 링크를 통해 1_55_0을 설치한다.
1.48 버전 이상 있다면 따로 설치하지 않아도 되는데, 따로 설치하는 것을 추천한다.
$ wget http://downloads.sourceforge.net/project/boost/boost/1.55.0/boost_1_55_0.tar.gz?r=http%3A%2F%2Fsourceforge.net%2Fprojects%2Fboost%2Ffiles%2Fboost%2F1.55.0%2F&ts=1389613041&use_mirror=kent
$ tar zxvf boost_1_55_0.tar.gz
$ cd boost_1_55_0/
$ ./bootstrap.sh
$ ./b2 -j4 --prefix=$PWD --libdir=$PWD/lib64 --layout=system link=static install || echo FAILURE
3. moses 설치
$ ./bjam --with-boost=$prefix/boost_1_55_0 -j4
2번에서 설치한 boost를 --with-boost를 이용하여 지정하고 설치한다.
4. mgiza 설치
http://www.statmt.org/moses/?n=Moses.ExternalTools#ntoc3
여기에 있는 내용이다.
$ git clone https://github.com/moses-smt/mgiza.git
$ cd mgiza/mgizapp
$ cmake .
$ make; make install
그리고, bin 파일의 모든 파일과 $prefix/mosesdecoder/tools에 복사하고
scripts/merge_alignment.py 파일 또한 $prefix/mosesdecoder/tools에 복사한다.
이렇게 하면 일단 설치는 완료 된다!
이제 잘 되는지 확인을 해봐야 하니...sample을 다운로드 받고, 실행해본다.
$ cd ~/mosesdecoder
$ wget http://www.statmt.org/moses/download/sample-models.tgz
$ tar xzf sample-models.tgz
$ cd sample-models
$ cd ~/mosesdecoder/sample-models
$ ~/mosesdecoder/bin/moses -f phrase-model/moses.ini < phrase-model/in > out
이렇게 해보면, in 파일에 있는
das ist ein kleines haus가 this is a small house로 번역 된 것을 볼 수 있다.
끝.
'Computer > NLP' 카테고리의 다른 글
논문 리뷰(한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축) (0) | 2016.01.11 |
---|---|
Moses 학습 & 실행 (0) | 2015.07.05 |
nltk pos tagger (0) | 2015.06.16 |
english pos tagger (0) | 2015.04.21 |
베이지안 정리(Bayes' Theorem) (2) | 2014.10.20 |