회사분이 추천해 준 논문인데, 배울 점이 많은 것 같다.
수작업으로 만든 데이터와 기계적으로 추출한 데이터의 상관관계를 비교하는 부분이나,
한국어 발음과 키보드간 거리를 결합하여 사용한 부분,
연산비용을 계산하여 swap에 우선순위를 둔 부분 등이 마음에 든다.
논문
- 한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축(전희원, 다니엘 홍, 임해창)
- http://www.slideshare.net/gogamza/ss-6265729
요약
- 가중치를 적용한 교정 거리 연산 사용
- 베이지언 노이즈 채널 모델 + 한국어 특유의 속성 추가
- 야후 로그에서 ed2까지의 데이터를 추출 후, 오타 -정타 쌍을 추출 후 계산
- ㅇㅑ후, 야후 의 keystroke 구분하기 위해 divider라는 개념 사용(d~i~gn~, di~gn~)
- 연산비용이 같을 때는 swap을 우선 적용
- ed1에서 한글 자소의 교체에 대부분의 편집 연산이 일어남
- 키보드 상의 거리 + 발음 유사성(ex, ㅔ,ㅐ)
- 세션을 고려한 사용자 입력 질의어 => 8번 논문을 좀 더 살펴봐야...
- 같은 세션내의 두 질의어의 평균 출현 위치 정보와 편집거리를 기반으로 구축
- 이 부분에 대해서는 잘 이해되지 않는다... 표3
- 그라디언트 부스티드 결정트리? 이건 뭐지?
- (실제 서비스에 사용했다는)한글의 여러 속성? 뭘까? 추가로 필요한 내용
- 복합명사 분해를 통해 추가적인 교정 가능성(시네스+영화관 => 씨너스+영화관)
- 네비게이셔널 질의어에 대한 처리(dign => 야후)
'Computer > NLP' 카테고리의 다른 글
noisy channel model and spell correction (0) | 2018.05.08 |
---|---|
Perplexity in LM (0) | 2017.01.16 |
Moses 학습 & 실행 (0) | 2015.07.05 |
Moses 설치 (0) | 2015.06.29 |
nltk pos tagger (0) | 2015.06.16 |