noisy channel model and spell correction

Posted 2018. 5. 8. 11:30

잠깐 보고 정리해봅니다...

(기억력의 한계를 극복해보고자...)


ref : https://web.stanford.edu/~jurafsky/slp3/5.pdf

일단 noisy channel model은 "original word가 noisy channel에 의해 noisy word(distorted 됐다고 표현)가 되고, 이를 decoder를 통해 original word와 가장 비슷한 것을 추측"하는 모델인데...


스펠러와 연결지어 생각해보면...


1) misspelled word : noisy word(noisy channel을 통해 distorted된 word)

2) noise는 substitutions or other changes to the letters(original word에서 distorted된 상태가 된 원인)

3) channel은 correct word를 찾아내는 model로 보면 됨


호옥시, 잘못된 내용이면 알려주세요.

적극 수정하겠습니다!

Write your message and submit

회사분이 추천해 준 논문인데, 배울 점이 많은 것 같다.

수작업으로 만든 데이터와 기계적으로 추출한 데이터의 상관관계를 비교하는 부분이나,
한국어 발음과 키보드간 거리를 결합하여 사용한 부분,
연산비용을 계산하여 swap에 우선순위를 둔 부분 등이 마음에 든다.

논문

요약

  • 가중치를 적용한 교정 거리 연산 사용
  • 베이지언 노이즈 채널 모델 + 한국어 특유의 속성 추가
  • 야후 로그에서 ed2까지의 데이터를 추출 후, 오타 -정타 쌍을 추출 후 계산
  • ㅇㅑ후, 야후 의 keystroke 구분하기 위해 divider라는 개념 사용(d~i~gn~, di~gn~)
  • 연산비용이 같을 때는 swap을 우선 적용
  • ed1에서 한글 자소의 교체에 대부분의 편집 연산이 일어남
  • 키보드 상의 거리 + 발음 유사성(ex, ㅔ,ㅐ)
  • 세션을 고려한 사용자 입력 질의어 => 8번 논문을 좀 더 살펴봐야...
    • 같은 세션내의 두 질의어의 평균 출현 위치 정보와 편집거리를 기반으로 구축
    • 이 부분에 대해서는 잘 이해되지 않는다... 표3
  • 그라디언트 부스티드 결정트리? 이건 뭐지?
  • (실제 서비스에 사용했다는)한글의 여러 속성? 뭘까?
  • 추가로 필요한 내용
    • 복합명사 분해를 통해 추가적인 교정 가능성(시네스+영화관 => 씨너스+영화관)
    • 네비게이셔널 질의어에 대한 처리(dign => 야후)


Write your message and submit