본문 바로가기

스펠러

noisy channel model and spell correction 잠깐 보고 정리해봅니다...(기억력의 한계를 극복해보고자...) ref : https://web.stanford.edu/~jurafsky/slp3/5.pdf일단 noisy channel model은 "original word가 noisy channel에 의해 noisy word(distorted 됐다고 표현)가 되고, 이를 decoder를 통해 original word와 가장 비슷한 것을 추측"하는 모델인데... 스펠러와 연결지어 생각해보면... 1) misspelled word : noisy word(noisy channel을 통해 distorted된 word)2) noise는 substitutions or other changes to the letters(original word에서 distorte.. 더보기
논문 리뷰(한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축) 회사분이 추천해 준 논문인데, 배울 점이 많은 것 같다.수작업으로 만든 데이터와 기계적으로 추출한 데이터의 상관관계를 비교하는 부분이나,한국어 발음과 키보드간 거리를 결합하여 사용한 부분,연산비용을 계산하여 swap에 우선순위를 둔 부분 등이 마음에 든다. 논문한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축(전희원, 다니엘 홍, 임해창)http://www.slideshare.net/gogamza/ss-6265729요약가중치를 적용한 교정 거리 연산 사용베이지언 노이즈 채널 모델 + 한국어 특유의 속성 추가야후 로그에서 ed2까지의 데이터를 추출 후, 오타 -정타 쌍을 추출 후 계산ㅇㅑ후, 야후 의 keystroke 구분하기 위해 divider라는 개념 사용(d~i~.. 더보기