본문 바로가기

Computer/NLP

논문 리뷰(한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축)

회사분이 추천해 준 논문인데, 배울 점이 많은 것 같다.

수작업으로 만든 데이터와 기계적으로 추출한 데이터의 상관관계를 비교하는 부분이나,
한국어 발음과 키보드간 거리를 결합하여 사용한 부분,
연산비용을 계산하여 swap에 우선순위를 둔 부분 등이 마음에 든다.

논문

요약

  • 가중치를 적용한 교정 거리 연산 사용
  • 베이지언 노이즈 채널 모델 + 한국어 특유의 속성 추가
  • 야후 로그에서 ed2까지의 데이터를 추출 후, 오타 -정타 쌍을 추출 후 계산
  • ㅇㅑ후, 야후 의 keystroke 구분하기 위해 divider라는 개념 사용(d~i~gn~, di~gn~)
  • 연산비용이 같을 때는 swap을 우선 적용
  • ed1에서 한글 자소의 교체에 대부분의 편집 연산이 일어남
  • 키보드 상의 거리 + 발음 유사성(ex, ㅔ,ㅐ)
  • 세션을 고려한 사용자 입력 질의어 => 8번 논문을 좀 더 살펴봐야...
    • 같은 세션내의 두 질의어의 평균 출현 위치 정보와 편집거리를 기반으로 구축
    • 이 부분에 대해서는 잘 이해되지 않는다... 표3
  • 그라디언트 부스티드 결정트리? 이건 뭐지?
  • (실제 서비스에 사용했다는)한글의 여러 속성? 뭘까?
  • 추가로 필요한 내용
    • 복합명사 분해를 통해 추가적인 교정 가능성(시네스+영화관 => 씨너스+영화관)
    • 네비게이셔널 질의어에 대한 처리(dign => 야후)