본문 바로가기

Dani's Stack141

논문 리뷰(한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축) 회사분이 추천해 준 논문인데, 배울 점이 많은 것 같다.수작업으로 만든 데이터와 기계적으로 추출한 데이터의 상관관계를 비교하는 부분이나,한국어 발음과 키보드간 거리를 결합하여 사용한 부분,연산비용을 계산하여 swap에 우선순위를 둔 부분 등이 마음에 든다. 논문한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축(전희원, 다니엘 홍, 임해창)http://www.slideshare.net/gogamza/ss-6265729요약가중치를 적용한 교정 거리 연산 사용베이지언 노이즈 채널 모델 + 한국어 특유의 속성 추가야후 로그에서 ed2까지의 데이터를 추출 후, 오타 -정타 쌍을 추출 후 계산ㅇㅑ후, 야후 의 keystroke 구분하기 위해 divider라는 개념 사용(d~i~.. 2016. 1. 11.
한글의 자모 분리 입력된 문자가 음절인지 확인하고, check_ch_type()음절인 경우 conv_jaso를 통해 자모 분해 & compatibility_jamo로 변환 import unicodedata def check_ch_type(ch): valid_type = ['Lo'] if unicodedata.category(ch) in valid_type: unicode_names = unicodedata.name(ch).split() if 'HANGUL' in unicode_names and 'SYLLABLE' in unicode_names: return True else: return False else: return False def conv_jaso(ch=u'각'): def conv_compatibility_jam.. 2015. 12. 3.
jquery 이용해서 inputbox 커서 및 포커스 설정 $is_selected = false; $(document).ready(function(){ $("#q_input").focus(); }); $('#q_input').focus(function(){ if($is_selected == false) { this.selectionStart = this.selectionEnd = this.value.length; } else { $is_selected = false; }; }); $("body").keydown(function(e) { if((!((37 2015. 8. 27.
Moses 학습 & 실행 이번 글에서는 moses를 이용하여 번역 모델을 학습하고, 실행하는 방법에 대해 공유한다.moses 공식 사이트에 있는 baseline 실행하고, 정리한 내용이다.baseline url : http://www.statmt.org/moses/?n=Moses.Baseline 이 글을 검색해서 보고 있다는 것 자체가 번역모델이 무엇인지, 그리고 학습이 왜 필요한지에 대해 알고 있는 분이라 생각하여 why에 대한 부분은 생략하고 바로 실행하는 부분에 대해 설명한다. 학습과정을 나누면 5단계로 구성되어 있다.(baseline 기준) 1. 말뭉치를 전처리하고, moses 학습 형태로 변경2. 언어 모델(lanaguage model)을 빌드3. 번역 모델 학습 4. 파라미터 튜닝5. 번역 모델 바이너리화 * 영어를 .. 2015. 7. 5.