본문 바로가기

자연어처리3

coling2022 학회를 다녀와서 천년의 수도 경주에서 열리는 coling2022 학회를 다녀왔습니다. 오랜만에 국내에서 열리는 자연어처리와 관련된 국제 학회라서 회사에서 동료들과 함께 참석했습니다. coling 학회 소개 https://coling2022.org/index COLING 2022 The 29th International Conference on Computational Linguistics :: 2022.10.12-17, Gyeongju, Republic of korea coling2022.org coling은 International Conference on Computational Linguistics의 약어입니다. "Computational Linguistics(전산 언어학)"은 전산학적으로 언어를 연구하는 학문으로.. 2022. 10. 27.
Perplexity in LM 뭔가 아는데, 설명을 못하는 상황이라서 개념 정리한 내용입니다.지금 필요한 내용이 LM의 perplexity를 어떻게 계산할 것인지에 대한 내용이라 LM perplexity를 계산하는 관점에서 정리했습니다. Perplexity란?확률이 얼마나 샘플 데이터를 예측하고 있는지를 측정하는 방법perplexity is a measurement of how well a probability distribution or probability model predicts a sample.(https://en.wikipedia.org/wiki/Perplexity)Perplexity수식 설명b : 보통 2를 사용(왜 2를 보통으로 사용하는지는 모르겠으나, 왠지 엔트로피를 구할 때 bits로 표현 가능한 정보량을 설명하는 .. 2017. 1. 16.
논문 리뷰(한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축) 회사분이 추천해 준 논문인데, 배울 점이 많은 것 같다.수작업으로 만든 데이터와 기계적으로 추출한 데이터의 상관관계를 비교하는 부분이나,한국어 발음과 키보드간 거리를 결합하여 사용한 부분,연산비용을 계산하여 swap에 우선순위를 둔 부분 등이 마음에 든다. 논문한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축(전희원, 다니엘 홍, 임해창)http://www.slideshare.net/gogamza/ss-6265729요약가중치를 적용한 교정 거리 연산 사용베이지언 노이즈 채널 모델 + 한국어 특유의 속성 추가야후 로그에서 ed2까지의 데이터를 추출 후, 오타 -정타 쌍을 추출 후 계산ㅇㅑ후, 야후 의 keystroke 구분하기 위해 divider라는 개념 사용(d~i~.. 2016. 1. 11.