본문 바로가기

Computer82

noisy channel model and spell correction 잠깐 보고 정리해봅니다...(기억력의 한계를 극복해보고자...) ref : https://web.stanford.edu/~jurafsky/slp3/5.pdf일단 noisy channel model은 "original word가 noisy channel에 의해 noisy word(distorted 됐다고 표현)가 되고, 이를 decoder를 통해 original word와 가장 비슷한 것을 추측"하는 모델인데... 스펠러와 연결지어 생각해보면... 1) misspelled word : noisy word(noisy channel을 통해 distorted된 word)2) noise는 substitutions or other changes to the letters(original word에서 distorte.. 2018. 5. 8.
git untrackedfiles off git config --global status.showUntrackedFiles no 2018. 2. 22.
이차원 배열 포인터 이차원 배열 포인터를 지정해서 사용하는 방법 이렇게 하면, main에 선언된 *input의 포인터 사이즈가 MAX_EOJ_SIZE로 할당된다.main에서는 input[x][y] 형식으로 사용할 수 있다. #include #include #include #define MAX_EOJ_COUNT 16#define MAX_EOJ_SIZE 64 typedef struct data { char input[MAX_EOJ_COUNT][MAX_EOJ_SIZE];} data_t; int main() { data_t *data = malloc(sizeof(data_t)); char (*input)[MAX_EOJ_SIZE] = data->input; int i; strcpy(input[0], "abc"); strcpy(inp.. 2017. 1. 25.
Perplexity in LM 뭔가 아는데, 설명을 못하는 상황이라서 개념 정리한 내용입니다.지금 필요한 내용이 LM의 perplexity를 어떻게 계산할 것인지에 대한 내용이라 LM perplexity를 계산하는 관점에서 정리했습니다. Perplexity란?확률이 얼마나 샘플 데이터를 예측하고 있는지를 측정하는 방법perplexity is a measurement of how well a probability distribution or probability model predicts a sample.(https://en.wikipedia.org/wiki/Perplexity)Perplexity수식 설명b : 보통 2를 사용(왜 2를 보통으로 사용하는지는 모르겠으나, 왠지 엔트로피를 구할 때 bits로 표현 가능한 정보량을 설명하는 .. 2017. 1. 16.