본문 바로가기

Computer

Bert Examples 1) huggingface bert를 많이 사용 huggingface.co/transformers/notebooks.html 🤗 Transformers Notebooks You can find here a list of the official notebooks provided by Hugging Face. Also, we would like to list here interesting content created by the community. I... huggingface.co 2) best practice: bert를 classification에 사용 colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_cla.. 더보기
symbolic link 깨져 있는지 확인하기 symbolic link가 깨져 있는 경우에는 다음과 같이 확인하면 됨 BROKEN_LINK=$(find /path/to -type l -xtype l | wc -l) if [ $BROKEN_LINK -gt 0 ]; then echo -e "CHECK BROKEN_LINK:\t$/path/to" error fi ref : https://www.commandlinefu.com/commands/view/8260/find-broken-symlinks 더보기
jaro-winkler similarity(jaro-winkler distance) 프로젝트 중 알게된 edit distance 비교 방법이 있어서 정리해본다.(사실 매번 Damerau–Levenshtein distance만 사용했었다...) jaro similarity(jaro distance) jaro distance는 두 단어간의 transpositions에 집중한 알고리즘이다.(insertion, deletion, substitution은 고려하지 않음) transposition은 간단히 위치 교환이라고 생각하면 된다. 아래와 같이 두 단어가 있을 때, transpositions은 총 2회 발생한다.(a=> b, b => a) word1 : a ---- bword2 : b ---- a jaro distance는 두 단어가 비슷할수록 1에 가까운 값을 가지고, 다를수록 0에 가까운.. 더보기
noisy channel model and spell correction 잠깐 보고 정리해봅니다...(기억력의 한계를 극복해보고자...) ref : https://web.stanford.edu/~jurafsky/slp3/5.pdf일단 noisy channel model은 "original word가 noisy channel에 의해 noisy word(distorted 됐다고 표현)가 되고, 이를 decoder를 통해 original word와 가장 비슷한 것을 추측"하는 모델인데... 스펠러와 연결지어 생각해보면... 1) misspelled word : noisy word(noisy channel을 통해 distorted된 word)2) noise는 substitutions or other changes to the letters(original word에서 distorte.. 더보기
git untrackedfiles off git config --global status.showUntrackedFiles no 더보기
이차원 배열 포인터 이차원 배열 포인터를 지정해서 사용하는 방법 이렇게 하면, main에 선언된 *input의 포인터 사이즈가 MAX_EOJ_SIZE로 할당된다.main에서는 input[x][y] 형식으로 사용할 수 있다. #include #include #include #define MAX_EOJ_COUNT 16#define MAX_EOJ_SIZE 64 typedef struct data { char input[MAX_EOJ_COUNT][MAX_EOJ_SIZE];} data_t; int main() { data_t *data = malloc(sizeof(data_t)); char (*input)[MAX_EOJ_SIZE] = data->input; int i; strcpy(input[0], "abc"); strcpy(inp.. 더보기
Perplexity in LM 뭔가 아는데, 설명을 못하는 상황이라서 개념 정리한 내용입니다.지금 필요한 내용이 LM의 perplexity를 어떻게 계산할 것인지에 대한 내용이라 LM perplexity를 계산하는 관점에서 정리했습니다. Perplexity란?확률이 얼마나 샘플 데이터를 예측하고 있는지를 측정하는 방법perplexity is a measurement of how well a probability distribution or probability model predicts a sample.(https://en.wikipedia.org/wiki/Perplexity)Perplexity수식 설명b : 보통 2를 사용(왜 2를 보통으로 사용하는지는 모르겠으나, 왠지 엔트로피를 구할 때 bits로 표현 가능한 정보량을 설명하는 .. 더보기
CNN case study 강의 : https://youtu.be/KbNbWTnlYXs 이번 스터디는 CNN에 대한 연구 사례이다.각각의 방법들이 어떻게 network을 구성하는지를 알 수 있다. 사실, layer 구성이 왜 이렇게 하는지 잘 이해되지 않는다.아래 유명한 분들이 어떤 network를 제안했는지가 있는데, 시간이 된다면 하나하나 봐야 겠다. LeNet-5 [LeCun et al., 1998] AlexNet [krizhevsky et al., 2012] GoogLeNet [Szegedy et al., 2014] ResNet [He et al., 2015]=> 3.6 % top 5 error Convolutional Neural Networks for Sentence Classification [Yoon kim, 201.. 더보기
CNN : Max pooling 과 Full Network 강의 : https://youtu.be/2-75C-yZaoA pooling : sampling이라고 보면 된다. 그 sampling을 통해 추출된 데이터를 층층히 쌓아 사용한다. max pooling은 각 filter size에서 가장 큰 값을 사용하는 것이다. 1 1 2 45 6 7 83 2 1 01 2 3 4 2 x 2 filters and stride 2 일때의 max polling 값 6 83 4 Fully Connected Layer(FC Layer) : (CONV RELU POOL) + ... 이런 layer를 연달아 연결한 형태로 볼 수 있다. 더보기
ConvNet의 Conv 레이어 만들기 뒤로 갈수록 이해하기 어려워진다.오늘 공부한 내용은 Convolutional Nerual Network에 대한 내용이다. 강의는 https://youtu.be/Em63mknbtWo 를 참고. CNN은 고양이를 통한 실험에서 시작되었다고 한다.고양이에게 이미지를 보여주고, 뉴런이 활성화되는 부분을 관찰하니, 이미지의 부분 부분 마다 활성화되는 곳이 달랐다는 것이다.(Hubel & Wiesel, 1959) 전체적인 그림은 하나의 이미지를 잘라서 아래처럼 구성하는 것이다.CONV RELU CONV LERU POLL CONV RELU ... FC(fully connected nerual network) 32 X 32 X 3의 이미지가 있다면, 이미지의 일부분만 처리하는데(filter)이런 filter를 사용해서.. 더보기