tokenizer1 nanoGPT, prepare.py 오늘은 quick start에 있는 prepare.py 코드를 읽어봅니다. 코드는 아래 경로에 있습니다. data/shakespeare_char/prepare.py * 아래에서 정리된 모든 코드는 위 경로에 있는 코드입니다. 이해를 위해 옮겨 적었습니다. 경로에서도 알 수 있듯이 token 단위로 charater를 사용합니다. 전체 flow입니다. 코드에 있는 주석대로 정리하겠습니다. 1) download the tiny shakespeare dataset requests.get()를 이용해서 input.txt를 다운로드합니다. 이전에 karpathy가 char-rnn에 사용했던 tinyshakespeare 파일을 사용합니다. input_file_path = os.path.join(os.path.dir.. 2023. 3. 16. 이전 1 다음