728x90
오늘은
- CLM
- tokenizer에서 padding, truncate
- data collator
에 대해 간단하게 짚고 넘어감.
Causal Language Modeling
- Causal Language Modeling(CLM)은 주어진 토큰 다음의 토큰을 예측하는 것과 연관된 사전학습 테크닉.
- 언어의 구조를 이해시키고 자연어 텍스트를 말이 되게끔 만들어 주는데 도움을 준다.
- GPT, GPT-2, GPT-3, T5와 같은 수많은 언ㅇ모델들은 CLM을 활용해 학습이 된다.
- 이 모델들은 수많은 자연어 처리 태스크에서 SOTA를 기록함.
padding
- 입력 길이가 max length보다 짧을 때 채워주는 의미 없는 값truncation
- 입력 길이가 max length보다 길 때 잘라주는지 여부.
data collator
- 데이터 콜레이터는 데이터셋 요소 목록을 입력으로 사용하여 "batch를 형성하는 객체". 이러한 요소들은 train_dataset 또는 eval_dataset의 요소와 같은 유형
728x90
'진행중' 카테고리의 다른 글
[TID] 2023-03-21 datacamp, kaggle discussion (0) | 2023.03.21 |
---|---|
[TIL] 2023-03-20 kaggle notebook - pretraining 관련, DataCamp (0) | 2023.03.20 |
[TID] 2023-03-13 kaggle notebook 필사 (0) | 2023.03.13 |
[TIL] 2023-03-09 kaggle notebook review (1) (0) | 2023.03.09 |
[TID] 2023-03-08 - kaggle (1) | 2023.03.08 |