진행중

[TIL] 2023-03-17

미스따문 2023. 3. 18. 15:07
728x90

오늘은

  • CLM
  • tokenizer에서 padding, truncate
  • data collator

에 대해 간단하게 짚고 넘어감.

Causal Language Modeling

  • Causal Language Modeling(CLM)은 주어진 토큰 다음의 토큰을 예측하는 것과 연관된 사전학습 테크닉.
  • 언어의 구조를 이해시키고 자연어 텍스트를 말이 되게끔 만들어 주는데 도움을 준다.
  • GPT, GPT-2, GPT-3, T5와 같은 수많은 언ㅇ모델들은 CLM을 활용해 학습이 된다.
  • 이 모델들은 수많은 자연어 처리 태스크에서 SOTA를 기록함.

padding

  • 입력 길이가 max length보다 짧을 때 채워주는 의미 없는 값truncation
  • 입력 길이가 max length보다 길 때 잘라주는지 여부.

data collator

  • 데이터 콜레이터는 데이터셋 요소 목록을 입력으로 사용하여 "batch를 형성하는 객체". 이러한 요소들은 train_dataset 또는 eval_dataset의 요소와 같은 유형
728x90