NLP

· 진행중
오늘은 DataCamp 수업 듣고 kaggle에서 pretraining 관련해서 정리된 노트북을 정리해 보았다. DataCamp 수업은 deeplearning에 대해 간단히 리뷰하는 것이었고, 복습개념으로 들었으며 따로 정리한 것은 없음. kaggle 출처: https://www.kaggle.com/code/vad13irt/language-models-pre-training/notebook Language Models Pre-training Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com pretraining 기법들 pretraining이란 자연어 ..
참고자료: https://baekyeongmin.github.io/paper-review/roberta-review/ 아이디어(연구 동기) BERT는 아직 undertrain, Pre-training과정에서 다음 Hyper-parameter의 튜닝으로 더 좋은 결과를 얻는다. train data: BERT에 비해 더 많은 데이터 + 더 오랜 시간 + 더 큰 batch size로 학습을 진행 Pre-training objective: NSP(Next Sentence Prediction) task를 제거 Sequence Length: BERT는 짧은 입력 문장들을 이용하는 downstream task를 대비해 pretraining시 0.1의 확률로 최대 길이보다 더 짧은 길이의 데이터를 이용. 이러한 로직을..
원문: https://ratsgo.github.io/nlpbook/docs/language_model/transformers/ Transformer란 2017년 구글이 제안한 Sequence-to-sequence 모델 최근 NLP에서는 BERT나 GPT 같은 transformer 기반 language model이 각광 받고 있다. Sequence-to-sequence Transformer란 기계 번역 등 sequence-to-sequence 과제를 수행하기 위한 모델. Sequence란 단어 같은 무언가의 나열을 의미 Sequence-to-sequence는 특정 속성을 지닌 sequence를 다른 속성의 sequence로 변환하는 작업 예시) 기계번역: 어떤 언어의 단어 sequence를 다른 언어의 단..
미스따문
'NLP' 태그의 글 목록