오늘은 - datacamp backpropagation 과정 진행 - kaggle discussion kaggle discussion에서 어떤 아이디어를 보았는데, 내가 구현할 수만 있다면, 좋은 점수를 받을 수 있지 않을까 싶다.(구현할수만 있다면야..) https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/386819 Stable Diffusion - Image to Prompts | Kaggle www.kaggle.com 아이디어는 다음과 같다. 외부에서 가져온, stable-diffusion의 prompt와 이미지를 이용한다. vector화 시킨다. test image 또한 vector화 시켜서 비슷한 이미..
진행중
오늘은 DataCamp 수업 듣고 kaggle에서 pretraining 관련해서 정리된 노트북을 정리해 보았다. DataCamp 수업은 deeplearning에 대해 간단히 리뷰하는 것이었고, 복습개념으로 들었으며 따로 정리한 것은 없음. kaggle 출처: https://www.kaggle.com/code/vad13irt/language-models-pre-training/notebook Language Models Pre-training Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com pretraining 기법들 pretraining이란 자연어 ..
오늘은 CLM tokenizer에서 padding, truncate data collator 에 대해 간단하게 짚고 넘어감. Causal Language Modeling Causal Language Modeling(CLM)은 주어진 토큰 다음의 토큰을 예측하는 것과 연관된 사전학습 테크닉. 언어의 구조를 이해시키고 자연어 텍스트를 말이 되게끔 만들어 주는데 도움을 준다. GPT, GPT-2, GPT-3, T5와 같은 수많은 언ㅇ모델들은 CLM을 활용해 학습이 된다. 이 모델들은 수많은 자연어 처리 태스크에서 SOTA를 기록함. padding 입력 길이가 max length보다 짧을 때 채워주는 의미 없는 값truncation 입력 길이가 max length보다 길 때 잘라주는지 여부. data colla..
오늘은 - kaggle stable diffusion 노트북 필사 진행 + 데이콘에 프롬프트로만 코드짜기 대회가 있길래 호기심에 신청 stable diffusion을 통한 이미지 생성 직접 해봄. 오늘은 컨디션 난조로 많이 진행하지는 못했다. 후~ 화이팅
오늘은 kaggle notebook review 노트북 출처: https://www.kaggle.com/code/leonidkulyk/lb-0-45836-blip-clip-clip-interrogator CLIP interrogator tool: text 추출에 쓰임 sentence-transformers-2.2.2 dataset을 써야 예상한 프롬프트에 대해서 적절한 임베딩을 뽑을 수 있음. CLIP, BLIP CLIP: 이미지와 텍스트의 공동 표현을 학습하는 모델. CLIP은 이미지-텍스트 쌍을 입력으로 받아 둘을 같은 벡터 공간에 놓는다. CLIPㅡㄴ 이미지와 그에 대한 캡션만 있으면 자기 지도 학습이 가능하다. CLIP은 GPT-2, 3와 비슷하게 자연어로 주어진 이미지에 가장 관련된 텍스트를 예..
오늘은 배웠다기 보다는 거의 한거... kaggle playground s3e9 ensemble 정리하고, 제출까지(cost가 더 높게 나왔다!?) Google - Isolated Sign Language Recognition 을 살펴보다가 다른 대회 찾음 kaggle playground s3e9 ensemble - 기존 정리한 노트에 catBoost 추가하고 ensemble을 추가해서 앙상블한 걸로 제출해 보았다. - 저런, loss가 11.7에서 15까지 올라갔다. 아마 합치는 과정에서 문제가 발생한 것으로 판단된다. - 원인을 찾으려다가 재미없어져서 구글 대회나 살펴보려고 갔다. Another competition - 취지가 매우 좋아서 대회 설명을 쭉 보고 있었는데, evaluation에서 난이도..
오늘은 kaggle playground s3e9 LGBM, XGBoost 개념 정리 + CatBoost model 테스트까지 진행. --> 내일은 ensemble model 정리까지 하면 될 듯 그리고 다음날부터 google - Isolated Sign Language Recognition 이거 해볼 예정.. 강남에서 진행한 StableDiffusion 과 chatGPT 모두팝을 듣고 왔다. 피어슨 상관계수 vs 스피어만 상관계수 두 변수 간의 관계를 측정하는 지표. 피어슨 상관계수 두 변수가 선형적으로 연관되어 있는 경우 적합한 지표 두 변수가 서로 직선 형태의 관계를 갖고 있는 경우, 하나의 변수가 증가할 때 다른 변수도 비례하여 증가하거나 감소하는 경우. -1부터 1까지 값을 갖는다. 스피어만 상관..
오늘은 딥러닝 배운거 복습할 겸 kaggle에서 playground를 하나 선정해서 진행해 보았다. 내가 한거: https://www.kaggle.com/datasets/mchilamwar/predict-concrete-strength 데이터 구성은 다음과 같다. CementComponent:- 시멘트 섞인 양 BlastFurnaceSlag:- Blast Furnace Slag 가 섞인 양 FlyAshComponent:- FlyAsh 가 섞인 양 WaterComponent:- water 가 섞인 양 SuperplasticizerComponent:- Super plasticizer가 섞인 양 CoarseAggregateComponent:- Coarse Aggregate가 섞인 양 FineAggregateC..