오늘은
- datacamp backpropagation 과정 진행
- kaggle discussion
kaggle discussion에서 어떤 아이디어를 보았는데, 내가 구현할 수만 있다면, 좋은 점수를 받을 수 있지 않을까 싶다.(구현할수만 있다면야..)
https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/386819
Stable Diffusion - Image to Prompts | Kaggle
www.kaggle.com
아이디어는 다음과 같다.
- 외부에서 가져온, stable-diffusion의 prompt와 이미지를 이용한다.
- vector화 시킨다.
- test image 또한 vector화 시켜서 비슷한 이미지를 찾는다.
- 3에서 찾은 비슷한 이미지의 prompt를 집계해서 최종 제출할 text embedding을 만든다.
아이디어 자체는 나름 괜찮아 보였다.
여기서 관건은 외부 이미지와 텍스트를 들고와야 하는데, 캐글에서 제출할 때 용량 제한이 100GB라는 것이다. 그래서 이미지와 텍스트 원본을 들고오면 아마 train을 몇개 못할 것이다.
따라서 저자는 AutoEncoder와 VQGAN을 사용해 각각 text와 image를 encoding해서 용량을 줄인다. 384 dimension의 text를 128로 줄이고, 512 x 512의 이미지를 1,024의 token으로 줄여, 6.5TB 이상의 텍스트와 이미지 데이터를 text는 1GB, image는 28GB로 줄여버리는 것 같다.
괜찮은 아이디어인 것 같은데, 일단 다른 코드들과 개념들을 살펴보고 차근차근 구현해봐야겠다.
내일은 template 같은데 한번 봐보고
https://www.kaggle.com/code/shoheiazuma/stable-diffusion-vit-baseline-train
Stable Diffusion ViT Baseline Train
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
GAN이나 Vision transformer이 뭔지 함 봐보고
https://visionhong.tistory.com/25
[논문리뷰] Vision Transformer(ViT)
논문에 대해 자세하게 다루는 글이 많기 때문에 앞으로 논문 리뷰는 모델 구현코드 위주로 작성하려고 한다. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE Alexey Dosovitskiy∗,† , Lucas Be
visionhong.tistory.com
'진행중' 카테고리의 다른 글
[TIL] 2023-03-30 cycleGAN, parametric test (0) | 2023.03.30 |
---|---|
[TIL] 2023-03-22 gradient descent 정리, back prop 정리 (0) | 2023.03.22 |
[TIL] 2023-03-20 kaggle notebook - pretraining 관련, DataCamp (0) | 2023.03.20 |
[TIL] 2023-03-17 (0) | 2023.03.18 |
[TID] 2023-03-13 kaggle notebook 필사 (0) | 2023.03.13 |