오늘은
- datacamp backpropagation 과정 진행
- kaggle discussion
kaggle discussion에서 어떤 아이디어를 보았는데, 내가 구현할 수만 있다면, 좋은 점수를 받을 수 있지 않을까 싶다.(구현할수만 있다면야..)
https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/386819
아이디어는 다음과 같다.
- 외부에서 가져온, stable-diffusion의 prompt와 이미지를 이용한다.
- vector화 시킨다.
- test image 또한 vector화 시켜서 비슷한 이미지를 찾는다.
- 3에서 찾은 비슷한 이미지의 prompt를 집계해서 최종 제출할 text embedding을 만든다.
아이디어 자체는 나름 괜찮아 보였다.
여기서 관건은 외부 이미지와 텍스트를 들고와야 하는데, 캐글에서 제출할 때 용량 제한이 100GB라는 것이다. 그래서 이미지와 텍스트 원본을 들고오면 아마 train을 몇개 못할 것이다.
따라서 저자는 AutoEncoder와 VQGAN을 사용해 각각 text와 image를 encoding해서 용량을 줄인다. 384 dimension의 text를 128로 줄이고, 512 x 512의 이미지를 1,024의 token으로 줄여, 6.5TB 이상의 텍스트와 이미지 데이터를 text는 1GB, image는 28GB로 줄여버리는 것 같다.
괜찮은 아이디어인 것 같은데, 일단 다른 코드들과 개념들을 살펴보고 차근차근 구현해봐야겠다.
내일은 template 같은데 한번 봐보고
https://www.kaggle.com/code/shoheiazuma/stable-diffusion-vit-baseline-train
GAN이나 Vision transformer이 뭔지 함 봐보고
https://visionhong.tistory.com/25
'진행중' 카테고리의 다른 글
[TIL] 2023-03-30 cycleGAN, parametric test (0) | 2023.03.30 |
---|---|
[TIL] 2023-03-22 gradient descent 정리, back prop 정리 (0) | 2023.03.22 |
[TIL] 2023-03-20 kaggle notebook - pretraining 관련, DataCamp (0) | 2023.03.20 |
[TIL] 2023-03-17 (0) | 2023.03.18 |
[TID] 2023-03-13 kaggle notebook 필사 (0) | 2023.03.13 |