오늘은 배웠다기 보다는 거의 한거...
- kaggle playground s3e9 ensemble 정리하고, 제출까지(cost가 더 높게 나왔다!?)
- Google - Isolated Sign Language Recognition 을 살펴보다가 다른 대회 찾음
kaggle playground s3e9 ensemble
- 기존 정리한 노트에 catBoost 추가하고 ensemble을 추가해서 앙상블한 걸로 제출해 보았다.
- 저런, loss가 11.7에서 15까지 올라갔다. 아마 합치는 과정에서 문제가 발생한 것으로 판단된다.
- 원인을 찾으려다가 재미없어져서 구글 대회나 살펴보려고 갔다.
Another competition
- 취지가 매우 좋아서 대회 설명을 쭉 보고 있었는데, evaluation에서 난이도의 상당함을 한 번 느꼈고, 데이터에서 한 번 더 느꼈다.
- 대회를 좀 더 살펴보다가, 이거 가볍게 생각하고 들어가면 큰코 다칠 것 같아 혹시 다른 대회 있나 살펴보러 갔다.
- 이번에 같은 실수를 방지하기 위해 대회 overview와 데이터를 빠르게 살펴본 후, leaderboard를 살펴보면서 대회가 할만한지 보았다.
- 그러던 중, 제목부터 끌리는 대회가 있었으니, 바로 Stable Diffusion - Image to Prompt 였다. 제목에서 알 수 있듯이 보통의 stable diffusion 처럼 text to image형태가 아닌, image를 보고 text를 예측하는 재미있는 문제였다.
- 마침 생성 AI에 관심이 많던 차라 재미있겠다 싶어서 해당 대회를 진행해보려고 한다.
In order to calculate prompt similarity in a robust way—meaning that "epic cat" is scored as similar to "majestic kitten" in spite of character-level differences—you will submit embeddings of your predicted prompts. Whether you model the embeddings directly or first predict prompts and then convert to embeddings is up to you! Good luck, and may you create "highly quality, sharp focus, intricate, detailed, in the style of unreal robust cross validation" models herein.
- 강력한 방식으로 프롬프트의 유사성을 계산하기 위해 예측한 프롬프트의 embedding을 제출하는 방식.
- 임베딩을 직접 모델링할지 or 먼저 prompt를 예측한 다음 embedding으로 변환할지 여부는 마음대로.
Submission
Submissions are evaluated using the mean cosine similarity score between the predicted and actual prompt embedding vectors. The precise details of how embeddings are calculated for the ground truth prompts are found in this notebook.
Submission File
For each image in the test set, you must predict the prompt that was used to generate the image and convert the prompt into a 384-length embedding vector. Predictions should be flattened to rows of image (imgId) and embedding (eId) pairs (imgId_eId). The file should contain a header and have the following format:
predict embedding vector와 actual prompt embedding vector와의 cosine similarity를 바탕으로 평가된다.
실측 정보 프롬프트에 대한 임베딩 계산 방법에 대한 정확한 세부 정보는 - https://www.kaggle.com/code/inversion/calculating-stable-diffusion-prompt-embeddings
Data
- 데이터는 간단했다.
1. 이미지
2. 이미지를 그리는데 쓰이는 prompt
3. sample submission
Your task for this challenge is to predict the prompts that were used to generate target images. Prompts for this challenge were generated using a variety of (non disclosed) methods, and range from fairly simple to fairly complex with multiple objects and modifiers. Images were generated from the prompts using Stable Diffusion 2.0 (768-v-ema.ckpt) and were generated with 50 steps at 768x768 px and then downsized to 512x512 for the competition dataset. (This script was used, with the majority of default parameters unchanged.)
이번 task는 이미지를 생성하는 데 사용된 프롬프트를 예측하는 것
이번 프롬프트는 다양한(공개되지 않은) 방법을 사용하여 생성되었으며 여러 개체 및 수정자가 포함된 매우 간단한 것부터 상당히 복잡한 것까지 다양
이미지는 Stable Diffusion 2.0(768-v-ema.ckpt)을 사용하여 프롬프트에서 생성되었으며 768x768 px에서 50단계로 생성된 다음 경쟁 데이터 세트를 위해 512x512로 축소되었다.(몽말인지 모르겠다.)
- 음... stable diffusion을 한 번 써볼까? 마침 오늘 stable diffusion api를 쓰는 방법에 대한 블로그를 본 것 같은데, 그거 함 봐봐야 할 듯.
- 그리고 오늘은 BIGCON이라는 곳에서 GAI 관련 웨비나가 있는 날이다. 그거 보러 가야지~
'진행중' 카테고리의 다른 글
[TID] 2023-03-13 kaggle notebook 필사 (0) | 2023.03.13 |
---|---|
[TIL] 2023-03-09 kaggle notebook review (1) (0) | 2023.03.09 |
[TIL+TID]2023-03-07 kaggle playground s3e9 + Stable Diffusion과 chatGPT 세미나 (0) | 2023.03.08 |
[TIL] 2023-03-06 kaggle playground: Concrete Strength Prediction (0) | 2023.03.06 |
[TID] 2023-03-04 GAI, LLM에 대한 커피챗 (0) | 2023.03.04 |