728x90
오늘은
kaggle notebook review
노트북 출처: https://www.kaggle.com/code/leonidkulyk/lb-0-45836-blip-clip-clip-interrogator
CLIP interrogator tool: text 추출에 쓰임
sentence-transformers-2.2.2 dataset을 써야 예상한 프롬프트에 대해서 적절한 임베딩을 뽑을 수 있음.
CLIP, BLIP
- CLIP: 이미지와 텍스트의 공동 표현을 학습하는 모델. CLIP은 이미지-텍스트 쌍을 입력으로 받아 둘을 같은 벡터 공간에 놓는다. CLIPㅡㄴ 이미지와 그에 대한 캡션만 있으면 자기 지도 학습이 가능하다. CLIP은 GPT-2, 3와 비슷하게 자연어로 주어진 이미지에 가장 관련된 텍스트를 예측할 수 있다.
- BLIP: Bootstrapping Language-Image Pre-training. 다양한 시각-언어 작업에 대해 통합적인 이해와 생성 능력을 갖는 모델을 사전 학습하는 방법. BLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 활용해 비용과 시간을 절약하면서도 높은 성능을 달성. BLIP의 코드는 Github에서 확인할 수 있음.
CLIP vs BLIP
- CLIP은 이미지와 텍스트의 공동 표현을 학습. BLIP은 이미지 기반 텍스트 이해와 생성을 위한 사전 학습 모델
- CLIP은 자연어로 주어진 이미지에 가장 관련된 텍스트를 예측할 수 있고, BLIP은 주어진 이미지에 대한 캡션(4-8 단어)을 생성할 수 있음
- CLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 사용하지 않고 처음부터 학습. BLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 화룡해 비용과 시간을 절약.
ref)
CLIP vs BLIP : OpenAI (reddit.com)
clip과 blip이 뭐야 - 검색 (bing.com)
정확한 정보가 아닐수도 있겠다는 생각이다. 대신 밑에 BLIP과 CLIP 원작자가 적은 글을 봐야할듯
참고)
ControlNet: https://huggingface.co/blog/controlnet?fbclid=IwAR2lua-qo3RzdTP1cdnftjml_vQsYeSttmeNpoFo4Oky9Nd_i-wyqNJT0MA
BLIP: https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/
CLIP: https://openai.com/research/clip
https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/
https://openai.com/research/clip
728x90
'진행중' 카테고리의 다른 글
[TIL] 2023-03-17 (0) | 2023.03.18 |
---|---|
[TID] 2023-03-13 kaggle notebook 필사 (0) | 2023.03.13 |
[TID] 2023-03-08 - kaggle (1) | 2023.03.08 |
[TIL+TID]2023-03-07 kaggle playground s3e9 + Stable Diffusion과 chatGPT 세미나 (0) | 2023.03.08 |
[TIL] 2023-03-06 kaggle playground: Concrete Strength Prediction (0) | 2023.03.06 |