오늘은
kaggle notebook review
노트북 출처: https://www.kaggle.com/code/leonidkulyk/lb-0-45836-blip-clip-clip-interrogator
CLIP interrogator tool: text 추출에 쓰임
sentence-transformers-2.2.2 dataset을 써야 예상한 프롬프트에 대해서 적절한 임베딩을 뽑을 수 있음.
CLIP, BLIP
- CLIP: 이미지와 텍스트의 공동 표현을 학습하는 모델. CLIP은 이미지-텍스트 쌍을 입력으로 받아 둘을 같은 벡터 공간에 놓는다. CLIPㅡㄴ 이미지와 그에 대한 캡션만 있으면 자기 지도 학습이 가능하다. CLIP은 GPT-2, 3와 비슷하게 자연어로 주어진 이미지에 가장 관련된 텍스트를 예측할 수 있다.
- BLIP: Bootstrapping Language-Image Pre-training. 다양한 시각-언어 작업에 대해 통합적인 이해와 생성 능력을 갖는 모델을 사전 학습하는 방법. BLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 활용해 비용과 시간을 절약하면서도 높은 성능을 달성. BLIP의 코드는 Github에서 확인할 수 있음.
CLIP vs BLIP
- CLIP은 이미지와 텍스트의 공동 표현을 학습. BLIP은 이미지 기반 텍스트 이해와 생성을 위한 사전 학습 모델
- CLIP은 자연어로 주어진 이미지에 가장 관련된 텍스트를 예측할 수 있고, BLIP은 주어진 이미지에 대한 캡션(4-8 단어)을 생성할 수 있음
- CLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 사용하지 않고 처음부터 학습. BLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 화룡해 비용과 시간을 절약.
ref)
CLIP vs BLIP : OpenAI (reddit.com)
clip과 blip이 뭐야 - 검색 (bing.com)
정확한 정보가 아닐수도 있겠다는 생각이다. 대신 밑에 BLIP과 CLIP 원작자가 적은 글을 봐야할듯
참고)
ControlNet: https://huggingface.co/blog/controlnet?fbclid=IwAR2lua-qo3RzdTP1cdnftjml_vQsYeSttmeNpoFo4Oky9Nd_i-wyqNJT0MA
BLIP: https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/
CLIP: https://openai.com/research/clip
ControlNet in 🧨 Diffusers
Ultra fast ControlNet with 🧨 Diffusers Ever since Stable Diffusion took the world by storm, people have been looking for ways to have more control over the results of the generation process. ControlNet provides a minimal interface allowing users to cust
huggingface.co
https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP is a new pre-training framework from Salesforce AI Research for unified vision-language understanding and generation, which achieves state-of-the-art results on a wide range of vision-language tasks.
blog.salesforceairesearch.com
https://openai.com/research/clip
CLIP: Connecting text and images
We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized,
openai.com
'진행중' 카테고리의 다른 글
[TIL] 2023-03-17 (0) | 2023.03.18 |
---|---|
[TID] 2023-03-13 kaggle notebook 필사 (0) | 2023.03.13 |
[TID] 2023-03-08 - kaggle (1) | 2023.03.08 |
[TIL+TID]2023-03-07 kaggle playground s3e9 + Stable Diffusion과 chatGPT 세미나 (0) | 2023.03.08 |
[TIL] 2023-03-06 kaggle playground: Concrete Strength Prediction (0) | 2023.03.06 |