[TIL] 2023-03-09 kaggle notebook review (1)

오늘은
kaggle notebook review
CLIP, BLIP
CLIP vs BLIP

728x90

kaggle notebook review

노트북 출처: https://www.kaggle.com/code/leonidkulyk/lb-0-45836-blip-clip-clip-interrogator

CLIP interrogator tool: text 추출에 쓰임

sentence-transformers-2.2.2 dataset을 써야 예상한 프롬프트에 대해서 적절한 임베딩을 뽑을 수 있음.

CLIP, BLIP

CLIP: 이미지와 텍스트의 공동 표현을 학습하는 모델. CLIP은 이미지-텍스트 쌍을 입력으로 받아 둘을 같은 벡터 공간에 놓는다. CLIPㅡㄴ 이미지와 그에 대한 캡션만 있으면 자기 지도 학습이 가능하다. CLIP은 GPT-2, 3와 비슷하게 자연어로 주어진 이미지에 가장 관련된 텍스트를 예측할 수 있다.
BLIP: Bootstrapping Language-Image Pre-training. 다양한 시각-언어 작업에 대해 통합적인 이해와 생성 능력을 갖는 모델을 사전 학습하는 방법. BLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 활용해 비용과 시간을 절약하면서도 높은 성능을 달성. BLIP의 코드는 Github에서 확인할 수 있음.

CLIP vs BLIP

CLIP은 이미지와 텍스트의 공동 표현을 학습. BLIP은 이미지 기반 텍스트 이해와 생성을 위한 사전 학습 모델
CLIP은 자연어로 주어진 이미지에 가장 관련된 텍스트를 예측할 수 있고, BLIP은 주어진 이미지에 대한 캡션(4-8 단어)을 생성할 수 있음
CLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 사용하지 않고 처음부터 학습. BLIP은 기존의 사전 학습된 이미지 인코더와 언어 모델을 화룡해 비용과 시간을 절약.

ref)

CLIP vs BLIP : OpenAI (reddit.com)

clip과 blip이 뭐야 - 검색 (bing.com)

정확한 정보가 아닐수도 있겠다는 생각이다. 대신 밑에 BLIP과 CLIP 원작자가 적은 글을 봐야할듯

참고)

ControlNet: https://huggingface.co/blog/controlnet?fbclid=IwAR2lua-qo3RzdTP1cdnftjml_vQsYeSttmeNpoFo4Oky9Nd_i-wyqNJT0MA

BLIP: https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/

CLIP: https://openai.com/research/clip

https://huggingface.co/blog/controlnet?fbclid=IwAR2lua-qo3RzdTP1cdnftjml_vQsYeSttmeNpoFo4Oky9Nd_i-wyqNJT0MA

ControlNet in 🧨 Diffusers

Ultra fast ControlNet with 🧨 Diffusers Ever since Stable Diffusion took the world by storm, people have been looking for ways to have more control over the results of the generation process. ControlNet provides a minimal interface allowing users to cust

huggingface.co

https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP is a new pre-training framework from Salesforce AI Research for unified vision-language understanding and generation, which achieves state-of-the-art results on a wide range of vision-language tasks.

blog.salesforceairesearch.com

https://openai.com/research/clip

CLIP: Connecting text and images

We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized,

openai.com

728x90

'진행중' 카테고리의 다른 글

[TIL] 2023-03-17 (0)	2023.03.18
[TID] 2023-03-13 kaggle notebook 필사 (0)	2023.03.13
[TID] 2023-03-08 - kaggle (1)	2023.03.08
[TIL+TID]2023-03-07 kaggle playground s3e9 + Stable Diffusion과 chatGPT 세미나 (0)	2023.03.08
[TIL] 2023-03-06 kaggle playground: Concrete Strength Prediction (0)	2023.03.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[TIL] 2023-03-09 kaggle notebook review (1)

오늘은

kaggle notebook review

CLIP, BLIP

CLIP vs BLIP

'진행중' 카테고리의 다른 글

오늘은

kaggle notebook review

CLIP, BLIP

CLIP vs BLIP

'진행중' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역