정리/Machine Learning

본 포스팅은 ViT를 정리해 놓은 github를 스터디하면서 정리하면서 적은 글입니다. 참고) einops einops는 flexible, powerful한 tensor operation이다. 노트북에서 사용된 functions는 다음과 같다. rearrange, reduce, repeat rearrange tensor element를 특정 패턴으로 재정렬 output_tensor = rearrange(input_tensor, 't b c -> b c t') reduce tensor의 rearrange와 reduce(차원 축소)를 함께 진행할 수 있음. # combine rearrangement and reduction output_tensor = reduce(input_tensor, 'b c (h h2..
Abstract Transformer architecture가 나오면서, NLP에서 많은 task들이 영향을 받았다. 하지만, computer vision 영역에 영향은 아직 제한적이다. 아직 cv에서 attention은 convolutional network과 함께 사용하거나, 전체 구조는 그대로 놔둔채 convolutional network의 일부분만 대체할 뿐이다. 저자는 이번에 CNN의 의존성에서 벗어나 순수 transformer를 활용해 image를 patch로 나눠서 sequence 형태로 만든 다음 image classification task를 수행하고자 한다. 1. Introduction self-attention-based architecture인 transformer에 대한 소개와 c..
Title: Generative Adversarial Networks Link: https://arxiv.org/abs/1406.2661 generative adversarial network(GAN) 논문은 2014년에 발표한 논문이다. GAN을 제안한 Ian goodfellow는 GAN의 구조를 마치 지폐 위조범과 위조를 적발하는 경찰 간의 게임에 비유했다. 위조범은 위조 이미지(=지폐)를 생성(Generator)해야 하고, 경찰은 위조범이 만든 이미지와 실제 이미지를 구분(discriminator)해야 한다. 이러한 경쟁이 지속되다 보면 위조범은 진짜와 가짜를 구분할 수 없게 만들 수 있고, 경찰은 최악의 상황인 50%의 확률로 지폐를 구분할 수 밖에 없게 된다.(사실상 참/거짓 문제에서 50%는 ..
Title: U-Net: Convolutional Networks for Biomedical Image Segmentation paper: https://arxiv.org/abs/1505.04597 UNet은 제목에서도 알 수 있다시피 본래 biomedical 분야에서 image segmentation을 위해서 만들어진 구조이다. 여기서 image segmentation이란, (사전 지식)Image segmentation 이미지 내에 있는 각 물체들을 의미 있는 단위로 분할 하는 작업으로, 각 픽셀마다 하나의 클래스로 분류해서(예. 배경=0, 강아지=1, 고양이=2, 오리=3, ...) 한 장의 segmentation map을 만드는 것이다. 이 논문의 계기 세포 이미지를 학습하기 위해 사람이 이미지에서..
Title: You Only Look Once: Unified, Real-Time Object Detection(CVPR) Paper: https://arxiv.org/abs/1506.02640 0. Abstract YOLO: 객체 탐지 분야의 새로운 접근. 기존의 객체 탐지 시스템은 분류기 모델을 변형한 method. 이 논문에서는 bounding box와 관련 클래스의 확률을 구하기 위해 regression problem으로 정의하고 객체 탐지를 수행한다. 하나의 신경망으로 전체 이미지에서 한 번의 evaluation(또는 inference)로 bounding box와 클래스 확률을 예측할 수 있다. 전체 탐지 파이프라인이 싱글 신경망이기 때문에, 탐지 퍼포먼스에서 end-to-end로 직접적으로 최..
이미지 3-5장으로 새로운 개념(또는 콘셉트, concept)을 학습해 관련된 이미지를 뽑아내는 모델 Abstract text-to-image model은 자연어를 통한 creation에 전례없는 자유도를 주었다. 하지만, 특정한 contept를 생성하고, 그것의 생김새를 바꾸거나, 새로운 역할이 주어지거나 참신한 장면이 그려지는건 아직 불분명하다. 즉, '이것을 그려줘'라고 말할 때, '이것'에 대한 설명을 prompt로 어떻게 할 것이냐는 물음에는 아직 한계가 있는 것 같다. 이를 해결하기 위해, 저자는 image를 3-5개만으로 사물이나 스타일과 같은 concept, 즉 새로운 '단어'를 고정된 text-to-image model의 embedding space에서 표현하는 방법을 제안한다. 이러한..
Abstract Image-to-image translation(이하 translation)은 한 이미지 도메인을 다른 이미지 도메인으로 변환시키는 computer vision의 한 task translation은 보통 input과 output이 짝이 지어진 상태에서 학습. 하지만 짝이 지어진 학습 데이터를 얻는 것이 어렵습니다. 따라서 cycleGAN 논문에서는 짝지어진 예시 없이 X라는 domain으로부터 얻은 이미지를 target domain Y로 바꾸는 방법을 제안. 이 연구는 Adversarial loss를 활용해, G(x)로부터 생성된 이미지 데이터의 분포와 Y로부터의 이미지 데이터의 분포가 구분이 불가능하도록 "함수 G:X -> Y"를 학습시키는 것을 목표로 합니다. X --> Y로의 map..
내용 출처 네이버 부스트코스 딥러닝 기초 다지기 - Gradient Descent Methods https://www.boostcourse.org/ai111/lecture/1162942?isDesc=false 딥러닝 기초 다지기 부스트코스 무료 강의 www.boostcourse.org 이전 글 https://sept-moon.tistory.com/90 최적화 알고리즘 - gradient descent 경사하강법이란 경사 하강법은 1차 근삿값 발견용 최적화 알고리즘이다. 즉 최적화 알고리즘 중 하나. 기본 개념은 함수의 기울기를 구하고 경사의 반대 방향으로 계속 이동시켜 극소값에 이를 sept-moon.tistory.com 에서 gradient Descent Methods에 대해서 정리했다. 일반적인 GD..
미스따문
'정리/Machine Learning' 카테고리의 글 목록