본문 바로가기

전체 글

(14)
ViT An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction wit..
6장 비선형 최적화 6.1 상태 추정 문제 6.1.1 배치 상태 추정 및 최대 사후 추정K는 카메라 내부 파라미터, s는 픽셀거리 R_k 는 회전행렬, t_k는 병진 벡터, y_j는 랜드마크의 위치이다. 이제 노이즈의 영향을 받았을 때, 데이터가 어떻게 변경되는지 보자.w_k, v_k 의 평균이 0인 가우시안 분표를 충족한다고 가정할 때,두 가지 방법이 있는데1. 증분/점진적 방법 : 현재의 추정 값을 기반으로 다음 추정값을 구하는 방법2. 배치단위 추정법 : 항상 최적의 경로를 얻어 내지만, 모든 data를 저장해두어야 하는 방법 배치단위 측정법이 현재의 주류 방법이며, 극단적인 경우 드론의 모든 순간의 데이터를 수집 후 컴퓨팅 센서로 다시 가져와 통합할 수 있다는 sfm에서 사용되는 주된 방법이다. 지금부터 배치 방법에..
5장. 카메라 및 이미지 로봇이 외부 세계를 관찰하는 방법 관찰방정식에 대해 이해할 것. 5.1 핀홀 카메라 모델핀홀 통과 → 핀홀 뒷면에 투영된 광선의 이미지 관계 카메라 렌즈 → 빛이 이미지 평면에 투사 될 때, 왜곡이 발생이 두가지를 이해하는게 이 장의 핵심 5.1.1 핀홀 카메라 모델이렇게 한다면 우리는 하나의 비례식을 세울 수 있는데, 그림의 오른쪽 O-x-y-z 을 보면 알 수 있듯 z/f == -(x/x') == -(y/y') 가 성립할 것이라는 것을 알 수 있다. 이때 -는 상이 핀홀을 거치면서 반대 방향에 맺힌다는 것을 나타내기 위한 장치이다. 하지만, 일반적으로 우리가 사진을 볼 때 반전되어있지 않은 사진을 보게 되는데, 이는 카메라 내부적으로 처리한 것이고 그렇기 때문에 -를 무시하고 생각한다음, 각각 x' ..
CLIP paper : Learning Transferable Visual Models From Natural Language Supervision : https://arxiv.org/abs/2103.00020  Learning Transferable Visual Models From Natural Language SupervisionState-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data..
Diffusion Model Denising Diffusion Probabilistic Models - https://ar5iv.org/html/2006.11239 Denoising Diffusion Probabilistic ModelsWe present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by tr…ar5iv.labs.arxiv.orgAbstract(요약) diffusion probabilistic models..
StableDiffusion High-Resolution Image Synthesis with Latent Diffusion Models - https://arxiv.org/abs/2112.10752  High-Resolution Image Synthesis with Latent Diffusion ModelsBy decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guid..
LEC4 - Optimization 오늘 우리는 딥러닝을 학습시키기 위해서 필수적인, 경사하강법의 의미를 배울 것이고, 이 경사하강법의 과정을 우리는 optimization (최적화) 라고 이야기 하게 되는데, 여러 최적화 기법에 대해 알아보려고 한다. 경사하강법경사하강법이란, 우리는 결국 train data 에 대한 loss 가 최소가 되는 지점을 찾고 싶은 것이고, 만약, 각 가중치에 대한 loss function 을 우리가 미분을 통해 구할 수 있다고 한다면, 미분 후 구할 수 있겠지만, 아쉽게도, 다 변수에 대한 고차원 함수를 미분한다는 개념자체가 없기 때문에 각 독립변수에 대한 편미분 값을 구한 뒤, update 하는 방식으로 학습을 할 수밖에 없다. 즉 각 변수에 대한 다소 단편적인 변화율만 보고 update 를 할 수밖에 없다..
LEC3 - Linear Classifiers 오늘은 선형 분류기에 대해서 알아보자. 이제 진짜 딥러닝에서의 신경망을 슥 배워보자. 신경망이란, linear classfier 라는 블록들을 쌓아놓은 것이라고 생각할 수 있습니다. 즉 linear model들을 매우 쌓아 강력한 효과를 낼 수 있다는 것이지요. 즉 이번에 배울 linear classifier 는 단순하지만, Neural Network의 근간을 이루는 매우 중요한 요소인 것이지요. parametric approach (모든 데이터를 저장하는 것이 아니라 파라미터 값만 저장하겠다.)이전  K-NN 에서는 input image 를 분류 과정에서만 활용했지만, Linear Classifier는 input 'x' 와 함께 learnable parameter 인 'w' 를 같이 활용한다는 것이 특..