목록AI/CV (20)
꺼내먹는지식 준

object detection 의 성능은 1) mAP 2) Speed 두가지로 결정된다. EfficientDet은 성능도 높고, 속도도 빠르게 하기 위한 연구 (사실 모든 연구가 그렇다. SSD도 그렇고.) Efficient in Object Detection DL model은 키우면 키울 수록 성능이 증가하는 경향, 그러다보니 계속해서 점점 더 깊어지고, 복잡 하지만, 단순하게 깊게 쌓는 것이 성능적인 gain에 한계가 있다. 즉 모델의 복잡도 대비 성능향상이 비효율적 이에 따라 모델을 쌓을 때 잘 쌓는 법에 대한 연구가 진행 3가지 방향의 scaling width scaling: 채널을 더 크게 주기 depth scaling: 모델을 더 깊게 쌓기 resolution scaling: input 이미지..

Yolo Familty, SSD, RetinaNet 2 Stage model 1) Localization (후보 영역 찾기) 2) Classification (후보 영역에 대한 분류) $\rightarrow$ 속도가 매우 느려서, real time 으로 활용하기 위한 방법론 one stage feature map으로부터 바로 객체의 종류와 위치를 예측함으로써 RPN 과정을 생략 (localization, classification 동시 진행) 전체 이미지에 대해 특징 추출, 객체 검출 $\rightarrow$ 간단하고 쉬운 디자인 속도가 매우 빠름 영역을 추출하지 않고 전체 이미지를 보기 때문에 객체에 대한 맥락적 이해가 높음 (background error가 낮음) YOLO YOLO v1 network..

Object Detection Neck 그간 Object Detection 논문들 읽으면서 Neck 에 해당되는 개념들을 아주아주 간단하게 작성하고 넘어갔는데, 드디어 한번 살펴본다. NECK 이 나오기 전, backbone의 마지막 feature map 으로 ROI 를 수행했다. NECK은 여기서 backbone의 마지막 feature map만을 활용해야하는 이유가 있을까? 라는 의문에서 뭔가를 해보고자 했다. 왜냐, 마지막 feature map은 high level 정보를 담고는 있지만, 그 과정 속에서 유실되는 정보도 있고, spatial 정보도 많이 유실 되었기 때문이다. NECK 이 왜 필요한가? 결론적으로는 NECK이 없다면 여러 크기의 물체를 감지하는 것이 어렵다. 즉, 여러 feature ..

MMdetection은 정말 많은 object detection module을(Faster R CNN, Yolo v3. DERT..) 담고 있다. 사용법도 굉장히 간단해서 config 파일을 수정해주는 것만으로 사용 준비 끝이다. 다만, config 파일 사용법은 숙지를 해야한다. 모델, scheduler, optimizer 등 모두 수정 가능 mmdetection github에서 configs directory를 들어가보면 다양한 모델의 config가 사전 정의되어있다. 각각 학습가능한 dataset에 대해서도 작성되어있다. configs/base/ 폴더에 가장 기본이 되는 config 파일이 존재 datset, model, scheule, default_runtime 4가지 기본 구성 요소 datas..
{ "info": { "year": 2021, "version": "1.0", "description": "Garage Sale goods", "contributor": "NeverMind", "url": null, "date_created": "2021-02-02 02:10:00" }, "licenses": [ { "id": 0, "name": "CC BY 4.0", "url": "https://nevermind.org/licenses/by/4.0/youneverknow.ast" } ], "images": [ { "width": 1024, "height": 1024, "file_name": "test/1705.jpg", "license": 0, "flickr_url": null, "coco_url": ..

TP 등 어떻게 기억할까? TP: 뒤에 오는 것이 모델의 예측, 즉 P 모델이 postiive라고 예측했는데, T 맞았다. FN: 모델이 Negative라고 예측했는데, F 틀렸다. (positive이다.) 즉 검출 되어야 할 것이 검출되지 않았다. 와 같이 기억하자. Positive라고 예측한 케이스 중에서 옳게 예측한 케이스 모든 Positive 케이스 중에서 옳게 예측한 케이스 Recall: 옳게 예측한 케이스 / 모든 positive 케이스 ... 예측 완료 모든 예측에 대해 confidence score로 정렬 후, 누적 TP, FP를 계산해서 precision 과 recall 계산, Y: precision X: Recall로 graph 그리기 AP는 거의 유사, 다만 떨어지는 부분 위로 map..

Yolo v3 An Incremental Improvement https://www.youtube.com/watch?v=HMgcvgRrDcA 내가 제일 좋아하는 JinWon 님의 논문 리뷰 직관적이고, 세세하며, 듣는 사람을 최대로 고려한 발표라 항상 도움이 많이 된다. 다들 JinWon 님 논문 리뷰 많이 보셔요. 시작전 용어 정리 IoU, mAP IoU: 합집합 분의 교집합 mAP: Precision: 모델 예측 True 중, 정답 True 비율 (ex 모델 예측 100개 중 정답 10개 0.1) Recall: 정답 True 중, 모델 예측 True 비율 (ex 정답 10개중 모델이 10개 다 예측 1 ) $\rightarrow$ 같은 상황이라도 다른 값 내가 친 bbox안에 object가 있을 확률..

왜 3D 가 중요한가? 로봇, 자율주행, 게임, AI, VR, 3D prining, medical application, 화학, 단백질 구조 분석 등 중요한 영역이 너무 많다. 우리 세상 자체도 3D 3D 공간에 대한 이해와 활용이 중요 $\rightarrow$ 우리는 3D를 직접은 못보고 프로젝션된 2D image를 본다. 빛은 직진성이 있기에, 3D와 2D 는 직진 관계에 있다. (선형) 그런 의미에서 카메라는 3D 장면을 2D에 projection tool이다. 재밌는 점은 projection 된 사진 2장이 있으면 3D 복원이 가능하다. 2장의 2D 이미지 포인트에서 교차점을 통해서 3D 복원 2D data 표현 방법 3D data 표현 방법 여러 방법이 있다. 1) 3D 를 여러 각도에서 2D ..

서로 다른 데이터로 동시에 학습 Overview of multi-model learning 다양한 특성 갖는 데이터 사용 해서 학습 데이터의 표현 방법이 다르다. 2D, 3D, embedding vector modality에서 오는 정보의 양도 unbalance one to many matching model로 학습 할 때, 여러 모달리트를 공평하게 참조해서 좋은 학습 결과를 출력하는 것이 어렵다. 많은 정보를 주는 것이 오히려 방해가 될 수도 (학습 방법의 한계) 트레이닝이 잘 안되어서 쉬운 모달리티에 의존하고 어려운건 무시해버리기도 한다. 예를 들면 어떤 행동 이미지와 사운드가 주어질 때, 보통의 행동은 이미지만으로도 판별이 가능하고, 가끔 소리지르거나 노래부르는 행동 때 사운드 정보가 필요하면 모델..

다음과 같은 스케치가 주어졌을때 분포에서 가장 이런 이미지일 확률이 가장 높아 하는 것을 sampling하는 것 기본적 generative model은 생성은 가능해도, 조작을 할 수는 없었다. 적용처와 예시 저 퀄리티 음성을 고퀄리티 음성으로 중국어 $\rightarrow$ 영어로 번역 title 부제목만으로 글 생성을 요구하는 것도 가능 GAN 학습 방법 경찰 vs 도둑 generator와 discriminator 가 적대적으로 학습 GAN vs Conditional Gan C라는 conditional input이 존재 적용 예시 Image style transfer 저해상도 $\rightarrow$ 고해상도 : super resolution 흑백 $\rightarrow$ color : 게임 테마 ..