꺼내먹는지식 준

Dataset 기본 개념 본문

카테고리 없음

Dataset 기본 개념

알 수 없는 사용자 2022. 2. 21. 13:39

제공된 vanila data를 모델이 학습할 수 있는 dataset형식으로 잘 정리해야한다. 

모델 학습을 위한 파이프라인에서 현재 해당 위치이다. 

압축 형태/ 시계열, txt, 이미지, 음성/ 노이즈, 이상치 포함 등 데이터마다 차이가 크다. 

 

전처리 (Pre-processing)

시간이 많이 소요되고 많은 비중을 차지 

데이터 사이언스는 전처리가 80%, 모델이 20%라고 이야기를 한다. 

이미지는 시계열 혹은 정형데이터처럼 전처리가 크게 어렵지는 않지만, 용량적으로 접근이 어려운 문제는 있다. 

성능 개선을 위해서는 전치리가 정말 중요하다. 

 

보통 경진대회용 데이터는 품질이 양호하나, 실제 데이터는 그렇지 않은 경우가 많다. 

가끔 필요 이상으로 많은 정보를 가지고 있기도 하다. 

 

Bounding Box 

주변 배경 잘라서 노이즈 제거. 

큰 사이즈의 사진은 계산 효율을 위해 적당한 크기로 사이즈 변경 

생각보다 resize가 성능을 많이 떨어뜨리지 않는다. 

효율적인 사이즈를 찾는 것이 중요 

 

도메인, 데이터 형식에 따라 정말 다양한 case가 존재 

전처리는 일괄 적용이 불가하다. Domain에 따라서 다른 전처리 과정을 거쳐야 한다. 특히 medical image들은 전처리가 정말 중요하다. 

왼쪽 사진 비정상인의 눈, 오른쪽 눈 정상인의 눈 다음과 같이 처리를 하니 더 잘 구별이된다. 실제로도 학습이 더 잘 된다. 

하지만 전처리가 항상 잘되는건 안이다. 실험이 필수이다. 

 

Generalization 

일반화란? 

Bias & Variance

모델 학습시 overfitting, underfitting 모두 좋지 않다. 

데이터를 충분히 학습하지 못해(고려하지 않아) bias가 크다. 

많은 부분까지, noise까지 전부다 처리를한다는 점에서 high variance라 한다. 

즉, 일반적인 경우에 잘 작동하도록 편향되지 않은 결과를 낸 것이 일반화이다. 

 

Train / Validation 

Test set 숫자가 줄어서 이게 맞나? 싶지만, 

학습을 점검하기 위해서는 validation set이 필수이다! 

(학습에 이용하지 않은 데이터 사용 필요!)

 

Dataset의 일반화는 어떻게 하는걸까? 

Data Augmentation 

주어진 데이터가 가질 수 있는 case, state의 다양성 

데이터가 많아지고, 다양해져서 일반화에 도움이 된다. 

모델의 쓰임새를 살펴보면 힌트를 얻을 수 있다. 

사진이 실내에서만 찍힌다면 외부 사진은 필요 없을 수도 

등등..

종류도 많고, 사용은 간편하다. 

 

Albumentatinos

좀더 빠르고 다양하다. 

 

이 모든 과정은 항상 좋은 결과를 가져온다는 근거가 없다. 

이에 따라 이 모든 과정은 가정을 세우고 실험으로 증명해야 한다.

 

 

 

 

 

Comments