꺼내먹는지식 준

OCR dataset 본문

카테고리 없음

OCR dataset

알 수 없는 사용자 2022. 4. 18. 15:36

OCR dataset 

 

 

서비스향 AI 모델 개발시 빠르게 확인해야 하는 점 

2 - 구해야하는 데이터 셋 파악 

3 - 우리의 문제가 현재 해결 가능한가 파악 

 

Public dataset 구하는 방법 

OCR 데이터 셋 특징

다음과 같이 정리하여 빠르게 파악 가능 

 

OCR 데이터 포함 요소 

ICDAR (OCR 학회 매번 데이터 셋 공개)

처음에는 알아보기 쉬운 디지털 텍스트 데이터 셋부터 텍스트 사진, 길거리에서 자유롭게 찍힌 텍스트 데이터, 더 나아가 특이한 형태에 작성된 텍스트 데이터로 점점 더 어려워진다. 

 

ICDAR 2015 data set 

ICDAR 2017 data set 

 

 

ICDAR 2019 data set

한국어 OCR 데이터 셋 

AI Hub

 

조명 환경, 글자 주요 색, 폰트 등의 정보도 담고 있다. 

 

각 public dataset마다 annotation format 이 다르다. 

 

이에 따라 Up stage에서는 통합 format인 UFO를 사용한다. 

 

Comments