꺼내먹는지식 준
OCR dataset 본문
OCR dataset
서비스향 AI 모델 개발시 빠르게 확인해야 하는 점
2 - 구해야하는 데이터 셋 파악
3 - 우리의 문제가 현재 해결 가능한가 파악
Public dataset 구하는 방법
OCR 데이터 셋 특징
다음과 같이 정리하여 빠르게 파악 가능
OCR 데이터 포함 요소
ICDAR (OCR 학회 매번 데이터 셋 공개)
처음에는 알아보기 쉬운 디지털 텍스트 데이터 셋부터 텍스트 사진, 길거리에서 자유롭게 찍힌 텍스트 데이터, 더 나아가 특이한 형태에 작성된 텍스트 데이터로 점점 더 어려워진다.
ICDAR 2015 data set
ICDAR 2017 data set
ICDAR 2019 data set
한국어 OCR 데이터 셋
AI Hub
조명 환경, 글자 주요 색, 폰트 등의 정보도 담고 있다.
각 public dataset마다 annotation format 이 다르다.
이에 따라 Up stage에서는 통합 format인 UFO를 사용한다.
Comments