Skip to content

arislid/level2_dataannotation_cv-level2-cv-16

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 

Repository files navigation

Data Annotation & OCR Detection Project

Main

📰 Contributors

CV-16조 💡 비전길잡이 💡
NAVER Connect Foundation boostcamp AI Tech 4th

민기 박민지 유영준 장지훈 최동혁
revanZX arislid youngjun04 FIN443 choipp
AI hub
SynthTextKR
ICDAR
SynthText
Augmentation
SynthText
ICDAR
Optimization
SynthText 500k
ICDAR 17/19

📰 Links

📰 Result

Result


📰 Model

image

📰 Strategy

Strategy

  • ImageNet pretrained Backbone + 대량의 합성 데이터 pre-training + fine-tuning
  • SynthText pre-generated 데이터셋 확보 후 pre-training
  • 이후 ICDAR 17/19 데이터로 fine-tuning하여 좋은 성능 확인

📘 Dataset

image

  • boostcamp 자체 annotation 데이터셋 포함 4개 범주 데이터셋 활용

📘 (1) AI Hub

Aihub_sample

  • 공공행정문서 OCR : 카테고리 별 8장 약 2618장의 데이터셋 활용
  • 야외 실제 촬영 한글 이미지 : EDA 결과 적합하지 않아 제외

📘 (2) ICDAR

ICDAR

  • ICDAR17 MLT - 9개 언어, Training 7,200장, Validation 1,800장
  • ICDAR19 MLT - 10개 언어, Training 10,000장

📘 (3) SynthText

SynthText

  • Synthetic data: 영어 858,750장 중 542,706장 학습에 사용
  • E2E-MLT Data: 한국어 40,432장 중 5,452장을 학습 데이터 사용
  • 규모가 큰 데이터셋(영어) pre-trained 후 fine-tuning하는 전략
  • 이후 5,452장(한국어) + 7,939장(영어) 소규모 competition 데이터셋 pre-trained 적용

📰 Experiments

1. AiHub OCR

exp recall
(public)
precision
(public)
f1-score
(public)
f1-score
(private)
AI_hubOCR 0.5958 0.3876 0.4690 0.5097
pre-AI_hubOCR +
ICDAR1719
0.4890 0.7001 0.5758 0.6087

2. ICDAR Only

exp recall
(public)
precision
(public)
f1-score
(public)
f1-score
(private)
ICDAR 17 0.5510 0.7877 0.6415 0.6309
ICDAR 19 0.5739 0.8141 0.6739 0.6730
ICDAR 19 Norm 0.5931 0.7899 0.6775 0.6793
ICDAR 17, 19 0.5851 0.8095 0.6792 0.6688

3. Pre-trained SynthText data

exp recall
(public)
precision
(public)
f1-score
(public)
f1-score
(private)
ICDAR 19, ST-kr 0.5379 0.7793 0.6365 0.6794
pre-en(500k) + ICDAR 19 0.5749 0.8141 0.6739 0.6730
pre-en(500k) + ICDAR 17/19 0.5997 0.8080 0.6884 0.7192
pre-en(500k) + ICDAR 17/19, ST-kr 0.5815 0.7638 0.6603 0.6707
pre-mix + ICDAR 17/19 0.6113 0.8171 0.6993 0.7115
pre-en(80k) + ICDAR 17/19 0.5583 0.7458 0.6386 0.6507

📰 LB Timeline ⌛

LB Timeline

  • 초반에 ICDAR 17, 19 적용하여 높은 점수 확보
  • SynthText 적용 후 ImageNet pretrained Backbone + 대량의 합성 데이터 pretrain
  • 최종적으로 fine-tuning 통해 후반부에 성능 끌어올림

📰 Directory Structure

|-- 🗂 appendix : 발표자료
|-- 🗂 code     : 학습시 사용했던 코드
`-- README.md

About

OCR 데이터 제작 및 검출 프로젝트(2022.12.08 ~ 2022.12.15)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 95.7%
  • Jupyter Notebook 4.3%