- 안녕하세요, 한림대학교 팀입니다. 저희는 한림대학교 학부생 동기 5인으로 구성되어 있으며 대회에 참가하면서 좋은 경험을 했습니다. 감사합니다. 아래는 score 재현 방법입니다.
├── hallymocr: 학습에 필요한 모듈들
│ ├── modules
│ │ └── __pycache__
│ └── __pycache__
├── images: 학습에 사용되는 이미지 파일
│ ├── crop_tiw : 크롭된 HUB
이미지
│ ├── crop_train : 크롭된 TIW
이미지
│ ├── hub_train : HUB
이미지
│ ├── test : TEST
이미지
│ ├── tiw : TIW
원본이미지
│ └── train : TRAIN
원본이미지
├── labels: 라벨 및 이미지 정보가 담긴 json파일
│ ├── hub_train : HUB
json파일
│ └── tiw : TIW
json파일
├── lmdb_gt: lmdb생성을 위한 txt파일
├── result: 생성된 lmdb파일
│ ├── htrain: HUB
lmdb
│ ├── tiw: TIW
lmdb
│ ├── train: TRAIN[:-1000]
│ └── valid: TRAIN[-1000:]
├── saved_models: 모델 및 로그 저장
│ └── TPS-ResNet-BiLSTM-Attn-Seed1111
├── ocr.ipynb: 핵심 실행 파일(main)
├── README.md
├── requirements.yaml
└── train_edit.csv: 수작업으로 정제된 TRAIN
csv파일
git pull https://github.com/mhseo10/customocr
- ★ 중요 ★4개의 카테고리중
Text in the wild
데이터셋만 사용 - 이미지 파일:
./images/tiw
에 저장하며, 이때Text in the wild
데이터 셋 안에 4개의 폴더가 있는데, 이를 각 폴더로 두지 않고 각 폴더안에 있는 image파일들을./tiw
에 한 곳으로 저장해야합니다. - json 파일:
TIW
데이터셋은 하나의 json파일로 라벨링이 이루어져 있습니다.- ex) 100만장의 image, 1개의 json파일
- 이때 json파일은
textinthewild_data_info.json
입니다. ./labels/tiw
에 저장합니다.
HUB
셋은 Train셋과 Validation셋이 존재하나 Train셋만 사용합니다.- 이미지 파일:
./images/hub_train
에 저장하며 이때TIW
와 다르게 다운된 폴더 구조 째로 넣어주시면 됩니다. - json 파일: KOREAN 데이터셋은 하나의 image에 하나의 json파일이 각각 매치되어있습니다.
- ex) 100만장의 image, 100만개의 json파일
- [원천]과 [라벨]로 이름이 지정되어있습니다. [원천]의 이름에 맞게 [라벨]에 json파일이 매치되어있습니다.
./labels/hub_train
에 저장합니다.