Python script to extract data from PDF(Marathi) of images using OCR.

Requirements

Install Python 3.10

https://realpython.com/installing-python/
Install Tesseract binary

https://sourceforge.net/projects/tesseract-ocr.mirror/
Create venv for this project
```
  python -m venv venv
```
Install packages using requirements.txt
- Activate virtual python environment
```
call venv/Scripts/activate.bat
```
- Install packages
```
pip install -r requirements.txt
```
Create pdfs, images and result directories

Yup, you are ready to go.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
libs		libs
ref		ref
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
main.py		main.py
readme.md		readme.md
requirements.txt		requirements.txt
start.bat		start.bat