pdfMetadataExtractor

A python script that recursively extracts pdf metadata from any pdf in a subfolder.
It also extracts thumbnails from each file and stores them in an images folder

Requirements

Download and install Ghostcript
This will extract the pdf metadata
Download and install ImageMagick
This will create the pdf thumbnails

Setup

Run pip install to install project dependencies (pypdf, wand, argparse).

or if you're on Arch there are AUR packages for each one of these.

Usage

-d or --directory will specify the directory to be scanned

Example: python .\pdf_metadata_extractor.py -d pdf_folder

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
build/pdf_metadata_extractor		build/pdf_metadata_extractor
dist		dist
.gitignore		.gitignore
README.md		README.md
dir_scanner.py		dir_scanner.py
metadata.json		metadata.json
package-lock.json		package-lock.json
package.json		package.json
pdf_metadata_extractor.py		pdf_metadata_extractor.py
pdf_metadata_extractor.spec		pdf_metadata_extractor.spec
pdf_metadata_extractorv1.1.py		pdf_metadata_extractorv1.1.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pdfMetadataExtractor

Requirements

Setup

Usage

About

Releases

Packages

Languages

highonskooma/pdfMetadataExtractor

Folders and files

Latest commit

History

Repository files navigation

pdfMetadataExtractor

Requirements

Setup

Usage

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages