SocialIQA_pt

Repo for the Social IQA dataset translation project to Portuguese language.

Translation Workflow:

Workflow notebooks:
Step I - read_dataset_en.ipynb - Initial reading of the source language in JSONL format.
Step II - translator_* - Machine translation using hugging face models.
Steps III/IV - evaluator_gemba_*.ipynb - Translation evaluator using a modified GEMBA technique.
Step V - publish_dataset_pt.ipynb - Publishing the target dataset to JSONL format.

Utility notebooks:
splitter_training_set.ipynb - Splitter for the training set to handle OpenAI rate limits for the GEMBA evaluation.
merger_training_set.ipynb - Merger for the training set post-GEMBA evaluation.
metrics.ipynb - Plotter for translation metrics.

Data folders:
\data - Folder for source language data in csv format.
\dataset_en - Source language dataset folder (en).
\dataset_pt - Target language dataset folder (pt). \images - For the workflow image.
\rankings - Storage for GEMBA translation evaluations.
\translated - Storage for temporary translated strings.

The resulting PT dataset is available at https://huggingface.co/datasets/fabiogr/social_i_qa_pt

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
data		data
dataset_en		dataset_en
dataset_pt		dataset_pt
images		images
rankings		rankings
translated		translated
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
evaluator_gemba_dev.ipynb		evaluator_gemba_dev.ipynb
evaluator_gemba_train.ipynb		evaluator_gemba_train.ipynb
evaluator_gemba_tst.ipynb		evaluator_gemba_tst.ipynb
merger_training_set.ipynb		merger_training_set.ipynb
metrics.ipynb		metrics.ipynb
publish_dataset_pt.ipynb		publish_dataset_pt.ipynb
read_dataset_en.ipynb		read_dataset_en.ipynb
splitter_training_set.ipynb		splitter_training_set.ipynb
translator_marian.ipynb		translator_marian.ipynb
translator_nllb.ipynb		translator_nllb.ipynb
translator_t5.ipynb		translator_t5.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SocialIQA_pt

About

Releases

Packages

Languages

License

fabiograssiotto/SocialIQA_pt

Folders and files

Latest commit

History

Repository files navigation

SocialIQA_pt

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages