Evaluation-Gen-AI

Examples for evaluating generative AI use cases on Amazon Bedrock and Amazon SageMaker.

Features

0. Understanding metric types: Textual vs Semantic

Examples for how ROUGE is computed over text
Examples for how BERT score is computed over text
Consider which use cases fits each

1. Evaluating Amazon Bedrock Knowledge Base using RAGAS

Implements RAGAS framework for baseline testing of amazon Bedrock Knowledge bases
Measures retrieval accuracy and relevance
Evaluates context precision and faithfulness

2. Optimizing Amazon Bedrock knowledge Base using RAGAS

Use RAGAS to find optimal query time parameters for knowledge bases -- number of retreived answers -- Choice of generating model

3. Model Safety Assessment

Integration with Bedrock Guardrails
RAGAS safety metrics implementation
Measure guardrail accuracy by analyzing tradeoffs between over-filtering (false positives) and under-filtering (false negatives).

4. Agent Evaluation Framework

End-to-end agent testing
Task completion verification
Response quality measurement
Performance benchmarking

Contributing

Open an Issue or a Pull request.

License

This project is licensed under the LICENSE file in the repository.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
knowledge_base_basic_ragas_evaluation.ipynb		knowledge_base_basic_ragas_evaluation.ipynb
metrics_examples.ipynb		metrics_examples.ipynb
optimize_knowledge_using_ragas_evaluation.ipynb		optimize_knowledge_using_ragas_evaluation.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Evaluation-Gen-AI

Features

0. Understanding metric types: Textual vs Semantic

1. Evaluating Amazon Bedrock Knowledge Base using RAGAS

2. Optimizing Amazon Bedrock knowledge Base using RAGAS

3. Model Safety Assessment

4. Agent Evaluation Framework

Contributing

License

About

Releases

Packages

Languages

License

gilinachum/evaluation-gen-ai

Folders and files

Latest commit

History

Repository files navigation

Evaluation-Gen-AI

Features

0. Understanding metric types: Textual vs Semantic

1. Evaluating Amazon Bedrock Knowledge Base using RAGAS

2. Optimizing Amazon Bedrock knowledge Base using RAGAS

3. Model Safety Assessment

4. Agent Evaluation Framework

Contributing

License

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages