MARL

Multi Agent Reinforcement Learning with reward machines and Soft Actor Critic

References

SAC: https://arxiv.org/pdf/1812.05905.pdf

Phase 1 Results (Implementing SAC-Discrete on a gridworld)

Best model achieved an average reward of 0.9, compared to the benchmark reward of 0.8.

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
plots		plots
.gitignore		.gitignore
README.md		README.md
agent.py		agent.py
grid_world_utils.py		grid_world_utils.py
models.py		models.py
replay_buffer.py		replay_buffer.py
sac.py		sac.py
sac_discrete.py		sac_discrete.py
sparse_rm.py		sparse_rm.py
stoopid.py		stoopid.py
train.py		train.py
unityml_trainer.py		unityml_trainer.py

Provide feedback