Reinforcement learning

Reinforcement learning practice

lab 1

Creating a MDP and doing value iteration to converge to a policy.

Q learning and Sarsa algorithm for robber to get maximum reward in the game.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.idea		.idea
.ipynb_checkpoints		.ipynb_checkpoints
__pycache__		__pycache__
cartpole		cartpole
lab 1		lab 1
lab2		lab2
.DS_Store		.DS_Store
README.md		README.md
Solution_preparatory_lab.ipynb		Solution_preparatory_lab.ipynb
lab0.pdf		lab0.pdf
rlenv.yml		rlenv.yml