Single sample per episode 600K dataset

tambetm released this 16 Jul 22:18

· 8 commits to master since this release

9c246cf

This dataset contains 600K observations, actions and state values recorded using one-sample-per-episode scheme. This increases dataset diversity and allows to successfully learn value function. Because we ran four SimpleAgents against each other, the dataset is actually collected from 150K different episodes - from each episode we used random sample from each of the four agents. There are two dataset versions: one with discount rate 0.9 and one with 0.99.

Assets 6

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Single sample per episode 600K dataset