Add prioritized experience replay #1

r7vme · 2018-10-18T08:54:07Z

Right now policy learning process is vague and does not improve over time (i.e. good policy can be learned in 3 episodes, but after 10 episodes policy can degrade completely).

So after spending time adjusting optimal buffer size and optimization steps, i see that it's pretty random. I assume that prioritized experience buffer for DDPG will help imrove situation.

In short, it will make sure

to sample unseen observations (by using infinite priority)
to sample "valuable" observations (by computing priority based on TD error)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add prioritized experience replay #1

Add prioritized experience replay #1

r7vme commented Oct 18, 2018

Add prioritized experience replay #1

Add prioritized experience replay #1

Comments

r7vme commented Oct 18, 2018