selfplay方式下每次策略评估时的逻辑问题 #51

cymmerida123 · 2024-12-06T09:56:01Z

求问selfplay方式下每次策略评估时的逻辑是否有问题？当opponent_elo优于ego_elo时，expected_score 较小，但此时actual_score往往较大，是不是就无法正确评价选手在比赛中的表现了？

Update elo

    ego_elo = np.array([self.latest_elo for _ in range(self.n_eval_rollout_threads)])
    opponent_elo = np.array([self.policy_pool[key] for key in eval_choose_opponents])
    expected_score = 1 / (1 + 10**((opponent_elo-ego_elo)/400))

    actual_score = np.zeros_like(expected_score)
    diff = opponent_average_episode_rewards - eval_average_episode_rewards
    actual_score[diff > 100] = 1 # win
    actual_score[abs(diff) < 100] = 0.5 # tie
    actual_score[diff < -100] = 0 # lose

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

selfplay方式下每次策略评估时的逻辑问题 #51

selfplay方式下每次策略评估时的逻辑问题 #51

cymmerida123 commented Dec 6, 2024

selfplay方式下每次策略评估时的逻辑问题 #51

selfplay方式下每次策略评估时的逻辑问题 #51

Comments

cymmerida123 commented Dec 6, 2024

Update elo