-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Tarea 3 parte f #3
Comments
En caso de que a alguien más le pasara... Al menos a mí me funcionó cambiar en GridEnv esta función: y esta parte de la clase HunterAndPreyEnv(GridEnv, AbstractMultiAgentEnv): Así, dejando todo con el formato de números funciona el código. |
No pueden cambiar nada del entorno. Al cambiar el entorno estás cambiando el problema que les pedí que resolvieran. No es necesario cambiar el entorno tampoco. La razón por la que cambiar el entorno te funcionó es porque eliminaste la opción de que los agentes se queden quietos. Pero esa es parte de la dificultad del ambiente. Si no funciona es porque tienes un bug en Q-learning :( Si el agente ejecuta la acción "None" muchas veces, Q-learning debería aprender que ejecutar esa acción no da recompensa y bajar su Q-value. Eventualmente otro Q-value tendrá mejor recompensa y cambiará la acción seleccionada. |
Hola profe, lo que pasa es que en la función step de HunterEnv, prey_action es un string y hunter1_action, hunter2_action son números, lo que está afectando el entrenamiento, por eso hice el cambio para que todos tengan el mismo formato, pero no eliminé la opción de que se queden quietos, solo puse su versión en número, que sería 4. Como no afecto las acciones en mi main, no sabría cómo atacar el problema de otra forma :( .
|
¡Hola! Las acciones de todos son strings (incluido los cazadores). De hecho, si ejecuto este código:
... me sale lo siguiente:
Lo que no caché es si era importante para tu código que las acciones fueran números en vez de palabras. ¿Es ese el problema? |
Hola! no sé por qué, pero cuando imprimí eso debuggeando me mostraba distintos formatos y al cambiarlo funcionó el entrenamiento :( Seguiré revisando porque en ese caso debe ser otro el error. Pdta: Efectivamente solo faltaba hacer un mapeo de acciones a índices y luego mapear las acciones numéricas a strings antes de enviarlas al entorno para tomar la acción. |
Hola!
Estoy haciendo la parte f de la tarea y noté que en el caso de HunterEnv done no está tomando valor True nunca, lo que impide continuar con el entrenamiento. De hecho llega un punto en que las posiciones son las siguientes y nunca cambian:
Hunter1: (2, 4), Hunter2: (3, 6), Prey: (6, 3), Done: False
¿Podemos cambiar algo de este entorno o debería tomar otro enfoque?
Agradezco de antemano su respuesta,
Saludos!
The text was updated successfully, but these errors were encountered: