CC5218 Perspectivas y paradigmas en Inteligencia Artificial�Aprendizaje por refuerzo
Hugging Face. Deep Reinforcement Learning Course, Capítulos 1 y 2
Slides hechas con NotebookLM
Q-Learning Ejemplo
Q-Learning Ejemplo
La función de recompensa es la siguiente:
+0: Ir a un estado en el que no hay queso.
+1: Ir a un estado en el que hay un poco de queso.
+10: Ir al estado en el que hay un montón de queso.
-10: Ir al estado en el que hay veneno y, por lo tanto, morir.
+0 si tardamos más de cinco pasos.
Paso 1: Inicializamos la tabla Q
Al principio nuestra tabla Q no sirve para nada;
tenemos que entrenar nuestra función Q utilizando el algoritmo de Q-Learning.
Hagámoslo durante dos pasos de entrenamiento:
Partamos por el paso de entrenamiento 1.
Paso 2: Elegimos una acción utilizando la estrategia Epsilon Greedy
Como épsilon es grande = 1,0, realizo una acción aleatoria; en este caso, voy hacia la derecha.
Paso 3: Realizo la acción At y obtengo Rt+1 y St+1
Al ir hacia la derecha, consigo un trozo de queso pequeño, así que Rt+1 = 1, y paso a un nuevo estado.
Paso 4: Actualizar Q(St, At)
Ahora podemos actualizar Q(St,At) utilizando nuestra fórmula.
Y ahora hacemos todo de nuevo en una segunda iteración.
Iteración 2, Paso 2: Elegimos una acción utilizando la estrategia Epsilon Greedy
Vuelvo a elegir una acción al azar, ya que el valor de epsilon es alto, 0,99 (lo reducimos ligeramente porque, a medida que avanza el entrenamiento, queremos cada vez menos exploración).
Elegimos la acción de bajar que me lleva al veneno.
Iteración 2, Paso 3: Realizo la acción At y obtengo Rt+1 y St+1
Como entro en estado de envenenamiento, obtengo Rt+1 = −10 y muero.
Iteración 2, Paso 4: Actualizar Q(St, At)
Como hemos muerto, empezamos un nuevo episodio. Pero lo que vemos aquí es que, tras dos pasos de exploración, mi agente se ha vuelto más inteligente.
A medida que sigamos explorando y explotando el entorno y actualizando los valores Q utilizando el objetivo TD, la tabla Q nos proporcionará aproximaciones cada vez mejores. Y así, al final del entrenamiento, obtendremos una estimación de la función Q óptima.
Síntesis