1 of 32

CC5218 Perspectivas y paradigmas en Inteligencia Artificial�Aprendizaje por refuerzo

Hugging Face. Deep Reinforcement Learning Course, Capítulos 1 y 2

Slides hechas con NotebookLM

2 of 32

3 of 32

4 of 32

5 of 32

6 of 32

7 of 32

8 of 32

9 of 32

10 of 32

11 of 32

12 of 32

13 of 32

14 of 32

15 of 32

16 of 32

17 of 32

Eres un ratón en este pequeño laberinto. Siempre empiezas en el mismo punto de partida.
El objetivo es comerte el gran montón de queso de la esquina inferior derecha y evitar el veneno.
El episodio termina si te comes el veneno, te comes el gran montón de queso o si das más de cinco pasos.
La tasa de aprendizaje es 0,1.
Gamma (tasa de descuento) es 0,99.

Q-Learning Ejemplo

18 of 32

Q-Learning Ejemplo

La función de recompensa es la siguiente:

+0: Ir a un estado en el que no hay queso.

+1: Ir a un estado en el que hay un poco de queso.

+10: Ir al estado en el que hay un montón de queso.

-10: Ir al estado en el que hay veneno y, por lo tanto, morir.

+0 si tardamos más de cinco pasos.

19 of 32

Paso 1: Inicializamos la tabla Q

Al principio nuestra tabla Q no sirve para nada;

tenemos que entrenar nuestra función Q utilizando el algoritmo de Q-Learning.

Hagámoslo durante dos pasos de entrenamiento:

Partamos por el paso de entrenamiento 1.

20 of 32

Paso 2: Elegimos una acción utilizando la estrategia Epsilon Greedy

Como épsilon es grande = 1,0, realizo una acción aleatoria; en este caso, voy hacia la derecha.

21 of 32

Paso 3: Realizo la acción At y obtengo Rt+1 y St+1

Al ir hacia la derecha, consigo un trozo de queso pequeño, así que Rt+1 = 1, y paso a un nuevo estado.

22 of 32

Paso 4: Actualizar Q(St, At)

Ahora podemos actualizar Q(St,At) utilizando nuestra fórmula.

Y ahora hacemos todo de nuevo en una segunda iteración.

23 of 32

Iteración 2, Paso 2: Elegimos una acción utilizando la estrategia Epsilon Greedy

Vuelvo a elegir una acción al azar, ya que el valor de epsilon es alto, 0,99 (lo reducimos ligeramente porque, a medida que avanza el entrenamiento, queremos cada vez menos exploración).

Elegimos la acción de bajar que me lleva al veneno.

24 of 32

Iteración 2, Paso 3: Realizo la acción At y obtengo Rt+1 y St+1

Como entro en estado de envenenamiento, obtengo Rt+1 = −10 y muero.

25 of 32

Iteración 2, Paso 4: Actualizar Q(St, At)

Como hemos muerto, empezamos un nuevo episodio. Pero lo que vemos aquí es que, tras dos pasos de exploración, mi agente se ha vuelto más inteligente.

A medida que sigamos explorando y explotando el entorno y actualizando los valores Q utilizando el objetivo TD, la tabla Q nos proporcionará aproximaciones cada vez mejores. Y así, al final del entrenamiento, obtendremos una estimación de la función Q óptima.