Curso GRATUITO en ESPAÑOL sobre los fundamentos del aprendizaje por refuerzo

El aprendizaje por refuerzo o aprendizaje reforzado es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de “recompensa” o premio acumulado.

El aprendizaje por refuerzo es un subcampo del aprendizaje automático, pero también es un formalismo de propósito general para la toma de decisiones automatizada y la inteligencia artificial. Este curso le presenta las técnicas de aprendizaje estadístico en las que un agente actúa e interactúa explícitamente con el mundo. Comprender la importancia y los desafíos de los agentes de aprendizaje que toman decisiones es de vital importancia en la actualidad, con cada vez más empresas interesadas en agentes interactivos y en la toma de decisiones inteligente.

El aprendizaje por refuerzo y sus aplicaciones — CII.IA

Podrás conocer sobre los siguientes puntos:

– Formalizar problemas como procesos de decisión de Markov
– Entender los métodos básicos de exploración y la compensación de exploración / explotación
– Comprender las funciones de valor, como una herramienta de propósito general para la óptima toma de decisiones
– Conocer cómo implementar la programación dinámica como un enfoque eficiente solución a un problema de control industrial

Por qué es difícil la implementación del aprendizaje automático y que debe  tener en cuenta America Latina? - IA Latam

Este curso le enseña los conceptos clave de aprendizaje por refuerzo, que subyace a los algoritmos clásicos y modernos en RL. Después de completar este curso, podrá comenzar a usar RL para problemas reales, donde tiene o puede especificar el MDP.
Este es el primer curso de la especialización de aprendizaje reforzado.

Lo que aprenderás:

  • ¡Bienvenido al curso!
    • Bienvenido a: Fundamentals of Reinforcement Learning, el primer curso de una especialización de cuatro partes sobre aprendizaje reforzado que le ofrece la Universidad de Alberta, Onlea y Coursera. 

En este módulo previo al curso, se le presentará a sus instructores, obtendrá una idea de lo que el curso tiene reservado para usted y se le dará una hoja de ruta detallada para ayudarlo a que su viaje a través de esta especialización sea lo más sencillo posible.

  • Introducción a la toma de decisiones secuencial:
    • Durante la primera semana de este curso, aprenderá a comprender el equilibrio entre exploración y explotación en la toma de decisiones secuencial, implementar algoritmos incrementales para estimar valores de acción y comparar las fortalezas y debilidades con diferentes algoritmos de exploración. 

Para la evaluación calificada de esta semana, implementará y probará un agente ávido de épsilon.

  • Procesos de decisión de Markov:
    • Cuando se le presenta un problema en la industria, el primer paso y el más importante es traducir ese problema en un proceso de decisión de Markov (MDP). La calidad de su solución depende en gran medida de lo bien que haga esta traducción.

 Esta semana, aprenderá la definición de MDP, comprenderá el comportamiento dirigido a objetivos y cómo se puede obtener maximizando las recompensas escalares, y también comprenderá la diferencia entre tareas episódicas y continuas.

Impacto de la inteligencia artificial en ciencia, industria y sociedad -  Gaceta UNAM

 Para la evaluación calificada de esta semana, creará tres tareas de ejemplo propias que encajen en el marco de MDP.

  • Funciones de valor y ecuaciones de Bellman:
    • Una vez que el problema se formula como un MDP, encontrar la política óptima es más eficiente cuando se utilizan funciones de valor. 

Esta semana, aprenderá la definición de políticas y funciones de valor, así como las ecuaciones de Bellman, que es la tecnología clave que utilizarán todos nuestros algoritmos.

  • Programación dinámica:
    • Esta semana, aprenderá a calcular funciones de valor y políticas óptimas, asumiendo que tiene el modelo MDP. Implementará programación dinámica para calcular funciones de valor y políticas óptimas y comprenderá la utilidad de la programación dinámica para aplicaciones y problemas industriales. 

Además, aprenderá sobre la iteración de políticas generalizadas como una plantilla común para construir algoritmos que maximicen la recompensa. Para la evaluación graduada de esta semana, implementará un agente de programación dinámica eficiente en un problema de control industrial simulado.

¿Cómo obtengo el curso?

Este curso es ofrecido desde la plataforma de Coursera, es un curso que puedes obtener de manera gratuita bajo ciertas condiciones.

La primera opción es elegir la opción de “Curso gratuito sin certificado”, de esta manera podrás acceder al contenido del curso y finalizarlo, pero no podrás obtener un certificado de finalización avalado por la plataforma.

La segunda opción es elegir “auditar curso”, con esta opción podrás acceder al contenido de video del curso, pero no podrás realizar los exámenes ni obtener el certificado de finalización. Si no ves la opción de auditar curso, debes verificar en la parte de abajo usando el scroll (en forma de link).

Las opciones varían dependiendo el curso, pero con cualquiera de las dos podrás acceder gratuitamente al contenido. Por si fuera poco, algunos cursos tienen la opción de ayuda económica, con los cuales puedes solicitar dicho apoyo y ser acreedor de un curso de pago.

Para obtener el curso de manera gratuita da clic en el siguiente botón:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.