Aprendizaje de refuerzo vs. Aprendizaje de refuerzo profundo: ¿cuál es la diferencia?

Contenido

¿Qué es el aprendizaje por refuerzo?
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
¿Qué es el aprendizaje de refuerzo profundo?

Para llevar:

Acudimos a los expertos y les pedimos que respondieran las diferencias importantes entre el aprendizaje por refuerzo y el aprendizaje por refuerzo profundo.

Los algoritmos de aprendizaje automático pueden facilitar la vida y el trabajo, liberándonos de tareas redundantes mientras trabajamos más rápido e inteligente que equipos completos de personas. Sin embargo, hay diferentes tipos de aprendizaje automático. Por ejemplo, hay aprendizaje de refuerzo y aprendizaje de refuerzo profundo.

"Aunque el aprendizaje por refuerzo y el aprendizaje por refuerzo profundo son técnicas de aprendizaje automático que aprenden de forma autónoma, existen algunas diferencias", según el Dr. Kiho Lim, profesor asistente de ciencias de la computación en la Universidad William Paterson en Wayne, Nueva Jersey. "El aprendizaje por refuerzo es aprender dinámicamente con un método de prueba y error para maximizar el resultado, mientras que el aprendizaje por refuerzo profundo es aprender del conocimiento existente y aplicarlo a un nuevo conjunto de datos".

Pero, ¿qué significa eso exactamente? Acudimos a los expertos, ¡y les pedimos que proporcionaran muchos ejemplos!

¿Qué es el aprendizaje por refuerzo?

Como dice Lim, el aprendizaje de refuerzo es la práctica de aprender por ensayo y error, y la práctica. "En esta disciplina, un modelo aprende en el despliegue al ser incrementalmente recompensado por una predicción correcta y penalizado por predicciones incorrectas", según Hunaid Hameed, un aprendiz científico de datos en Data Science Dojo en Redmond, WA. (Leer el aprendizaje por refuerzo puede dar un buen giro dinámico al marketing).

"El aprendizaje de refuerzo se ve comúnmente en juegos de IA y mejora en el juego con el tiempo".

Los tres componentes esenciales en el aprendizaje de refuerzo son un agente, acción y recompensa. "El aprendizaje por refuerzo se adhiere a una metodología específica y determina los mejores medios para obtener el mejor resultado", según el Dr. Ankur Taly, jefe de ciencia de datos de Fiddler Labs en Mountain View, CA. "Es muy similar a la estructura de cómo jugamos un videojuego, en el que el personaje (agente) participa en una serie de pruebas (acciones) para obtener la puntuación más alta (recompensa)".

Sin embargo, es un sistema autónomo de autoaprendizaje. Usando el ejemplo del videojuego, Taly dice que las recompensas positivas pueden provenir de aumentar el puntaje o los puntos, y las recompensas negativas pueden resultar de toparse con obstáculos o hacer movimientos desfavorables.

Chris Nicholson, CEO de Skymind, con sede en San Francisco, California, se basa en el ejemplo de cómo los algoritmos aprenden por prueba y error ". Imagínese jugando a Super Mario Brothers por primera vez y tratando de descubrir cómo ganar: explora el espacio, te agachas, saltas, golpeas una moneda, aterrizas en una tortuga, y luego ves lo que sucede ".

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

Al aprender las buenas acciones y las malas acciones, el juego te enseña a comportarte. "El aprendizaje por refuerzo lo hace en cualquier situación: videojuegos, juegos de mesa, simulaciones de casos de uso del mundo real". De hecho, Nicholson dice que su organización usa el aprendizaje por refuerzo y las simulaciones para ayudar a las empresas a encontrar el mejor camino de decisión a través de una situación compleja.

En el aprendizaje por refuerzo, un agente toma varias decisiones más pequeñas para lograr un objetivo más amplio. Otro ejemplo más es enseñarle a un robot a caminar. “En lugar de codificar direcciones para levantar un pie, doblar la rodilla, bajarlo, etc., un enfoque de aprendizaje de refuerzo podría hacer que el robot experimente con diferentes secuencias de movimientos y descubra qué combinaciones son las más exitosas para lograrlo seguir adelante ", dice Stephen Bailey, científico de datos y experto en herramientas analíticas de Immuta en College Park, MD.

Además de los videojuegos y la robótica, hay otros ejemplos que pueden ayudar a explicar cómo funciona el aprendizaje por refuerzo. Brandon Haynie, científico jefe de datos de Babel Street en Washington, DC, lo compara con un humano que está aprendiendo a andar en bicicleta. "Si está parado y levanta los pies sin pedalear, es inminente una caída - o penalización".

Sin embargo, si comienza a pedalear, permanecerá en la bicicleta, recompensa, y avanzará al siguiente estado.

"El aprendizaje por refuerzo tiene aplicaciones que abarcan varios sectores, incluidas las decisiones financieras, la química, la fabricación y, por supuesto, la robótica", dice Haynie.

¿Qué es el aprendizaje de refuerzo profundo?

Sin embargo, es posible que las decisiones se vuelvan demasiado complejas para el enfoque de aprendizaje reforzado. Haynie dice que puede ser abrumador para el algoritmo aprender de todos los estados y determinar la ruta de recompensa. "Aquí es donde el aprendizaje de refuerzo profundo puede ayudar: la parte" profunda "se refiere a la aplicación de una red neuronal para estimar los estados en lugar de tener que mapear cada solución, creando un espacio de solución más manejable en el proceso de decisión".

No es un concepto nuevo. Haynie dice que existe desde la década de 1970. "Pero con el advenimiento de la informática barata y poderosa, las ventajas adicionales de las redes neuronales ahora pueden ayudar a abordar áreas para reducir la complejidad de una solución", explica. (Lea ¿Cuál es la diferencia entre inteligencia artificial y redes neuronales?)

¿Entonces, cómo funciona esto? Según Peter MacKenzie, líder del equipo de inteligencia artificial, Américas en Teradata, es demasiada información para almacenar en tablas, y los métodos tabulares requerirían que el agente visite cada combinación de estado y acción.

Sin embargo, el aprendizaje de refuerzo profundo reemplaza los métodos tabulares de estimación de valores de estado con aproximación de funciones. "La aproximación de funciones no solo elimina la necesidad de almacenar todos los pares de estado y valor en una tabla, sino que permite al agente generalizar el valor de estados que nunca antes había visto, o tiene información parcial sobre el uso de valores de estados similares". MacKenzie dice.

"Gran parte de los emocionantes avances en el aprendizaje de refuerzo profundo se han producido debido a la fuerte capacidad de las redes neuronales para generalizar a través de enormes espacios estatales". Y MacKenzie señala que el aprendizaje de refuerzo profundo se ha utilizado en programas que han vencido a algunos de los mejores competidores humanos. en juegos como Chess and Go, y también son responsables de muchos de los avances en robótica. (Lea 7 mujeres líderes en inteligencia artificial, aprendizaje automático y robótica).

Bailey está de acuerdo y agrega: "A principios de este año, un agente de IA llamado AlphaStar venció al mejor jugador de StarCraft II del mundo, y esto es particularmente interesante porque, a diferencia de juegos como Chess and Go, los jugadores de StarCraft no saben lo que está haciendo su oponente". En cambio, dice que tuvieron que hacer una estrategia inicial y luego adaptarse a medida que descubrían lo que estaba planeando su oponente.

Pero, ¿cómo es eso posible? Si un modelo tiene una red neuronal de más de cinco capas, Hameed dice que tiene la capacidad de atender a datos de alta dimensión. "Debido a esto, el modelo puede aprender a identificar patrones por sí solo sin tener un curador de ingenieros humanos y seleccionar las variables que deben ingresarse en el modelo para aprender", explica.

En escenarios abiertos, realmente puedes ver la belleza del aprendizaje de refuerzo profundo. Taly utiliza el ejemplo de reservar una mesa en un restaurante o hacer un pedido de un artículo, situaciones en las que el agente tiene que responder a cualquier entrada del otro extremo.

"El aprendizaje de refuerzo profundo puede usarse para entrenar a un agente de conversación directamente desde la señal de audio o desde el otro extremo", dice. "Cuando se usa una señal de audio, el agente también puede aprender a captar señales sutiles en el audio, tales como pausas, entonación, etc. Este es el poder del aprendizaje de refuerzo profundo".

Y siguen surgiendo nuevas aplicaciones de aprendizaje de refuerzo profundo. Al determinar la siguiente mejor acción para relacionarse con un cliente, MacKenzie dice que "el estado y las acciones podrían incluir todas las combinaciones de productos, ofertas y mensajes en todos los diferentes canales, cada uno de los cuales está personalizado: texto, imágenes, colores, fuentes".

Otro ejemplo es la optimización de la cadena de suministro, por ejemplo, la entrega de productos perecederos en los EE. UU. "Los posibles estados incluyen la ubicación actual de todos los diferentes tipos de transporte, el inventario en todas las plantas, almacenes y puntos de venta, y el pronóstico de la demanda para todos las tiendas ", dice MacKenzie.

"El uso del aprendizaje profundo para representar el estado y el espacio de acción le permite al agente tomar mejores decisiones logísticas que resultan en envíos más oportunos a un costo menor".