Tutorial de aprendizaje automático para principiantes: qué es y conceptos básicos de ML
¿Qué es el Aprendizaje Automático?
Aprendizaje automático (Machine learning & LLM) es un sistema de algoritmos informáticos que pueden aprender de ejemplos mediante la superación personal sin ser codificados explícitamente por un programador. El aprendizaje automático es una parte de la inteligencia artificial que combina datos con herramientas estadísticas para predecir un resultado que puede utilizarse para generar información procesable.
El avance surge con la idea de que una máquina puede aprender singularmente de los datos (es decir, ejemplos) para producir resultados precisos. El aprendizaje automático está estrechamente relacionado con la minería de datos y el modelado predictivo bayesiano. La máquina recibe datos como entrada y utiliza un algoritmo para formular respuestas.
Una tarea típica de aprendizaje automático es proporcionar recomendaciones. Para aquellos que tienen un Netflix cuenta, todas las recomendaciones de películas o series se basan en los datos históricos del usuario. Las empresas tecnológicas están utilizando aprendizaje sin supervisión para mejorar la experiencia del usuario con recomendaciones personalizadas.
El aprendizaje automático también se utiliza para una variedad de tareas como detección de fraude, mantenimiento predictivo, optimización de cartera, automatización de tareas, etc.
Aprendizaje automático versus programación tradicional
La programación tradicional difiere significativamente del aprendizaje automático. En la programación tradicional, un programador codifica todas las reglas consultando a un experto en la industria para la que se está desarrollando el software. Cada regla se basa en una base lógica; la máquina ejecutará un resultado después de la declaración lógica. Cuando el sistema se vuelve complejo, es necesario escribir más reglas. Puede volverse insostenible mantenerlo rápidamente.
Se supone que el aprendizaje automático superará este problema. La máquina aprende cómo se correlacionan los datos de entrada y salida y escribe una regla. Los programadores no necesitan escribir nuevas reglas cada vez que hay nuevos datos. Los algoritmos se adaptan en respuesta a nuevos datos y experiencias para mejorar la eficacia con el tiempo.
¿Cómo funciona el aprendizaje automático?
Ahora, en este tutorial sobre conceptos básicos del aprendizaje automático para principiantes, aprenderemos cómo funciona el aprendizaje automático (ML):
El aprendizaje automático es el cerebro donde tiene lugar todo el aprendizaje. La forma en que la máquina aprende es similar a la del ser humano. Los humanos aprenden de la experiencia. Cuanto más sabemos, más fácilmente podemos predecir. Por analogía, cuando nos enfrentamos a una situación desconocida, la probabilidad de éxito es menor que la de la situación conocida. Las máquinas están entrenadas de la misma manera. Para hacer una predicción precisa, la máquina ve un ejemplo. Cuando le damos a la máquina un ejemplo similar, puede descubrir el resultado. Sin embargo, al igual que un humano, si se trata de un ejemplo nunca antes visto, la máquina tiene dificultades para predecirlo.
El objetivo central del aprendizaje automático es learning inferencia. En primer lugar, la máquina aprende mediante el descubrimiento de patrones. Este descubrimiento se realiza gracias a la datos. Una parte crucial del científico de datos es elegir cuidadosamente qué datos proporcionar a la máquina. La lista de atributos utilizados para resolver un problema se llama vector de características. Puede pensar en un vector de características como un subconjunto de datos que se utiliza para abordar un problema.
La máquina utiliza algunos algoritmos sofisticados para simplificar la realidad y transformar este descubrimiento en una modeloPor lo tanto, la etapa de aprendizaje se utiliza para describir los datos y resumirlos en un modelo.
Por ejemplo, la máquina intenta comprender la relación entre el salario de un individuo y la probabilidad de ir a un restaurante elegante. Resulta que la máquina encuentra una relación positiva entre el salario e ir a un restaurante de lujo: este es el modelo
infiriendo
Cuando se construye el modelo, es posible probar qué tan poderoso es con datos nunca antes vistos. Los nuevos datos se transforman en un vector de características, revisan el modelo y dan una predicción. Esta es la parte hermosa del aprendizaje automático. No es necesario actualizar las reglas ni entrenar nuevamente el modelo. Puede utilizar el modelo previamente entrenado para hacer inferencias sobre nuevos datos.
La vida de los programas de Machine Learning es sencilla y se puede resumir en los siguientes puntos:
- Definir una pregunta
- Recopilar datos
- Visualizar datos
- Algoritmo de tren
- Pruebe el algoritmo
- Recopilar comentarios
- Refinar el algoritmo
- Bucle 4-7 hasta que los resultados sean satisfactorios.
- Usa el modelo para hacer una predicción.
Una vez que el algoritmo aprende a sacar las conclusiones correctas, aplica ese conocimiento a nuevos conjuntos de datos.
Aprendizaje automático (Machine learning & LLM) Algorithms y ¿Dónde se utilizan?
Ahora, en este tutorial de aprendizaje automático para principiantes, aprenderemos dónde se utilizan los algoritmos de aprendizaje automático (ML):
El aprendizaje automático se puede agrupar en dos grandes tareas de aprendizaje: supervisado y no supervisado. Existen muchos otros algoritmos
Aprendizaje supervisado
Un algoritmo utiliza datos de entrenamiento y comentarios de humanos para aprender la relación entre entradas determinadas y una salida determinada. Por ejemplo, un profesional puede utilizar los gastos de marketing y el pronóstico del tiempo como datos de entrada para predecir las ventas de latas.
Puede utilizar el aprendizaje supervisado cuando se conocen los datos de salida. El algoritmo predecirá nuevos datos.
Hay dos categorías de aprendizaje supervisado:
- Tarea de clasificación
- Tarea de regresión
Clasificación
Imagine que quiere predecir el sexo de un cliente para un comercial. Comenzarás a recopilar datos sobre altura, peso, trabajo, salario, cesta de compras, etc. de tu base de datos de clientes. Conoces el género de cada uno de tus clientes, solo puede ser hombre o mujer. El objetivo del clasificador será asignar una probabilidad de ser hombre o mujer (es decir, la etiqueta) en función de la información (es decir, las características que ha recopilado). Cuando el modelo haya aprendido a reconocer a un hombre o una mujer, podrá utilizar nuevos datos para hacer una predicción. Por ejemplo, acaba de recibir información nueva de un cliente desconocido y desea saber si es hombre o mujer. Si el clasificador predice hombre = 70%, significa que el algoritmo está seguro en un 70% de que este cliente es un hombre y en un 30% es una mujer.
La etiqueta puede ser de dos o más clases. El ejemplo de aprendizaje automático anterior tiene solo dos clases, pero si un clasificador necesita predecir un objeto, tiene docenas de clases (por ejemplo, vidrio, mesa, zapatos, etc., cada objeto representa una clase).
Regresión
Cuando la salida es un valor continuo, la tarea es una regresión. Por ejemplo, es posible que un analista financiero necesite pronosticar el valor de una acción en función de una variedad de características como acciones, desempeños anteriores de las acciones, índice macroeconómico. El sistema estará entrenado para estimar el precio de las acciones con el menor error posible.
Algoritmo | Descripción | Tipo |
---|---|---|
Regresión lineal | Encuentra una manera de correlacionar cada característica con la salida para ayudar a predecir valores futuros. | Regresión |
Regresión logística | Extensión de la regresión lineal que se utiliza para tareas de clasificación. La variable de salida 3 es binaria (por ejemplo, solo blanco o negro) en lugar de continua (por ejemplo, una lista infinita de colores potenciales). | Clasificación |
Árbol de decisión | Modelo de clasificación o regresión altamente interpretable que divide los valores de características de datos en ramas en nodos de decisión (por ejemplo, si una característica es un color, cada color posible se convierte en una nueva rama) hasta que se toma una decisión final. | Regresión Clasificación |
Bayes ingenuos | El método bayesiano es un método de clasificación que utiliza el teorema bayesiano. El teorema actualiza el conocimiento previo de un evento con la probabilidad independiente de cada característica que puede afectar el evento. | Regresión Clasificación |
Máquinas de vectores soporte |
La máquina de vectores de soporte, o SVM, se utiliza normalmente para la tarea de clasificación. El algoritmo SVM encuentra un hiperplano que dividió de manera óptima las clases. Se utiliza mejor con un solucionador no lineal. |
Regresión (no muy común) Clasificación |
Bosque al azar | El algoritmo se basa en un árbol de decisiones para mejorar drásticamente la precisión. El bosque aleatorio genera árboles de decisión muchas veces simples y utiliza el método de "voto mayoritario" para decidir qué etiqueta devolver. Para la tarea de clasificación, el pronóstico final será el que tenga más votos; mientras que para la tarea de regresión, la predicción promedio de todos los árboles es la predicción final. | Regresión Clasificación |
AdaBoost | Técnica de clasificación o regresión que utiliza una multitud de modelos para tomar una decisión, pero los pesa en función de su precisión para predecir el resultado. | Regresión Clasificación |
Árboles que aumentan el gradiente | Los árboles que aumentan el gradiente son una técnica de clasificación/regresión de última generación. Se centra en el error cometido por los árboles anteriores e intenta corregirlo. | Regresión Clasificación |
Aprendizaje sin supervisión
En el aprendizaje no supervisado, un algoritmo explora los datos de entrada sin recibir una variable de salida explícita (por ejemplo, explora los datos demográficos de los clientes para identificar patrones).
Puede usarlo cuando no sepa cómo clasificar los datos y desee que el algoritmo encuentre patrones y clasifique los datos por usted.
Nombre del algoritmo | Descripción | Tipo |
---|---|---|
Agrupación de K-medias | Coloca los datos en algunos grupos (k), cada uno de los cuales contiene datos con características similares (según lo determinado por el modelo, no de antemano por los humanos). | ClusterIng. |
modelo de mezcla gaussiana | Una generalización del agrupamiento de k-medias que proporciona más flexibilidad en el tamaño y la forma de los grupos (conglomerados) | ClusterIng. |
Agrupación jerárquica | Divide los grupos a lo largo de un árbol jerárquico para formar un sistema de clasificación.
Puede ser utilizado para Cluster cliente con tarjeta de fidelización |
ClusterIng. |
Sistema de recomendación | Ayuda a definir los datos relevantes para hacer una recomendación. | ClusterIng. |
PCA/T-SNE | Se utiliza principalmente para disminuir la dimensionalidad de los datos. Los algoritmos reducen el número de características a 3 o 4 vectores con las variaciones más altas. | Reducción de dimensión |
Cómo elegir un algoritmo de aprendizaje automático
Ahora, en este tutorial básico del aprendizaje automático, aprenderemos cómo elegir el algoritmo de aprendizaje automático (ML):
Existen numerosos algoritmos de aprendizaje automático. La elección del algoritmo se basa en el objetivo.
En el siguiente ejemplo de aprendizaje automático, la tarea consiste en predecir el tipo de flor entre las tres variedades. Las predicciones se basan en el largo y el ancho del pétalo. La imagen muestra los resultados de diez algoritmos diferentes. La imagen en la parte superior izquierda es el conjunto de datos. Los datos se clasifican en tres categorías: rojo, azul claro y azul oscuro. Hay algunas agrupaciones. Por ejemplo, en la segunda imagen, todo lo que está en la parte superior izquierda pertenece a la categoría roja, en la parte central hay una mezcla de incertidumbre y azul claro, mientras que la parte inferior corresponde a la categoría oscura. Las otras imágenes muestran diferentes algoritmos y cómo intentan clasificar los datos.
Desafíos y limitaciones del aprendizaje automático
Ahora, en este tutorial de aprendizaje automático, aprenderemos sobre las limitaciones del aprendizaje automático:
El principal desafío del aprendizaje automático es la falta de datos o la diversidad del conjunto de datos. Una máquina no puede aprender si no hay datos disponibles. Además, un conjunto de datos con falta de diversidad le resulta difícil a la máquina. Una máquina necesita tener heterogeneidad para aprender información significativa. Es raro que un algoritmo pueda extraer información cuando hay pocas o ninguna variación. Se recomienda tener al menos 20 observaciones por grupo para ayudar a la máquina a aprender. Esta restricción conduce a una mala evaluación y predicción.
Aplicación del aprendizaje automático
Ahora, en este tutorial de aprendizaje automático, aprendamos las aplicaciones del aprendizaje automático:
aumentar:
- Aprendizaje automático, que ayuda a los humanos con sus tareas diarias, personal o comercialmente, sin tener un control total del resultado. Este aprendizaje automático se utiliza de diferentes formas, como asistente virtual, análisis de datos y soluciones de software. El usuario principal es reducir los errores debidos al sesgo humano.
Automatización :
- Aprendizaje automático, que funciona de forma totalmente autónoma en cualquier ámbito sin necesidad de intervención humana. Por ejemplo, robots que realizan los pasos esenciales del proceso en las plantas de fabricación.
Industria financiera
- El aprendizaje automático está ganando popularidad en el sector financiero. Los bancos utilizan el aprendizaje automático principalmente para encontrar patrones dentro de los datos, pero también para prevenir el fraude.
Organización gubernamental
- El gobierno hace uso del ML para gestionar la seguridad pública y los servicios públicos. Tomemos el ejemplo de China con el reconocimiento facial masivo. El gobierno utiliza Inteligencia Artificial para prevenir peatones imprudentes.
Industria de la salud
- La atención médica fue una de las primeras industrias en utilizar el aprendizaje automático con detección de imágenes.
Digital
- El uso amplio de la IA se realiza en marketing gracias al abundante acceso a los datos. Antes de la era de los datos masivos, los investigadores desarrollan herramientas matemáticas avanzadas como el análisis bayesiano para estimar el valor de un cliente. Con el auge de los datos, el departamento de marketing confía en la IA para optimizar la relación con el cliente y la campaña de marketing.
Ejemplo de aplicación de Machine Learning en Supply Chain
El aprendizaje automático ofrece excelentes resultados para el reconocimiento visual de patrones, lo que abre muchas aplicaciones potenciales en inspección física y mantenimiento en toda la red de la cadena de suministro.
El aprendizaje no supervisado puede buscar rápidamente patrones comparables en diversos conjuntos de datos. A su vez, la máquina puede realizar inspecciones de calidad en todo el centro logístico, envío con daños y desgaste.
Por ejemplo, IBMLa plataforma Watson de puede determinar los daños en los contenedores de envío. Watson combina datos visuales y basados en sistemas para rastrear, informar y hacer recomendaciones en tiempo real.
El año pasado, el administrador de existencias se basó en gran medida en el método principal para evaluar y pronosticar el inventario. Al combinar big data y aprendizaje automático, se han implementado mejores técnicas de previsión (una mejora del 20 al 30 % con respecto a las herramientas de previsión tradicionales). En términos de ventas, significa un aumento del 2 al 3 % debido a la potencial reducción de costos de inventario.
Ejemplo de aprendizaje automático de Google Car
Por ejemplo, todo el mundo conoce el coche de Google. El coche está lleno de láseres en el techo que le indican dónde se encuentra con respecto a los alrededores. Tiene un radar en la parte delantera, que informa al coche de la velocidad y el movimiento de todos los coches a su alrededor. Utiliza todos esos datos para descubrir no sólo cómo conducir el automóvil, sino también para descubrir y predecir qué harán los conductores potenciales alrededor del automóvil. Lo impresionante es que el coche procesa casi un gigabyte por segundo de datos.
¿Por qué es importante el aprendizaje automático?
El aprendizaje automático es la mejor herramienta hasta el momento para analizar, comprender e identificar un patrón en los datos. Una de las ideas principales detrás del aprendizaje automático es que se puede entrenar a la computadora para que automatice tareas que serían exhaustivas o imposibles para un ser humano. La clara brecha con el análisis tradicional es que el aprendizaje automático puede tomar decisiones con una mínima intervención humana.
Tomemos el siguiente ejemplo para este tutorial de ML: un agente minorista puede estimar el precio de una casa basándose en su propia experiencia y su conocimiento del mercado.
Se puede entrenar una máquina para que traduzca el conocimiento de un experto en funciones. Las características son todas las características de una casa, barrio, entorno económico, etc. que marcan la diferencia de precio. Para el experto, probablemente le tomó algunos años dominar el arte de estimar el precio de una casa. Su experiencia es cada vez mejor después de cada venta.
Para la máquina, se necesitan millones de datos (es decir, un ejemplo) para dominar este arte. Al comienzo de su aprendizaje, la máquina comete un error, algo así como el vendedor junior. Una vez que la máquina ve todo el ejemplo, adquiere suficiente conocimiento para hacer su estimación. Al mismo tiempo, con una precisión increíble. La máquina también puede ajustar su error en consecuencia.
La mayoría de las grandes empresas han comprendido el valor del aprendizaje automático y la retención de datos. McKinsey ha estimado que el valor de la analítica oscila entre $9.5 billones a $15.4 billones mientras $Se pueden atribuir entre 5 y 7 billones a las técnicas de inteligencia artificial más avanzadas.
Lea también ¿Qué es la lógica difusa? ArchiTecnología, aplicación y ejemplo: Haga clic aquí