Tutorial de aprendizaje automático para principiantes: qué es y conceptos básicos de ML

¿Qué es el Aprendizaje Automático?

Aprendizaje automático (Machine learning & LLM) es un sistema de algoritmos informáticos que pueden aprender de ejemplos mediante la superación personal sin ser codificados explícitamente por un programador. El aprendizaje automático es una parte de la inteligencia artificial que combina datos con herramientas estadísticas para predecir un resultado que puede utilizarse para generar información procesable.

El avance surge con la idea de que una máquina puede aprender singularmente de los datos (es decir, ejemplos) para producir resultados precisos. El aprendizaje automático está estrechamente relacionado con la minería de datos y el modelado predictivo bayesiano. La máquina recibe datos como entrada y utiliza un algoritmo para formular respuestas.

Una tarea típica de aprendizaje automático es proporcionar recomendaciones. Para aquellos que tienen un Netflix cuenta, todas las recomendaciones de películas o series se basan en los datos históricos del usuario. Las empresas tecnológicas están utilizando aprendizaje sin supervisión para mejorar la experiencia del usuario con recomendaciones personalizadas.

El aprendizaje automático también se utiliza para una variedad de tareas como detección de fraude, mantenimiento predictivo, optimización de cartera, automatización de tareas, etc.

Aprendizaje automático versus programación tradicional

La programación tradicional difiere significativamente del aprendizaje automático. En la programación tradicional, un programador codifica todas las reglas en consulta con un experto en la industria para la cual se está desarrollando el software. Cada regla se basa en una lógica. foundation; la máquina ejecutará un seguimiento de salidawing el enunciado lógico. Cuando el sistema crece complex, es necesario escribir más reglas. Su mantenimiento puede volverse rápidamente insostenible.

Programación Tradicional
Programación Tradicional

Se supone que el aprendizaje automático superará este problema. La máquina aprende cómo se correlacionan los datos de entrada y salida y escribe una regla. Los programadores no necesitan escribir nuevas reglas cada vez que hay nuevos datos. Los algoritmos se adaptan en respuesta a nuevos datos y experiencias para mejorar la eficacia con el tiempo.

Aprendizaje automático (Machine learning & LLM)

Aprendizaje automático (Machine learning & LLM)

¿Cómo funciona el aprendizaje automático?

Ahora, en este tutorial sobre conceptos básicos del aprendizaje automático para principiantes, aprenderemos cómo funciona el aprendizaje automático (ML):

El aprendizaje automático es el cerebro donde tiene lugar todo el aprendizaje. La forma en que la máquina aprende es similar a la del ser humano. Los humanos aprenden de la experiencia. Cuanto más sabemos, más fácilmente podemos predecir. Por analogía, cuando nos enfrentamos a una situación desconocida, la probabilidad de éxito es menor que la de la situación conocida. Las máquinas están entrenadas de la misma manera. Para hacer una predicción precisa, la máquina ve un ejemplo. Cuando le damos a la máquina un ejemplo similar, puede descubrir el resultado. Sin embargo, al igual que un humano, si se trata de un ejemplo nunca antes visto, la máquina tiene dificultades para predecirlo.

El objetivo central del aprendizaje automático es aprendizaje y inferencia. En primer lugar, la máquina aprende mediante el descubrimiento de patrones. Este descubrimiento se realiza gracias a la datos. Una parte crucial del científico de datos es elegir cuidadosamente qué datos proporcionar a la máquina. La lista de atributos utilizados para resolver un problema se llama vector de características. Puede pensar en un vector de características como un subconjunto de datos que se utiliza para abordar un problema.

La máquina utiliza algunos algoritmos sofisticados para simplificar la realidad y transformar este descubrimiento en un modelo. Por lo tanto, la etapa de aprendizaje se utiliza para describir los datos y resumirlos en un modelo.

Trabajo de aprendizaje automático

Por ejemplo, la máquina intenta comprender la relación entre el salario de un individuo y la probabilidad de ir a un restaurante elegante. Resulta que la máquina encuentra una relación positiva entre el salario e ir a un restaurante de lujo: este es el modelo

infiriendo

Cuando se construye el modelo, es posible probar qué tan poderoso es con datos nunca antes vistos. Los nuevos datos se transforman en un vector de características, revisan el modelo y dan una predicción. Esta es la parte hermosa del aprendizaje automático. No es necesario actualizar las reglas ni entrenar nuevamente el modelo. Puede utilizar el modelo previamente entrenado para hacer inferencias sobre nuevos datos.

Inferencia del modelo

La vida de los programas de aprendizaje automático es sencilla y se puede resumir en lo siguientewing puntos:

  1. Definir una pregunta
  2. Recopilar datos
  3. Visualizar datos
  4. Algoritmo de tren
  5. Pruebe el algoritmo
  6. Recopilar comentarios
  7. Refinar el algoritmo
  8. Bucle 4-7 hasta que los resultados sean satisfactorios.
  9. Usa el modelo para hacer una predicción.

Una vez que el algoritmo se vuelve bueno en drawing conclusiones correctas, aplica ese conocimiento a nuevos conjuntos de datos.

Algoritmos de aprendizaje automático y dónde se utilizan

Ahora, en este tutorial de aprendizaje automático para principiantes, aprenderemos dónde se utilizan los algoritmos de aprendizaje automático (ML):

Algoritmos de aprendizaje automático

Algoritmos de aprendizaje automático

El aprendizaje automático se puede agrupar en dos tareas amplias de aprendizaje: supervisado y no supervisado. Hay muchos otros algoritmos.

Aprendizaje supervisado

Un algoritmo utiliza datos de entrenamiento y comentarios de humanos para aprender la relación entre entradas determinadas y una salida determinada. Por ejemplo, un profesional puede utilizar los gastos de marketing y el pronóstico del tiempo como datos de entrada para predecir las ventas de latas.

Puede utilizar el aprendizaje supervisado cuando se conocen los datos de salida. El algoritmo predecirá nuevos datos.

Hay dos categorías de aprendizaje supervisado:

  • Tarea de clasificación
  • Tarea de regresión

Clasificación

Imagine que quiere predecir el sexo de un cliente para un comercial. Comenzarás a recopilar datos sobre altura, peso, trabajo, salario, cesta de compras, etc. de tu base de datos de clientes. Conoces el género de cada uno de tus clientes, solo puede ser hombre o mujer. El objetivo del clasificador será asignar una probabilidad de ser hombre o mujer (es decir, la etiqueta) en función de la información (es decir, las características que ha recopilado). Cuando el modelo haya aprendido a reconocer a un hombre o una mujer, podrá utilizar nuevos datos para hacer una predicción. Por ejemplo, acaba de recibir información nueva de un cliente desconocido y desea saber si es hombre o mujer. Si el clasificador predice hombre = 70%, significa que el algoritmo está seguro en un 70% de que este cliente es un hombre y en un 30% es una mujer.

La etiqueta puede ser de dos o más clases. El ejemplo de aprendizaje automático anterior tiene solo dos clases, pero si un clasificador necesita predecir un objeto, tiene docenas de clases (por ejemplo, vidrio, mesa, zapatos, etc., cada objeto representa una clase).

Regresión

Cuando la salida es un valor continuo, la tarea es una regresión. Por ejemplo, es posible que un analista financiero necesite pronosticar el valor de una acción en función de una variedad de características como acciones, desempeños anteriores de las acciones, índice macroeconómico. El sistema estará entrenado para estimar el precio de las acciones con el menor error posible.

Algoritmo Descripción Tipo de Propiedad
Regresión lineal Encuentra una manera de correlacionar cada característica con la salida para ayudar a predecir valores futuros. Regresión
Regresión logística Extensión de la regresión lineal que se utiliza para tareas de clasificación. La variable de salida 3 es binaria (por ejemplo, solo blanco o negro) en lugar de continua (por ejemplo, una lista infinita de colores potenciales). Clasificación
Árbol de decisión Modelo de clasificación o regresión altamente interpretable que divide los valores de características de datos en ramas en nodos de decisión (por ejemplo, si una característica es un color, cada color posible se convierte en una nueva rama) hasta que se toma una decisión final. Regresión
Clasificación
Bayes ingenuos El método bayesiano es un método de clasificación que utiliza el teorema bayesiano. El teorema actualiza el conocimiento previo de un evento con la probabilidad independiente de cada característica que puede afectar el evento. Regresión
Clasificación
Máquinas de vectores soporte
La máquina de vectores de soporte, o SVM, se utiliza normalmente para la tarea de clasificación.
El algoritmo SVM encuentra un hiperplano que dividió de manera óptima las clases. Se utiliza mejor con un solucionador no lineal.
Regresión (no muy común)
Clasificación
Bosque al azar El algoritmo se basa en un árbol de decisiones para mejorar drásticamente la precisión. El bosque aleatorio genera árboles de decisión muchas veces simples y utiliza el método de "voto mayoritario" para decidir qué etiqueta devolver. Para la tarea de clasificación, el pronóstico final será el que tenga más votos; mientras que para la tarea de regresión, la predicción promedio de todos los árboles es la predicción final. Regresión
Clasificación
AdaBoost Técnica de clasificación o regresión que utiliza una multitud de modelos para tomar una decisión, pero los pesa en función de su precisión para predecir el resultado. Regresión
Clasificación
Árboles que aumentan el gradiente Los árboles que aumentan el gradiente son una técnica de clasificación/regresión de última generación. Se centra en el error cometido por los árboles anteriores e intenta corregirlo. Regresión
Clasificación

Aprendizaje sin supervisión

En el aprendizaje no supervisado, un algoritmo explora los datos de entrada sin recibir una variable de salida explícita (por ejemplo, explora los datos demográficos de los clientes para identificar patrones).

Puede usarlo cuando no sepa cómo clasificar los datos y desee que el algoritmo encuentre patrones y clasifique los datos por usted.

Nombre del algoritmo Descripción Tipo de Propiedad
Agrupación de K-medias Coloca los datos en algunos grupos (k), cada uno de los cuales contiene datos con características similares (según lo determinado por el modelo, no de antemano por los humanos). Clustering
modelo de mezcla gaussiana Una generalización de la agrupación de k-medias que proporciona más flexibilidad en el tamaño y la forma de los grupos (clústeres) Clustering
aquíarchiagrupación de calorías Divide los grupos a lo largo de una jerarquía.archiárbol cal para formar un sistema de clasificación.

Se puede utilizar para clientes con tarjeta de fidelización del Cluster.

Clustering
Sistema de recomendación Ayuda a definir los datos relevantes para hacer una recomendación. Clustering
PCA/T-SNE Se utiliza principalmente para disminuir la dimensionalidad de los datos. Los algoritmos reducen el número de características a 3 o 4 vectores con las variaciones más altas. Reducción de dimensión

Cómo elegir un algoritmo de aprendizaje automático

Ahora, en este tutorial básico del aprendizaje automático, aprenderemos cómo elegir el algoritmo de aprendizaje automático (ML):

Hay muchos algoritmos de aprendizaje automático. La elección del algoritmo se basa en el objetivo.

En el siguiente ejemplo de aprendizaje automático, la tarea consiste en predecir el tipo de flor entre las tres variedades. Las predicciones se basan en el largo y el ancho del pétalo. La imagen muestra los resultados de diez algoritmos diferentes. La imagen en la parte superior izquierda es el conjunto de datos. Los datos se clasifican en tres categorías: rojo, azul claro y azul oscuro. Hay algunas agrupaciones. Por ejemplo, en la segunda imagen, todo lo que está en la parte superior izquierda pertenece a la categoría roja, en la parte central hay una mezcla de incertidumbre y azul claro, mientras que la parte inferior corresponde a la categoría oscura. Las otras imágenes muestran diferentes algoritmos y cómo intentan clasificar los datos.

Cómo elegir un algoritmo de aprendizaje automático

Desafíos y limitaciones del aprendizaje automático

Ahora, en este tutorial de aprendizaje automático, aprenderemos sobre las limitaciones del aprendizaje automático:

El principal desafío del aprendizaje automático es la falta de datos o la diversidad del conjunto de datos. Una máquina no puede aprender si no hay datos disponibles. Además, un conjunto de datos con falta de diversidad le resulta difícil a la máquina. Una máquina necesita tener heterogeneidad para aprender información significativa. Es raro que un algoritmo pueda extraer información cuando hay pocas o ninguna variación. Se recomienda tener al menos 20 observaciones por grupo para ayudar a la máquina a aprender. Esta restricción conduce a una mala evaluación y predicción.

Aplicación del aprendizaje automático

Ahora, en este tutorial de aprendizaje automático, aprendamos las aplicaciones del aprendizaje automático:

aumentar:

  • Aprendizaje automático, que ayuda a los humanos con sus tareas diarias, personal o comercialmente, sin tener un control total del resultado. Este aprendizaje automático se utiliza de diferentes formas, como asistente virtual, análisis de datos y soluciones de software. El usuario principal es reducir los errores debidos al sesgo humano.

Automatización :

  • Aprendizaje automático, que funciona de forma totalmente autónoma en cualquier ámbito sin necesidad de intervención humana. Por ejemplo, robots que realizan los pasos esenciales del proceso en las plantas de fabricación.

Industria financiera

  • El aprendizaje automático es growing en popularidad en la industria financiera. Los bancos utilizan el ML principalmente para encontrar patrones dentro de los datos, pero también para prevenir el fraude.

Organización gubernamental

  • El gobierno hace uso del ML para gestionar la seguridad pública y los servicios públicos. Tomemos el ejemplo de China con el reconocimiento facial masivo. El gobierno utiliza Inteligencia Artificial para prevenir peatones imprudentes.

Industria de la salud

  • La atención médica fue una de las primeras industrias en utilizar el aprendizaje automático con detección de imágenes.

Digital

  • El uso amplio de la IA se realiza en marketing gracias al abundante acceso a los datos. Antes de la era de los datos masivos, los investigadores desarrollan herramientas matemáticas avanzadas como el análisis bayesiano para estimar el valor de un cliente. Con el auge de los datos, el departamento de marketing confía en la IA para optimizar la relación con el cliente y la campaña de marketing.

Ejemplo de aplicación de Machine Learning en Supply Chain

El aprendizaje automático ofrece excelentes resultados para el reconocimiento visual de patrones, lo que abre muchas aplicaciones potenciales en inspección física y mantenimiento en toda la red de la cadena de suministro.

El aprendizaje no supervisado puede buscar rápidamente patrones comparables en diversos conjuntos de datos. A su vez, la máquina puede realizar inspecciones de calidad en todo el centro logístico, envío con daños y desgaste.

Por ejemplo, IBMLa plataforma Watson de puede determinar los daños en los contenedores de envío. Watson combina datos visuales y basados ​​en sistemas para rastrear, informar y hacer recomendaciones en tiempo real.

El año pasado, el administrador de existencias se basó en gran medida en el método principal para evaluar y pronosticar el inventario. Al combinar big data y aprendizaje automático, se han implementado mejores técnicas de previsión (una mejora del 20 al 30 % con respecto a las herramientas de previsión tradicionales). En términos de ventas, significa un aumento del 2 al 3 % debido a la potencial reducción de costos de inventario.

Ejemplo de aprendizaje automático de Google Car

Por ejemplo, todo el mundo conoce el coche de Google. El coche está lleno de láseres en el techo que le indican dónde se encuentra con respecto a los alrededores. Tiene un radar en la parte delantera, que informa al coche de la velocidad y el movimiento de todos los coches a su alrededor. Utiliza todos esos datos para descubrir no sólo cómo conducir el automóvil, sino también para descubrir y predecir qué harán los conductores potenciales alrededor del automóvil. Lo impresionante es que el coche procesa casi un gigabyte por segundo de datos.

Aplicación del aprendizaje automático

¿Por qué es importante el aprendizaje automático?

El aprendizaje automático es la mejor herramienta hasta el momento para analizar, comprender e identificar un patrón en los datos. Una de las ideas principales detrás del aprendizaje automático es que se puede entrenar a la computadora para que automatice tareas que serían exhaustivas o imposibles para un ser humano. La clara brecha con el análisis tradicional es que el aprendizaje automático puede tomar decisiones con una mínima intervención humana.

toma el siguientewing ejemplo para este tutorial de ML; un agente minorista puede estimar el precio de una casa basándose en su propia experiencia y su conocimiento del mercado.

Se puede entrenar una máquina para que traduzca el conocimiento de un experto en funciones. Las características son todas las características de una casa, barrio, entorno económico, etc. que marcan la diferencia de precio. Para el experto, probablemente le tomó algunos años dominar el arte de estimar el precio de una casa. Su experiencia es cada vez mejor después de cada venta.

Para la máquina, se necesitan millones de datos (es decir, un ejemplo) para dominar este arte. Al comienzo de su aprendizaje, la máquina comete un error, algo así como el vendedor junior. Una vez que la máquina ve todo el ejemplo, adquiere suficiente conocimiento para hacer su estimación. Al mismo tiempo, con una precisión increíble. La máquina también puede ajustar su error en consecuencia.

La mayoría de las grandes empresas han comprendido el valor del aprendizaje automático y la retención de datos. McKinsey ha estimado que el valor de la analítica oscila entre $9.5 billones a $15.4 billones mientras $Se pueden atribuir entre 5 y 7 billones a las técnicas de inteligencia artificial más avanzadas.

Lea también ¿Qué es la lógica difusa? ArchiTecnología, aplicación y ejemplo: Haga clic aquí