Aprendizaje automático no supervisado: Algorithms, Tipos con ejemplo
¿Qué es el aprendizaje no supervisado?
Aprendizaje sin supervisión Es una técnica de aprendizaje automático en la que los usuarios no necesitan supervisar el modelo. En cambio, permite que el modelo funcione por sí solo para descubrir patrones e información que antes no se habían detectado. Se trata principalmente de datos sin etiquetar.
Aprendizaje sin supervisión Algorithms
Aprendizaje sin supervisión Algorithms Permiten a los usuarios realizar tareas de procesamiento más complejas en comparación con el aprendizaje supervisado. Sin embargo, el aprendizaje no supervisado puede ser más impredecible en comparación con otros métodos de aprendizaje natural. Los algoritmos de aprendizaje no supervisado incluyen agrupamiento, detección de anomalías, redes neuronales, etc.
Ejemplo de aprendizaje automático no supervisado
Tomemos un ejemplo de aprendizaje no supervisado para un bebé y el perro de su familia.
Ella conoce a este perro y lo identifica. Unas semanas después, un amigo de la familia trae un perro y trata de jugar con el bebé.
El bebé no había visto a este perro antes. Pero reconoce muchas características (2 orejas, ojos, caminar sobre 4 patas) que son como su perro mascota. Ella identifica al nuevo animal como un perro. Este es un aprendizaje no supervisado, donde no te enseñan pero aprendes de los datos (en este caso, datos sobre un perro). aprendizaje supervisado, el amigo de la familia le habría dicho al bebé que es un perro, como se muestra en el ejemplo de aprendizaje no supervisado anterior.
¿Por qué el aprendizaje no supervisado?
Estas son las principales razones para utilizar el aprendizaje no supervisado en Aprendizaje automático (Machine learning & LLM):
- El aprendizaje automático no supervisado encuentra todo tipo de patrones desconocidos en los datos.
- Los métodos no supervisados le ayudan a encontrar funciones que pueden resultar útiles para la categorización.
- Se lleva a cabo en tiempo real, por lo que todos los datos de entrada se analizan y etiquetan en presencia de los alumnos.
- Es más fácil obtener datos sin etiquetar de una computadora que datos etiquetados, lo que requiere intervención manual.
ClusterTipos de aprendizaje no supervisado Algorithms
A continuación se muestran los tipos de agrupamiento de algoritmos de aprendizaje automático no supervisado:
Los problemas de aprendizaje no supervisado se agrupan además en problemas de agrupamiento y asociación.
ClusterIng.
Clustering es un concepto importante cuando se trata de aprendizaje no supervisado. Se trata principalmente de encontrar una estructura o patrón en una colección de datos no categorizados. Aprendizaje sin supervisión ClusterLos algoritmos de análisis procesarán sus datos y encontrarán grupos naturales si existen en ellos. También puede modificar la cantidad de grupos que deben identificar sus algoritmos. Esto le permite ajustar la granularidad de estos grupos.
Existen diferentes tipos de agrupamiento que puedes utilizar:
Exclusivo (particionamiento)
En este método de agrupamiento, los datos se agrupan de tal manera que cada dato puede pertenecer a un solo clúster.
Ejemplo: K-medias
Aglomerativo
En esta técnica de agrupamiento, cada dato es un clúster. Las uniones iterativas entre los dos clústeres más cercanos reducen el número de clústeres.
Ejemplo: Agrupamiento jerárquico
Superposición
En esta técnica, se utilizan conjuntos difusos para agrupar datos. Cada punto puede pertenecer a dos o más grupos con distintos grados de pertenencia.
Aquí, los datos se asociarán con un valor de membresía apropiado. Ejemplo: medias C difusas
Probabilístico
Esta técnica utiliza la distribución de probabilidad para crear los clústeres.
Ejemplo: Siguiendo palabras clave
- "zapato de hombre".
- “zapato de mujer”.
- "guante de mujer".
- "guante de hombre".
se pueden agrupar en dos categorías: “zapato” y “guante” o “hombre” y “mujer”.
Clustertipos de ing
Los siguientes son los tipos de agrupamiento del aprendizaje automático:
- Agrupación jerárquica
- Agrupación de K-medias
- K-NN (k vecinos más cercanos)
- Análisis de componentes principales
- Valor singular de descomposición
- Análisis de componentes independientes
Jerárquico ClusterIng.
La agrupación jerárquica es un algoritmo que crea una jerarquía de clústeres. Comienza con todos los datos que se asignan a un clúster propio. En este caso, dos clústeres cercanos estarán en el mismo clúster. Este algoritmo finaliza cuando solo queda un clúster.
K-significa ClusterIng.
K significa que es un algoritmo de agrupamiento iterativo que le ayuda a encontrar el valor más alto para cada iteración. Inicialmente, se selecciona la cantidad deseada de grupos. En este método de agrupamiento, debe agrupar los puntos de datos en k grupos. Un k mayor significa grupos más pequeños con mayor granularidad de la misma manera. Un k menor significa grupos más grandes con menor granularidad.
El resultado del algoritmo es un grupo de “etiquetas”. Asigna un punto de datos a uno de los k grupos. En la agrupación de k-medias, cada grupo se define creando un centroide para cada grupo. Los centroides son como el corazón del grupo, que captura los puntos más cercanos a ellos y los agrega al grupo.
La agrupación K-mean define además dos subgrupos:
- Agrupación aglomerativa
- Dendograma
Agrupación aglomerativa
Este tipo de agrupamiento K-means comienza con un número fijo de conglomerados y asigna todos los datos a la cantidad exacta de conglomerados. Este método de agrupamiento no requiere el número de conglomerados K como entrada. El proceso de aglomeración comienza formando cada dato como un único conglomerado.
Este método utiliza una medida de distancia y reduce la cantidad de clústeres (uno en cada iteración) mediante un proceso de fusión. Por último, tenemos un clúster grande que contiene todos los objetos.
Dendograma
En el método de agrupamiento de dendrogramas, cada nivel representará un posible grupo. La altura del dendrograma muestra el nivel de similitud entre dos grupos unidos. Cuanto más cerca de la parte inferior del proceso estén los grupos más similares, lo que se debe a que el grupo se encuentra en el dendrograma, lo cual no es natural y, en su mayoría, es subjetivo.
K- Vecinos más cercanos
El algoritmo de vecino más cercano es el más simple de todos los clasificadores de aprendizaje automático. Se diferencia de otras técnicas de aprendizaje automático en que no produce un modelo. Es un algoritmo simple que almacena todos los casos disponibles y clasifica las nuevas instancias en función de una medida de similitud.
Funciona muy bien cuando hay distancia entre ejemplos. La velocidad de aprendizaje es lenta cuando el conjunto de entrenamiento es grande y el cálculo de la distancia no es trivial.
Análisis de componentes principales
En caso de que desee un espacio de mayor dimensión, debe seleccionar una base para ese espacio y solo las 200 puntuaciones más importantes de esa base. Esta base se conoce como componente principal. El subconjunto que seleccione constituirá un nuevo espacio de tamaño pequeño en comparación con el espacio original. Mantiene la mayor parte posible de la complejidad de los datos.
Asociación
Las reglas de asociación le permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos. Esta técnica no supervisada consiste en descubrir relaciones interesantes entre variables en grandes bases de datos. Por ejemplo, las personas que compran una casa nueva tienen más probabilidades de comprar muebles nuevos.
Otros ejemplos:
- Un subgrupo de pacientes con cáncer agrupados por sus medidas de expresión genética
- Grupos de compradores según su historial de navegación y compras.
- Grupo de películas según la calificación otorgada por los espectadores.
Aprendizaje automático supervisado versus no supervisado
Aquí está la principal diferencia entre Aprendizaje supervisado versus no supervisado:
parámetros | Técnica de aprendizaje automático supervisado. | Técnica de aprendizaje automático no supervisado |
---|---|---|
Los datos de entrada | Algorithms se entrenan utilizando datos etiquetados. | Algorithms se utilizan contra datos que no están etiquetados |
Complejidad computacional | El aprendizaje supervisado es un método más sencillo. | El aprendizaje no supervisado es computacionalmente complejo |
Exactitud | Método altamente preciso y confiable. | Less método preciso y confiable. |
Aplicaciones del aprendizaje automático no supervisado
Algunas aplicaciones de las Técnicas de Aprendizaje No Supervisado son:
- ClusterDividir automáticamente el conjunto de datos en grupos según sus similitudes.
- La detección de anomalías puede descubrir puntos de datos inusuales en su conjunto de datos. Es útil para encontrar transacciones fraudulentas.
- La minería de asociación identifica conjuntos de elementos que a menudo aparecen juntos en su conjunto de datos.
- Los modelos de variables latentes se utilizan ampliamente para el preprocesamiento de datos. Como reducir la cantidad de características en un conjunto de datos o descomponer el conjunto de datos en múltiples componentes.
Desventajas del aprendizaje no supervisado
- No se puede obtener información precisa sobre la clasificación de datos, y el resultado como datos utilizados en el aprendizaje no supervisado está etiquetado y no se conoce.
- Less La precisión de los resultados se debe a que los datos de entrada no son conocidos ni etiquetados por las personas de antemano. Esto significa que la máquina debe hacerlo ella misma.
- Las clases espectrales no siempre corresponden a clases informativas.
- El usuario necesita dedicar tiempo a interpretar y etiquetar las clases que siguen esa clasificación.
- Las propiedades espectrales de las clases también pueden cambiar con el tiempo, por lo que no es posible tener la misma información de clase al pasar de una imagen a otra.
Resumen
- El aprendizaje no supervisado es una técnica de aprendizaje automático en la que no es necesario supervisar el modelo.
- El aprendizaje automático no supervisado le ayuda a encontrar todo tipo de patrones desconocidos en los datos.
- ClusterLa enseñanza y la asociación son dos tipos de aprendizaje no supervisado.
- Hay cuatro tipos de métodos de agrupamiento: 1) Exclusivo 2) Aglomerativo 3) Superpuesto 4) Probabilístico.
- Los tipos de agrupamiento importantes son: 1) Agrupamiento jerárquico 2) Agrupamiento K-medias 3) K-NN 4) Análisis de componentes principales 5) Descomposición en valores singulares 6) Análisis de componentes independientes.
- Las reglas de asociación le permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos.
- En el aprendizaje supervisado, Algorithms se entrenan utilizando datos etiquetados mientras están en aprendizaje no supervisado Algorithms se utilizan contra datos que no están etiquetados.
- La detección de anomalías puede descubrir puntos de datos importantes en su conjunto de datos, lo que resulta útil para encontrar transacciones fraudulentas.
- El mayor inconveniente del aprendizaje no supervisado es que no se puede obtener información precisa sobre la clasificación de datos.