Aprendizado de máquina não supervisionado: Algorithms, Tipos com exemplo
O que é Aprendizagem Não Supervisionada?
Aprendizagem não supervisionada é uma técnica de aprendizado de máquina na qual os usuários não precisam supervisionar o modelo. Em vez disso, permite que o modelo trabalhe por conta própria para descobrir padrões e informações que não foram detectadas anteriormente. Lida principalmente com dados não rotulados.
Aprendizagem não supervisionada Algorithms
Aprendizagem não supervisionada Algorithms permitir que os usuários executem tarefas de processamento mais complexas em comparação com o aprendizado supervisionado. Embora a aprendizagem não supervisionada possa ser mais imprevisível em comparação com outros métodos naturais de aprendizagem. Algoritmos de aprendizagem não supervisionados incluem clustering, detecção de anomalias, redes neurais, etc.
Exemplo de aprendizado de máquina não supervisionado
Vejamos um exemplo de aprendizagem não supervisionada para um bebê e o cachorro de sua família.
Ela conhece e identifica este cachorro. Poucas semanas depois, um amigo da família traz um cachorro e tenta brincar com o bebê.
Baby não viu esse cachorro antes. Mas ela reconhece que muitas características (2 orelhas, olhos, andar sobre 4 patas) são como seu cachorro de estimação. Ela identifica o novo animal como um cachorro. Este é um aprendizado não supervisionado, onde você não é ensinado, mas aprende com os dados (neste caso, dados sobre um cachorro). aprendizagem supervisionada, o amigo da família teria dito ao bebê que é um cachorro, conforme mostrado no exemplo de Aprendizagem Não Supervisionada acima.
Por que aprendizagem não supervisionada?
Aqui estão as principais razões para usar a aprendizagem não supervisionada em Machine Learning:
- O aprendizado de máquina não supervisionado encontra todos os tipos de padrões desconhecidos nos dados.
- Os métodos não supervisionados ajudam você a encontrar recursos que podem ser úteis para categorização.
- Acontece em tempo real, para que todos os dados de entrada sejam analisados e rotulados na presença dos alunos.
- É mais fácil obter dados não rotulados de um computador do que dados rotulados, que necessitam de intervenção manual.
ClusterTipos de aprendizagem não supervisionada Algorithms
Abaixo estão os tipos de cluster de algoritmos de aprendizado de máquina não supervisionado:
Problemas de aprendizagem não supervisionada agrupados em problemas de agrupamento e associação.
Clustering

Clustering é um conceito importante quando se trata de aprendizagem não supervisionada. Trata principalmente de encontrar uma estrutura ou padrão em uma coleção de dados não categorizados. Aprendizagem não supervisionada Clusteralgoritmos de ing processarão seus dados e encontrarão clusters naturais (grupos) se eles existirem nos dados. Você também pode modificar quantos clusters seus algoritmos devem identificar. Ele permite que você ajuste a granularidade desses grupos.
Existem diferentes tipos de cluster que você pode utilizar:
Exclusivo (particionamento)
Neste método de clustering, os dados são agrupados de tal forma que um dado pode pertencer a apenas um cluster.
Exemplo: K-meios
Aglomerativo
Nesta técnica de clustering, cada dado é um cluster. As uniões iterativas entre os dois clusters mais próximos reduzem o número de clusters.
Exemplo: cluster hierárquico
Sobreposição
Nesta técnica, conjuntos fuzzy são usados para agrupar dados. Cada ponto pode pertencer a dois ou mais clusters com graus de adesão separados.
Aqui, os dados serão associados a um valor de associação apropriado. Exemplo: Médias C Fuzzy
Probabilístico
Esta técnica usa distribuição de probabilidade para criar os clusters
Exemplo: seguintes palavras-chave
- “sapato de homem”.
- “sapato feminino”.
- “luva feminina”.
- “luva de homem”.
pode ser agrupado em duas categorias “sapato” e “luva” ou “homem” e “mulheres”.
ClusterTipos de uso
A seguir estão os tipos de cluster de aprendizado de máquina:
- Agrupamento hierárquico
- Agrupamento K-means
- K-NN (k vizinhos mais próximos)
- Análise do componente principal
- Decomposição de valor singular
- Análise de Componentes Independentes
Hierárquico Clustering
Clustering hierárquico é um algoritmo que constrói uma hierarquia de clusters. Começa com todos os dados atribuídos a um cluster próprio. Aqui, dois clusters próximos estarão no mesmo cluster. Este algoritmo termina quando resta apenas um cluster.
K-significa Clustering
K significa que é um algoritmo de cluster iterativo que ajuda você a encontrar o valor mais alto para cada iteração. Inicialmente, o número desejado de clusters é selecionado. Neste método de agrupamento, você precisa agrupar os pontos de dados em k grupos. Um k maior significa grupos menores com mais granularidade da mesma maneira. Um k menor significa grupos maiores com menos granularidade.
A saída do algoritmo é um grupo de “rótulos”. Ele atribui ponto de dados a um dos k grupos. No agrupamento k-means, cada grupo é definido criando um centróide para cada grupo. Os centróides são como o coração do cluster, que captura os pontos mais próximos deles e os adiciona ao cluster.
O agrupamento K-mean define ainda dois subgrupos:
- Agrupamento aglomerativo
- Dendrograma
Agrupamento aglomerativo
Este tipo de clustering K-means começa com um número fixo de clusters. Ele aloca todos os dados no número exato de clusters. Este método de agrupamento não requer o número de clusters K como entrada. O processo de aglomeração começa formando cada dado como um único cluster.
Este método usa alguma medida de distância, reduz o número de clusters (um em cada iteração) por meio do processo de fusão. Por último, temos um grande cluster que contém todos os objetos.
Dendrograma
No método de agrupamento Dendrograma, cada nível representará um agrupamento possível. A altura do dendograma mostra o nível de similaridade entre dois clusters de junção. Quanto mais próximos do final do processo eles são mais semelhantes ao cluster, o que é uma descoberta do grupo no dendograma que não é natural e principalmente subjetivo.
K- Vizinhos mais próximos
K-vizinho mais próximo é o mais simples de todos os classificadores de aprendizado de máquina. Difere de outras técnicas de aprendizado de máquina porque não produz um modelo. É um algoritmo simples que armazena todos os casos disponíveis e classifica novas instâncias com base em uma medida de similaridade.
Funciona muito bem quando há distância entre os exemplos. A velocidade de aprendizagem é lenta quando o conjunto de treinamento é grande e o cálculo da distância não é trivial.
Análise de Componentes Principais
Caso você queira um espaço de dimensão superior. Você precisa selecionar uma base para esse espaço e apenas as 200 pontuações mais importantes dessa base. Esta base é conhecida como componente principal. O subconjunto selecionado para constituir é um novo espaço de tamanho pequeno em comparação com o espaço original. Ele mantém o máximo possível da complexidade dos dados.
Associação
As regras de associação permitem estabelecer associações entre objetos de dados dentro de grandes bancos de dados. Esta técnica não supervisionada consiste em descobrir relações interessantes entre variáveis em grandes bancos de dados. Por exemplo, as pessoas que compram uma casa nova têm maior probabilidade de comprar móveis novos.
Outros exemplos:
- Um subgrupo de pacientes com câncer agrupados por suas medidas de expressão genética
- Grupos de compradores com base em seus históricos de navegação e compras
- Grupo de filmes pela classificação dada pelos espectadores de filmes
Aprendizado de máquina supervisionado versus não supervisionado
Aqui está a principal diferença entre Aprendizagem supervisionada vs. aprendizagem não supervisionada:
| Parâmetros Técnicos | Técnica de aprendizado de máquina supervisionado | Técnica de aprendizado de máquina não supervisionado |
|---|---|---|
| Dados de entrada | Algorithms são treinados usando dados rotulados. | Algorithms são usados em dados que não estão rotulados |
| Complexidade computacional | A aprendizagem supervisionada é um método mais simples. | A aprendizagem não supervisionada é computacionalmente complexa |
| Precisão | Método altamente preciso e confiável. | Less método preciso e confiável. |
Aplicações de aprendizado de máquina não supervisionado
Algumas aplicações de técnicas de aprendizagem não supervisionadas são:
- Clusterdividir automaticamente o conjunto de dados em grupos com base em suas semelhanças
- A detecção de anomalias pode descobrir pontos de dados incomuns em seu conjunto de dados. É útil para encontrar transações fraudulentas
- A mineração de associação identifica conjuntos de itens que frequentemente ocorrem juntos em seu conjunto de dados
- Modelos de variáveis latentes são amplamente utilizados para pré-processamento de dados. Como reduzir o número de recursos em um conjunto de dados ou decompor o conjunto de dados em vários componentes
Desvantagens da aprendizagem não supervisionada
- Você não pode obter informações precisas sobre a classificação de dados, e a saída como dados usados na aprendizagem não supervisionada é rotulada e desconhecida
- Less a precisão dos resultados ocorre porque os dados de entrada não são conhecidos e não são rotulados antecipadamente pelas pessoas. Isso significa que a máquina precisa fazer isso sozinha.
- As classes espectrais nem sempre correspondem às classes informacionais.
- O usuário precisa gastar tempo interpretando e rotulando as classes que seguem essa classificação.
- As propriedades espectrais das classes também podem mudar com o tempo, portanto você não pode ter as mesmas informações de classe ao passar de uma imagem para outra.
Resumo
- O aprendizado não supervisionado é uma técnica de aprendizado de máquina, onde não é necessário supervisionar o modelo.
- O aprendizado de máquina não supervisionado ajuda você a encontrar todos os tipos de padrões desconhecidos nos dados.
- Clustering e associação são dois tipos de aprendizagem não supervisionada.
- Quatro tipos de métodos de agrupamento são 1) Exclusivo 2) Aglomerativo 3) Sobreposto 4) Probabilístico.
- Tipos importantes de clustering são: 1) Clustering hierárquico 2) Clustering K-means 3) K-NN 4) Análise de componentes principais 5) Decomposição de valores singulares 6) Análise de componentes independentes.
- As regras de associação permitem estabelecer associações entre objetos de dados dentro de grandes bancos de dados.
- Na aprendizagem supervisionada, Algorithms são treinados usando dados rotulados durante o aprendizado não supervisionado Algorithms são usados em dados que não estão rotulados.
- A detecção de anomalias pode descobrir pontos de dados importantes em seu conjunto de dados, o que é útil para localizar transações fraudulentas.
- A maior desvantagem do aprendizado não supervisionado é que você não pode obter informações precisas sobre a classificação de dados.


