Aprendizagem supervisionada versus não supervisionada: diferença entre eles
Diferença chave entre aprendizagem supervisionada e não supervisionada
- No aprendizado supervisionado, você treina a máquina usando dados bem “rotulados”.
- O aprendizado não supervisionado é uma técnica de aprendizado de máquina, onde não é necessário supervisionar o modelo.
- A aprendizagem supervisionada permite coletar dados ou produzir uma saída de dados da experiência anterior.
- O aprendizado de máquina não supervisionado ajuda você a encontrar todos os tipos de padrões desconhecidos nos dados.
- Regressão e classificação são dois tipos de técnicas de aprendizado de máquina supervisionado.
- Clustering e associação são dois tipos de aprendizagem não supervisionada.
- Em um modelo de aprendizagem supervisionada, as variáveis de entrada e saída serão fornecidas, enquanto no modelo de aprendizagem não supervisionada, apenas os dados de entrada serão fornecidos.
O que é Aprendizado de Máquina Supervisionado?
No aprendizado supervisionado, você treina a máquina usando dados bem “rotulado.” Isso significa que alguns dados já estão marcados com a resposta correta. Pode ser comparado à aprendizagem que ocorre na presença de um supervisor ou de um professor.
Um algoritmo de aprendizado supervisionado aprende com dados de treinamento rotulados e ajuda a prever resultados para dados imprevistos. Construir, dimensionar e implantar com sucesso um modelo preciso de aprendizado de máquina supervisionado de ciência de dados exige tempo e conhecimento técnico de uma equipe de cientistas de dados altamente qualificados. Além disso, o cientista de dados deve reconstruir modelos para garantir que os insights fornecidos permaneçam verdadeiros até que seus dados sejam alterados.
O que é Aprendizagem Não Supervisionada?
O aprendizado não supervisionado é uma técnica de aprendizado de máquina, onde não é necessário supervisionar o modelo. Em vez disso, você precisa permitir que o modelo funcione por conta própria para descobrir informações. Lida principalmente com dados não rotulados.
Algoritmos de aprendizagem não supervisionada permitem executar tarefas de processamento mais complexas em comparação com a aprendizagem supervisionada. Embora a aprendizagem não supervisionada possa ser mais imprevisível em comparação com outros métodos de aprendizagem natural, aprendizagem profunda e aprendizagem por reforço.
Por que aprendizagem supervisionada?
- A aprendizagem supervisionada permite coletar dados ou produzir uma saída de dados da experiência anterior.
- Ajuda você a otimizar critérios de desempenho usando experiência
- O aprendizado de máquina supervisionado ajuda a resolver vários tipos de problemas de computação do mundo real.
Por que aprendizagem não supervisionada?
Aqui estão os principais motivos para usar a aprendizagem não supervisionada:
- O aprendizado de máquina não supervisionado encontra todos os tipos de padrões desconhecidos nos dados.
- Os métodos não supervisionados ajudam você a encontrar recursos que podem ser úteis para categorização.
- Acontece em tempo real, para que todos os dados de entrada sejam analisados e rotulados na presença dos alunos.
- É mais fácil obter dados não rotulados de um computador do que dados rotulados, que necessitam de intervenção manual.
Como funciona a aprendizagem supervisionada?
Por exemplo, você deseja treinar uma máquina para ajudá-lo a prever quanto tempo levará para voltar do local de trabalho para casa. Aqui, você começa criando um conjunto de dados rotulados. Esses dados incluem
- Condições do tempo
- Hora do dia
- Férias
Todos esses detalhes são suas entradas. A saída é a quantidade de tempo que levou para voltar para casa naquele dia específico.
Você sabe instintivamente que, se estiver chovendo lá fora, demorará mais para voltar para casa. Mas a máquina precisa de dados e estatísticas.
Vamos ver agora como você pode desenvolver um modelo de aprendizagem supervisionada deste exemplo que ajude o usuário a determinar o tempo de deslocamento. A primeira coisa que você precisa criar é um conjunto de dados de treinamento. Este conjunto de treinamento conterá o tempo total de deslocamento e os fatores correspondentes, como clima, tempo, etc. Com base neste conjunto de treinamento, sua máquina poderá ver que há uma relação direta entre a quantidade de chuva e o tempo que você levará para chegar em casa.
Assim, verifica que quanto mais chover, mais tempo você levará para voltar para casa. Ele também pode ver a conexão entre o horário em que você sai do trabalho e o horário em que estará na estrada.
Quanto mais perto das 6h, mais tempo levará para chegar em casa. Sua máquina pode encontrar alguns relacionamentos com seus dados rotulados.
Este é o início do seu modelo de dados. Começa a impactar o modo como a chuva afeta a maneira como as pessoas dirigem. Também começa a ver que mais pessoas viajam durante um determinado horário do dia.
Como funciona a aprendizagem não supervisionada?
Vejamos o caso de um bebê e do cachorro de sua família.
Ela conhece e identifica este cachorro. Algumas semanas depois, um amigo da família traz um cachorro e tenta brincar com o bebê.
Baby não viu esse cachorro antes. Mas ela reconhece que muitas características (2 orelhas, olhos, andar sobre 4 patas) são como seu cachorro de estimação. Ela identifica um novo animal como um cachorro. Este é um aprendizado não supervisionado, onde você não é ensinado, mas aprende com os dados (neste caso, dados sobre um cachorro). Se tivesse sido um aprendizado supervisionado, o amigo da família teria dito ao bebê que era um cachorro.
Tipos de técnicas de aprendizado de máquina supervisionado
Regressão
A técnica de regressão prevê um único valor de saída usando dados de treinamento.
Exemplo: você pode usar a regressão para prever o preço da casa a partir dos dados de treinamento. As variáveis de entrada serão localidade, tamanho da casa, etc.
Classificação
Classificação significa agrupar a saída dentro de uma classe. Se o algoritmo tentar rotular a entrada em duas classes distintas, isso é chamado de classificação binária. A seleção entre mais de duas classes é chamada de classificação multiclasse.
Exemplo: Determinar se alguém será ou não inadimplente do empréstimo.
Pontos fortes: As saídas sempre têm uma interpretação probabilística e o algoritmo pode ser regularizado para evitar overfitting.
Fraquezas: A regressão logística pode ter desempenho inferior quando há limites de decisão múltiplos ou não lineares. Este método não é flexível, portanto não captura relacionamentos mais complexos.
Tipos de técnicas de aprendizado de máquina não supervisionadas
Problemas de aprendizagem não supervisionada agrupados em problemas de agrupamento e associação.
Clustering
Clustering é um conceito importante quando se trata de aprendizagem não supervisionada. Trata principalmente de encontrar uma estrutura ou padrão em uma coleção de dados não categorizados. Clusteralgoritmos de ing processarão seus dados e encontrarão clusters naturais (grupos) se eles existirem nos dados. Você também pode modificar quantos clusters seus algoritmos devem identificar. Ele permite que você ajuste a granularidade desses grupos.
Associação
As regras de associação permitem estabelecer associações entre objetos de dados dentro de grandes bancos de dados. Esta técnica não supervisionada consiste em descobrir relações interessantes entre variáveis em grandes bancos de dados. Por exemplo, as pessoas que compram uma casa nova têm maior probabilidade de comprar móveis novos.
Outros exemplos:
- Um subgrupo de pacientes com câncer agrupados por suas medidas de expressão genética
- Grupos de compradores com base em seus históricos de navegação e compras
- Grupo de filmes pela classificação dada pelos espectadores de filmes
Diferença entre aprendizagem supervisionada e não supervisionada
parâmetros | Técnica de aprendizado de máquina supervisionado | Técnica de aprendizado de máquina não supervisionado |
---|---|---|
Extração | Em um modelo de aprendizagem supervisionada, serão fornecidas variáveis de entrada e saída. | No modelo de aprendizagem não supervisionado, apenas os dados de entrada serão fornecidos |
Dados de entrada | Algorithms são treinados usando dados rotulados. | Algorithms são usados em dados que não estão rotulados |
Algorithms Usados | Máquina de vetores de suporte, rede neural, regressão linear e logística, floresta aleatória e árvores de classificação. | Algoritmos não supervisionados podem ser divididos em diferentes categorias: como Cluster algoritmos, K-means, agrupamento hierárquico, etc. |
Complexidade computacional | A aprendizagem supervisionada é um método mais simples. | A aprendizagem não supervisionada é computacionalmente complexa |
Uso de dados | O modelo de aprendizagem supervisionada usa dados de treinamento para aprender uma ligação entre as entradas e as saídas. | A aprendizagem não supervisionada não usa dados de saída. |
Precisão dos Resultados | Método altamente preciso e confiável. | Less método preciso e confiável. |
Aprendizagem em tempo real | O método de aprendizagem ocorre offline. | O método de aprendizagem ocorre em tempo real. |
Número de Classes | O número de aulas é conhecido. | O número de aulas não é conhecido. |
Principal desvantagem | Classificar big data pode ser um verdadeiro desafio na Aprendizagem Supervisionada. | Você não pode obter informações precisas sobre a classificação de dados, e a saída como dados usados na aprendizagem não supervisionada é rotulada e desconhecida. |