Aprendizado de máquina supervisionado: o que é, Algorithms com exemplos
O que é Aprendizado de Máquina Supervisionado?
Aprendizado de máquina supervisionado é um algoritmo que aprende com dados de treinamento rotulados para ajudá-lo a prever resultados de dados imprevistos. No aprendizado supervisionado, você treina a máquina usando dados bem “rotulados”. Isso significa que alguns dados já estão marcados com respostas corretas. Pode ser comparado ao aprendizado na presença de um supervisor ou professor.
Construindo, dimensionando e implantando com sucesso preciso modelos supervisionados de aprendizado de máquina exigem tempo e conhecimento técnico de uma equipe de cientistas de dados altamente qualificados. Além disso, Data cientista deve reconstruir modelos para garantir que os insights fornecidos permaneçam verdadeiros até que seus dados sejam alterados.
Como funciona a aprendizagem supervisionada
O aprendizado de máquina supervisionado usa conjuntos de dados de treinamento para alcançar os resultados desejados. Esses conjuntos de dados contêm entradas e a saída correta que ajudam o modelo a aprender mais rápido. Por exemplo, você deseja treinar uma máquina para ajudá-lo a prever quanto tempo levará para voltar do local de trabalho para casa.
Aqui, você começa criando um conjunto de dados rotulados. Esses dados incluem:
- Condições do tempo
- Hora do dia
- Férias
Todos esses detalhes são suas contribuições neste exemplo de aprendizagem supervisionada. A saída é a quantidade de tempo que levou para voltar para casa naquele dia específico.
Você sabe instintivamente que, se estiver chovendo lá fora, demorará mais para voltar para casa. Mas a máquina precisa de dados e estatísticas.
Vamos ver alguns exemplos de aprendizagem supervisionada sobre como você pode desenvolver um modelo de aprendizagem supervisionada deste exemplo que ajuda o usuário a determinar o tempo de deslocamento. A primeira coisa que você precisa criar é um conjunto de treinamento. Este conjunto de treinamento conterá o tempo total de deslocamento e os fatores correspondentes, como clima, tempo, etc. Com base neste conjunto de treinamento, sua máquina poderá ver que há uma relação direta entre a quantidade de chuva e o tempo que você levará para chegar em casa.
Assim, verifica que quanto mais chover, mais tempo você levará para voltar para casa. Ele também pode ver a conexão entre o horário em que você sai do trabalho e o horário em que estará na estrada.
Quanto mais próximo você estiver das 6h, mais tempo levará para chegar em casa. Sua máquina pode encontrar alguns relacionamentos com seus dados rotulados.
Este é o início do seu modelo de dados. Começa a impactar o modo como a chuva afeta a maneira como as pessoas dirigem. Também começa a ver que mais pessoas viajam durante um determinado horário do dia.
Tipos de aprendizado de máquina supervisionado Algorithms
A seguir estão os tipos de algoritmos de aprendizado de máquina supervisionado:
Regressão
A técnica de regressão prevê um único valor de saída usando dados de treinamento.
Exemplo: você pode usar a regressão para prever o preço da casa a partir dos dados de treinamento. As variáveis de entrada serão localidade, tamanho da casa, etc.
Pontos fortes: As saídas sempre têm uma interpretação probabilística e o algoritmo pode ser regularizado para evitar overfitting.
Fraquezas: A regressão logística pode ter desempenho inferior quando há limites de decisão múltiplos ou não lineares. Este método não é flexível, portanto não captura relacionamentos mais complexos.
Regressão Logística:
Método de regressão logística utilizado para estimar valores discretos com base em um determinado conjunto de variáveis independentes. Ajuda a prever a probabilidade de ocorrência de um evento ajustando os dados a uma função logit. Portanto, também é conhecido como regressão logística. Como prevê a probabilidade, seu valor de saída fica entre 0 e 1.
Aqui estão alguns tipos de regressão Algorithms
Classificação
Classificação significa agrupar a saída dentro de uma classe. Se o algoritmo tentar rotular a entrada em duas classes distintas, isso é chamado de classificação binária. A seleção entre mais de duas classes é chamada de classificação multiclasse.
Exemplo: Determinar se alguém será ou não inadimplente do empréstimo.
Pontos fortes: A árvore de classificação funciona muito bem na prática
Fraquezas: Árvores individuais sem restrições são propensas a overfitting.
Aqui estão alguns tipos de classificação Algorithms
Classificadores Naive Bayes
O modelo Naive Bayesian (NBN) é fácil de construir e muito útil para grandes conjuntos de dados. Este método é composto por gráficos acíclicos diretos com um pai e vários filhos. Ele assume independência entre nós filhos separados de seus pais.
Árvores de decisão
As árvores de decisão classificam as instâncias classificando-as com base no valor do recurso. Neste método, cada modo é o recurso de uma instância. Deve ser classificado e cada ramo representa um valor que o nó pode assumir. É uma técnica amplamente utilizada para classificação. Neste método, a classificação é uma árvore conhecida como árvore de decisão.
Ajuda a estimar valores reais (custo de compra de um carro, número de ligações, total de vendas mensais, etc.).
Máquina de vetores de suporte
A máquina de vetores de suporte (SVM) é um tipo de algoritmo de aprendizagem desenvolvido em 1990. Este método é baseado nos resultados da teoria de aprendizagem estatística introduzida por Vap Nik.
As máquinas SVM também estão intimamente ligadas às funções do kernel, que é um conceito central para a maioria das tarefas de aprendizagem. A estrutura do kernel e o SVM são usados em vários campos. Inclui recuperação de informação multimídia, bioinformática e reconhecimento de padrões.
Técnicas de aprendizado de máquina supervisionadas versus não supervisionadas
Baseado em | Técnica de aprendizado de máquina supervisionado | Técnica de aprendizado de máquina não supervisionado |
---|---|---|
Dados de entrada | Algorithms são treinados usando dados rotulados. | Algorithms são usados em dados que não estão rotulados |
Complexidade computacional | A aprendizagem supervisionada é um método mais simples. | A aprendizagem não supervisionada é computacionalmente complexa |
Precisão | Método altamente preciso e confiável. | Less método preciso e confiável. |
Desafios no aprendizado de máquina supervisionado
Aqui estão os desafios enfrentados no aprendizado de máquina supervisionado:
- Dados de treinamento presentes em recursos de entrada irrelevantes podem fornecer resultados imprecisos
- A preparação e pré-processamento de dados é sempre um desafio.
- A precisão é prejudicada quando valores impossíveis, improváveis e incompletos são inseridos como dados de treinamento
- Se o especialista em questão não estiver disponível, a outra abordagem é a “força bruta”. Isso significa que você precisa pensar nos recursos certos (variáveis de entrada) para treinar a máquina. Pode ser impreciso.
Vantagens da aprendizagem supervisionada
Aqui estão as vantagens do aprendizado de máquina supervisionado:
- Aprendizagem supervisionada em Machine Learning permite coletar dados ou produzir uma saída de dados da experiência anterior
- Ajuda você a otimizar critérios de desempenho usando experiência
- O aprendizado de máquina supervisionado ajuda a resolver vários tipos de problemas de computação do mundo real.
Desvantagens da aprendizagem supervisionada
Abaixo estão as desvantagens do aprendizado de máquina supervisionado:
- O limite de decisão pode estar sobretreinado se o seu conjunto de treinamento não tiver exemplos que você deseja ter em uma aula
- Você precisa selecionar muitos bons exemplos de cada classe enquanto treina o classificador.
- Classificando dados grandes pode ser um verdadeiro desafio.
- O treinamento para aprendizagem supervisionada requer muito tempo de computação.
Melhores práticas para Aprendizagem Supervisionada
- Antes de fazer qualquer outra coisa, você precisa decidir que tipo de dados será usado como conjunto de treinamento
- Você precisa decidir a estrutura da função aprendida e do algoritmo de aprendizagem.
- Reúna resultados correspondentes de especialistas humanos ou de medições
Resumo
- Em algoritmos de aprendizagem supervisionada, você treina a máquina usando dados bem “rotulados”.
- Você deseja treinar uma máquina que o ajude a prever quanto tempo levará para voltar do local de trabalho para casa é um exemplo de aprendizagem supervisionada.
- Regressão e classificação são duas dimensões de um algoritmo de aprendizado de máquina supervisionado.
- Aprendizagem supervisionada é um método mais simples, enquanto o aprendizado não supervisionado é um método complexo.
- O maior desafio na aprendizagem supervisionada é que dados de treinamento presentes em recursos de entrada irrelevantes podem fornecer resultados imprecisos.
- A principal vantagem da aprendizagem supervisionada é que ela permite coletar dados ou produzir uma saída de dados da experiência anterior.
- A desvantagem desse modelo é que o limite de decisão pode ficar sobrecarregado se o seu conjunto de treinamento não tiver exemplos que você deseja ter em uma classe.
- Como prática recomendada de aprendizagem supervisionada, primeiro você precisa decidir que tipo de dados deve ser usado como conjunto de treinamento.