Tutorial de mineração de dados: O que é mineração de dados? Técnicas, Processo

O que é mineração de dados?

Data Mining é um processo de encontrar padrões potencialmente úteis em grandes conjuntos de dados. É uma habilidade multidisciplinar que utiliza aprendizado de máquina, estatísticas e IA para extrair informações para avaliar a probabilidade de eventos futuros. Os insights derivados da mineração de dados são usados ​​para marketing, detecção de fraudes, descobertas científicas, etc.

A mineração de dados trata da descoberta de relações ocultas, insuspeitadas e até então desconhecidas, mas válidas, entre os dados. A mineração de dados também é chamada de descoberta de conhecimento em dados (KDD), extração de conhecimento, análise de dados/padrões, coleta de informações, etc.

Tipos de dados

A mineração de dados pode ser realizada nos seguintes tipos de dados

  • Bancos de dados relacionais
  • Armazéns de dados
  • Banco de dados avançado e repositórios de informações
  • Bancos de dados orientados a objetos e relacionais a objetos
  • Bancos de dados transacionais e espaciais
  • Bancos de dados heterogêneos e legados
  • Banco de dados multimídia e streaming
  • Bancos de dados de texto
  • Mineração de texto e mineração na Web

Processo de Implementação de Mineração de Dados

Processo de implementação de mineração de dados
Processo de implementação de mineração de dados

Vamos estudar detalhadamente o processo de implementação de Data Mining

Compreensão de negócios

Nesta fase, são estabelecidas metas de negócios e de mineração de dados.

  • Primeiro, você precisa entender os objetivos do negócio e do cliente. Você precisa definir o que seu cliente deseja (o que muitas vezes nem ele mesmo sabe)
  • Faça um balanço do cenário atual de mineração de dados. Considere recursos, suposições, restrições e outros fatores significativos em sua avaliação.
  • Usando os objetivos de negócios e o cenário atual, defina suas metas de mineração de dados.
  • Um bom plano de mineração de dados é muito detalhado e deve ser desenvolvido para atingir os objetivos de negócios e de mineração de dados.

Compreensão de dados

Nesta fase, a verificação da integridade dos dados é realizada para verificar se são apropriados para os objetivos de mineração de dados.

  • Primeiro, os dados são coletados de diversas fontes de dados disponíveis na organização.
  • Essas fontes de dados podem incluir vários bancos de dados, arquivadores simples ou cubos de dados. Existem problemas como correspondência de objetos e integração de esquemas que podem surgir durante o processo de integração de dados. É um processo bastante complexo e complicado, pois é improvável que os dados de várias fontes correspondam facilmente. Por exemplo, a tabela A contém uma entidade chamada cust_no enquanto outra tabela B contém uma entidade chamada cust-id.
  • Portanto, é muito difícil garantir que ambos os objetos referem-se ao mesmo valor ou não. Aqui, os metadados devem ser usados ​​para reduzir erros no processo de integração de dados.
  • A seguir, a etapa é buscar as propriedades dos dados adquiridos. Uma boa maneira de explorar os dados é responder às questões de mineração de dados (decididas na fase de negócios) usando as ferramentas de consulta, geração de relatórios e visualização.
  • Com base nos resultados da consulta, a qualidade dos dados deve ser verificada. Dados ausentes, se houver, devem ser adquiridos.

Preparação de dados

Nesta fase, os dados ficam prontos para produção.

O processo de preparação de dados consome cerca de 90% do tempo do projeto.

Os dados de diferentes fontes devem ser selecionados, limpos, transformados, formatados, anonimizados e construídos (se necessário).

A limpeza de dados é um processo para “limpar” os dados, suavizando dados ruidosos e preenchendo valores ausentes.

Por exemplo, para um perfil demográfico de cliente, faltam dados de idade. Os dados estão incompletos e devem ser preenchidos. Em alguns casos, pode haver dados discrepantes. Por exemplo, a idade tem um valor 300. Os dados podem ser inconsistentes. Por exemplo, o nome do cliente é diferente em tabelas diferentes.

As operações de transformação de dados alteram os dados para torná-los úteis na mineração de dados. A seguinte transformação pode ser aplicada

Transformação de dados

As operações de transformação de dados contribuiriam para o sucesso do processo de mineração.

Suavização: Ajuda a remover o ruído dos dados.

Agregação: Operações de resumo ou agregação são aplicadas aos dados. Ou seja, os dados de vendas semanais são agregados para calcular o total mensal e anual.

Generalização: Nesta etapa, os dados de baixo nível são substituídos por conceitos de nível superior com a ajuda de hierarquias de conceitos. Por exemplo, a cidade é substituída pelo condado.

Normalização: Normalização realizada quando os dados do atributo são ampliados ou reduzidos. Exemplo: os dados devem estar no intervalo de -2.0 a 2.0 pós-normalização.

Construção de atributo: esses atributos são construídos e incluem um determinado conjunto de atributos úteis para mineração de dados.

O resultado deste processo é um conjunto de dados final que pode ser utilizado na modelagem.

Modelagem

Nesta fase, modelos matemáticos são usados ​​para determinar padrões de dados.

  • Com base nos objetivos de negócio, devem ser selecionadas técnicas de modelagem adequadas para o conjunto de dados preparado.
  • Crie um cenário para testar a qualidade e validade do modelo.
  • Execute o modelo no conjunto de dados preparado.
  • Os resultados devem ser avaliados por todas as partes interessadas para garantir que o modelo possa cumprir os objetivos de mineração de dados.

Avaliação

Nesta fase, os padrões identificados são avaliados em relação aos objetivos de negócio.

  • Os resultados gerados pelo modelo de mineração de dados devem ser avaliados em relação aos objetivos de negócio.
  • Obter compreensão do negócio é um processo iterativo. Na verdade, durante a compreensão, novos requisitos de negócios podem ser levantados devido à mineração de dados.
  • Uma decisão de avançar ou não é tomada para mover o modelo na fase de implantação.

desenvolvimento

Na fase de implantação, você envia suas descobertas de mineração de dados para as operações comerciais diárias.

  • O conhecimento ou informação descoberto durante o processo de mineração de dados deve ser de fácil compreensão para as partes interessadas não técnicas.
  • É criado um plano de implantação detalhado para envio, manutenção e monitoramento de descobertas de mineração de dados.
  • Um relatório final do projeto é criado com as lições aprendidas e as principais experiências durante o projeto. Isso ajuda a melhorar a política de negócios da organização.

Técnicas de Mineração de Dados

Técnicas de Mineração de Dados
Técnicas de Mineração de Dados

1. Classificação

Esta análise é usada para recuperar informações importantes e relevantes sobre dados e metadados. Este método de mineração de dados ajuda a classificar os dados em diferentes classes.

2. Clustering

ClusterA análise de dados é uma técnica de mineração de dados para identificar dados semelhantes entre si. Este processo ajuda a compreender as diferenças e semelhanças entre os dados.

3. Regressão

A análise de regressão é o método de mineração de dados para identificar e analisar a relação entre as variáveis. É utilizado para identificar a probabilidade de uma variável específica, dada a presença de outras variáveis.

4. Regras de associação

Esta técnica de mineração de dados ajuda a encontrar a associação entre dois ou mais itens. Ele descobre um padrão oculto no conjunto de dados.

5. Detecção externa

Este tipo de técnica de mineração de dados refere-se à observação de itens de dados no conjunto de dados que não correspondem a um padrão ou comportamento esperado. Esta técnica pode ser usada em uma variedade de domínios, como intrusão, detecção, detecção de fraude ou falha, etc. A detecção externa também é chamada de Análise Outlier ou Mineração Outlier.

6. Padrões Sequenciais

Esta técnica de mineração de dados ajuda a descobrir ou identificar padrões ou tendências semelhantes em dados de transações durante um determinado período.

7. Predição

A previsão usou uma combinação de outras técnicas de mineração de dados, como tendências, padrões sequenciais, agrupamento, classificação, etc. Ela analisa eventos ou instâncias passadas em uma sequência correta para prever um evento futuro.

Desafios da Implementação da Mineração de Dados

  • São necessários especialistas qualificados para formular as consultas de mineração de dados.
  • Overfitting: Devido ao pequeno tamanho do banco de dados de treinamento, um modelo pode não se ajustar a estados futuros.
  • A mineração de dados precisa de grandes bancos de dados que às vezes são difíceis de gerenciar
  • As práticas comerciais podem precisar ser modificadas para determinar o uso das informações descobertas.
  • Se o conjunto de dados não for diversificado, os resultados da mineração de dados poderão não ser precisos.
  • As informações de integração necessárias de bancos de dados heterogêneos e sistemas de informação globais podem ser complexas

Exemplos de mineração de dados

Agora neste curso de Mineração de Dados, vamos aprender sobre Mineração de Dados com exemplos:

1 exemplo:

Considere um chefe de marketing de serviços de telecomunicações que deseja aumentar as receitas de serviços de longa distância. Para um alto ROI em seus esforços de vendas e marketing, o perfil do cliente é importante. Ele possui um vasto conjunto de dados de informações de clientes como idade, sexo, renda, histórico de crédito, etc. Mas é impossível determinar características de pessoas que preferem ligações de longa distância com análise manual. Usando técnicas de mineração de dados, ele pode descobrir padrões entre usuários de chamadas de longa distância e suas características.

Por exemplo, ele pode descobrir que seus melhores clientes são mulheres casadas, com idade entre 45 e 54 anos, que ganham mais de US$ 80,000 mil por ano. Os esforços de marketing podem ser direcionados a esse grupo demográfico.

2 exemplo:

Um banco deseja buscar novas formas de aumentar as receitas provenientes de suas operações com cartão de crédito. Eles querem verificar se o uso duplicaria se as taxas fossem reduzidas pela metade.

O banco tem vários anos de registro de saldos médios de cartão de crédito, valores de pagamento, uso de limite de crédito e outros parâmetros importantes. Eles criam um modelo para verificar o impacto da nova política empresarial proposta. Os resultados dos dados mostram que cortar as taxas pela metade para uma base de clientes-alvo poderia aumentar as receitas em US$ 10 milhões.

Ferramentas de mineração de dados

A seguir estão 2 populares Ferramentas de mineração de dados amplamente utilizado na indústria

Linguagem R:

Linguagem R é uma ferramenta de código aberto para computação estatística e gráficos. R possui uma ampla variedade de testes estatísticos clássicos, análise de séries temporais, classificação e técnicas gráficas. Ele oferece facilidade eficaz de manuseio e armazenamento de dados.

Saiba mais aqui

Oracle Mineração de dados:

Oracle Data Mining popularmente conhecido como ODM é um módulo do Oracle Banco de dados analítico avançado. Esta ferramenta de mineração de dados permite que os analistas de dados gerem insights detalhados e façam previsões. Ajuda a prever o comportamento do cliente, desenvolve perfis de clientes e identifica oportunidades de vendas cruzadas.

Saiba mais aqui

Benefícios da mineração de dados

  • A técnica de mineração de dados ajuda as empresas a obter informações baseadas em conhecimento.
  • A mineração de dados ajuda as organizações a fazer ajustes lucrativos na operação e produção.
  • A mineração de dados é uma solução econômica e eficiente em comparação com outras aplicações de dados estatísticos.
  • A mineração de dados ajuda no processo de tomada de decisão.
  • Facilita a previsão automatizada de tendências e comportamentos, bem como a descoberta automatizada de padrões ocultos.
  • Pode ser implementado em novos sistemas, bem como em plataformas existentes
  • É o processo rápido que facilita aos usuários a análise de grandes quantidades de dados em menos tempo.

Desvantagens da mineração de dados

  • Há chances de as empresas venderem informações úteis de seus clientes a outras empresas por dinheiro. Por exemplo, a American Express vendeu compras com cartão de crédito de seus clientes para outras empresas.
  • Muitos softwares de análise de mineração de dados são difíceis de operar e requerem treinamento avançado para funcionar.
  • Diferentes ferramentas de mineração de dados funcionam de maneiras diferentes devido aos diferentes algoritmos empregados em seu design. Portanto, a seleção da ferramenta correta de mineração de dados é uma tarefa muito difícil.
  • As técnicas de mineração de dados não são precisas e por isso podem causar graves consequências em determinadas condições.

Aplicativos de mineração de dados

Aplicações Uso
Comunicações Técnicas de mineração de dados são usadas no setor de comunicação para prever o comportamento do cliente e oferecer campanhas altamente direcionadas e relevantes.
Seguros A mineração de dados ajuda as companhias de seguros a definir preços lucrativos para seus produtos e promover novas ofertas para seus clientes novos ou existentes.
Educação A mineração de dados beneficia os educadores para acessar dados dos alunos, prever níveis de desempenho e encontrar alunos ou grupos de alunos que precisam de atenção extra. Por exemplo, alunos que são fracos na matéria de matemática.
Indústria​ Com a ajuda da mineração de dados, os fabricantes podem prever o desgaste dos ativos de produção. Eles podem antecipar a manutenção, o que os ajuda a reduzi-la para minimizar o tempo de inatividade.
Bancário A mineração de dados ajuda o setor financeiro a ter uma visão dos riscos do mercado e a gerir a conformidade regulamentar. Ajuda os bancos a identificar prováveis ​​inadimplentes para decidir se devem emitir cartões de crédito, empréstimos, etc.
Distribuir As técnicas de mineração de dados ajudam os shoppings e supermercados a identificar e organizar os itens mais vendáveis ​​nas posições mais atentas. Ajuda os lojistas a apresentar uma oferta que incentive os clientes a aumentar seus gastos.
Provedores de serviço Provedores de serviços, como os setores de telefonia móvel e serviços públicos, usam a mineração de dados para prever os motivos pelos quais um cliente deixa sua empresa. Eles analisam detalhes de faturamento, interações de atendimento ao cliente, reclamações feitas à empresa para atribuir a cada cliente uma pontuação de probabilidade e oferecer incentivos.
E-Commerce Os sites de comércio eletrônico usam mineração de dados para oferecer vendas cruzadas e incrementais por meio de seus sites. Um dos nomes mais famosos é Amazon, que usam técnicas de mineração de dados para atrair mais clientes para sua loja de comércio eletrônico.
Supermercados A mineração de dados permite que os supermercados desenvolvam regras para prever se seus clientes provavelmente estariam esperando. Ao avaliar seu padrão de compra, eles poderiam encontrar clientes mulheres que provavelmente estão grávidas. Eles podem começar a segmentar produtos como talco para bebês, lojas para bebês, fraldas e assim por diante.
Investigação de crimes A mineração de dados ajuda as agências de investigação criminal a mobilizar força de trabalho policial (onde é mais provável que um crime aconteça e quando?), quem procurar numa passagem de fronteira, etc.
Bioinformática A mineração de dados ajuda a extrair dados biológicos de enormes conjuntos de dados coletados em biologia e medicina.

Resumo

  • Definição de Data Mining: Data Mining trata de explicar o passado e prever o futuro por meio de A análise dos dados.
  • A mineração de dados ajuda a extrair informações de grandes conjuntos de dados. É o procedimento de extrair conhecimento a partir de dados.
  • O processo de mineração de dados inclui compreensão do negócio, compreensão dos dados, preparação de dados, modelagem, evolução, implantação.
  • Técnicas importantes de mineração de dados são classificação, agrupamento, regressão, regras de associação, detecção externa, padrões sequenciais e previsão
  • linguagem R e Oracle A mineração de dados são ferramentas e técnicas proeminentes de mineração de dados.
  • A técnica de mineração de dados ajuda as empresas a obter informações baseadas em conhecimento.
  • A principal desvantagem da mineração de dados é que muitos softwares analíticos são difíceis de operar e requerem treinamento avançado para funcionar.
  • A mineração de dados é usada em diversos setores, como comunicações, seguros, educação, manufatura, bancos, varejo, prestadores de serviços, comércio eletrônico, supermercados e bioinformática.