O que é Big Data? Introdução, Tipos, Características, Exemplos

Antes de entrarmos na introdução ao Big Data, primeiro você precisa saber

O que são dados?

As quantidades, caracteres ou símbolos nos quais as operações são executadas por um computador, que podem ser armazenadas e transmitidas na forma de sinais elétricos e gravadas em mídia de gravação magnética, óptica ou mecânica.

Agora, vamos aprender a definição de Big Data

O que é Big Data?

Big Data é uma coleção de dados de enorme volume, mas que cresce exponencialmente com o tempo. São dados com tamanho e complexidade tão grandes que nenhuma das ferramentas tradicionais de gerenciamento de dados consegue armazená-los ou processá-los de forma eficiente. Big data também é um dado, mas com tamanho enorme.

Big Data
O que é Big Data?

O que é um exemplo de Big Data?

A seguir estão alguns dos exemplos de Big Data-

A New York Stock Exchange é um exemplo de Big Data que gera cerca de um terabyte de novos dados comerciais por dia.

Exemplo de Big Data

Mídia social

A estatística mostra que Mais de 500 terabytes de novos dados são ingeridos nos bancos de dados do site de mídia social Facebook, diariamente. Esses dados são gerados principalmente em termos de upload de fotos e vídeos, troca de mensagens, colocação de comentários, etc.

Exemplo de Big Data

Uma única Motor a jato pode gerar Mais de 10 terabytes de dados em 30 minutos do tempo de voo. Com muitos milhares de voos por dia, a geração de dados chega a muitos Petabytes.

Exemplo de Big Data

Tipos de Big Data

A seguir estão os tipos de Big Data:

  1. Estruturado
  2. Não estruturado
  3. Semi-estruturado

Estruturado

Quaisquer dados que possam ser armazenados, acessados ​​e processados ​​na forma de formato fixo são denominados dados 'estruturados'. Ao longo do tempo, os talentos da ciência da computação obtiveram maior sucesso no desenvolvimento de técnicas para trabalhar com esse tipo de dados (onde o formato é bem conhecido antecipadamente) e também na obtenção de valor deles. No entanto, hoje em dia, prevemos problemas quando o tamanho desses dados cresce enormemente, os tamanhos típicos estão na moda de vários zetabytes.

Você sabe? 1021 bytes igual a 1 zetabytes or um bilhão de terabytes formas um zetabyte.

Olhando para estes números pode-se facilmente compreender porque é dado o nome Big Data e imaginar os desafios envolvidos no seu armazenamento e processamento.

Você sabe? Os dados armazenados em um sistema de gerenciamento de banco de dados relacional são um exemplo de 'estruturada' dados.

Exemplos de dados estruturados

Uma tabela 'Employee' em um banco de dados é um exemplo de dados estruturados

ID do Empregado Nome do empregado Gênero Departamento Salário_Em_lacs
2365 Rajesh Kulkarni Masculino Financiar. 650000
3398 Pratibha Joshi Feminino Administrador 650000
7465 Shushil Roy Masculino Administrador 500000
7500 Shubhojit Das Masculino Financiar. 500000
7699 Priya Sané Feminino Financiar. 550000

Não estruturado

Quaisquer dados com forma ou estrutura desconhecida são classificados como dados não estruturados. Além do tamanho ser enorme, os dados não estruturados apresentam vários desafios em termos de processamento para a obtenção de valor deles. Um exemplo típico de dados não estruturados é uma fonte de dados heterogênea que contém uma combinação de arquivos de texto simples, imagens, vídeos, etc. Hoje em dia, as organizações têm uma grande quantidade de dados disponíveis, mas, infelizmente, não sabem como extrair valor deles, uma vez que esses dados estão em sua forma bruta ou formato não estruturado.

Exemplos de dados não estruturados

A saída retornada pela 'Pesquisa Google'

Exemplo de dados não estruturados
Exemplo de dados não estruturados

Semi-estruturado

Os dados semiestruturados podem conter ambas as formas de dados. Podemos ver os dados semiestruturados como uma forma estruturada, mas na verdade não são definidos, por exemplo, com uma definição de tabela em um relacionamento DBMS. Um exemplo de dados semiestruturados são os dados representados em um arquivo XML.

Exemplos de dados semiestruturados

Dados pessoais armazenados em um arquivo XML-

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Crescimento de dados ao longo dos anos

Crescimento de dados ao longo dos anos
Crescimento de dados ao longo dos anos

Por favor, note que aplicação web os dados, que não são estruturados, consistem em arquivos de log, arquivos de histórico de transações, etc. Os sistemas OLTP são construídos para trabalhar com dados estruturados, onde os dados são armazenados em relações (tabelas).

Características do Big Data

Big data pode ser descrito pelas seguintes características:

  • Volume
  • Variedade
  • Velocidade
  • Variabilidade

(i) Volume – O próprio nome Big Data está relacionado a um tamanho enorme. O tamanho dos dados desempenha um papel crucial na determinação do valor dos dados. Além disso, se um determinado dado pode realmente ser considerado Big Data ou não, depende do volume de dados. Por isso, 'Volume' é uma característica que precisa ser considerada ao lidar com soluções de Big Data.

(ii) Variedade – O próximo aspecto do Big Data é a sua variedade.

Variedade refere-se a fontes heterogêneas e à natureza dos dados, tanto estruturados quanto não estruturados. Antigamente, planilhas e bancos de dados eram as únicas fontes de dados consideradas pela maioria dos aplicativos. Hoje em dia, dados na forma de e-mails, fotos, vídeos, dispositivos de monitoramento, PDFs, áudio, etc. também estão sendo considerados nas aplicações de análise. Essa variedade de dados não estruturados apresenta certos problemas para armazenamento, mineração e análise de dados.

(iii) Velocidade – O termo 'velocidade' refere-se à velocidade de geração de dados. A rapidez com que os dados são gerados e processados ​​para atender às demandas determina o potencial real dos dados.

O Big Data Velocity lida com a velocidade com que os dados fluem de fontes como processos de negócios, logs de aplicativos, redes e sites de mídia social, sensores, Mobile dispositivos, etc. O fluxo de dados é massivo e contínuo.

(iv) Variabilidade – Refere-se à inconsistência que às vezes pode ser demonstrada pelos dados, dificultando assim o processo de manipulação e gestão eficaz dos dados.

Vantagens do processamento de Big Data

A capacidade de processar Big Data em DBMS traz vários benefícios, como-

  • As empresas podem utilizar inteligência externa ao tomar decisões

Acesso a dados sociais de motores de busca e sites como Facebook e Twitter estão permitindo que as organizações ajustem suas estratégias de negócios.

  • Melhoria do atendimento ao cliente

Os sistemas tradicionais de feedback do cliente estão sendo substituídos por novos sistemas projetados com tecnologias de Big Data. Nestes novos sistemas, tecnologias de Big Data e processamento de linguagem natural estão a ser utilizadas para ler e avaliar as respostas dos consumidores.

  • Identificação precoce de riscos para os produtos/serviços, se houver
  • Melhor eficiência operacional

As tecnologias de Big Data podem ser usadas para criar uma área de preparação ou zona de destino para novos dados antes de identificar quais dados devem ser movidos para o data warehouse. Além disso, essa integração de tecnologias de Big Data e data warehouse ajuda uma organização a descarregar dados acessados ​​com pouca frequência.

Resumo

  • Definição de Big Data: Big Data significa dados de tamanho enorme. Bigdata é um termo usado para descrever uma coleção de dados enorme em tamanho, mas que cresce exponencialmente com o tempo.
  • Exemplos de análise de Big Data incluem bolsas de valores, sites de mídia social, motores a jato, etc.
  • Big Data pode ser 1) Estruturado, 2) Não Estruturado, 3) Semiestruturado
  • Volume, variedade, velocidade e variabilidade são algumas características do Big Data
  • Melhor atendimento ao cliente, melhor eficiência operacional, melhor tomada de decisão são algumas vantagens do Bigdata