Qu’est-ce que le Big Data ? Introduction, types, caractéristiques, exemples
Qu'est-ce que les données?
Quantités, caractères ou symboles sur lesquels des opérations sont effectuées par un ordinateur, qui peuvent être stockés et transmis sous forme de signaux électriques et enregistrés sur des supports d'enregistrement magnétiques, optiques ou mécaniques.
Maintenant, apprenons la définition du Big Data
Qu'est-ce que le Big Data?
Big Data est une collection de données dont le volume est énorme, mais qui croît de façon exponentielle avec le temps. Il s’agit de données d’une taille et d’une complexité si grandes qu’aucun outil de gestion de données traditionnel ne peut les stocker ou les traiter efficacement. Le Big Data est aussi une donnée mais de taille énorme.

Quel est un exemple de Big Data ?
Voici quelques exemples de Big Data :
Les New York Stock Exchange est un exemple de Big Data qui génère environ un téraoctet de nouvelles données commerciales par jour.
Réseaux sociaux
La statistique montre que 500+téraoctets des nouvelles données sont ingérées dans les bases de données du site de médias sociaux Facebook, tous les jours. Ces données sont principalement générées en termes de téléchargements de photos et de vidéos, d'échanges de messages, de mise en commentaires, etc.
Un célibataire ou Individual Moteur d'avion peut générer 10+téraoctets de données dans 30 minutes du temps de vol. Avec plusieurs milliers de vols par jour, la génération de données atteint jusqu'à plusieurs Pétaoctets.
Types de mégadonnées
Voici les types de Big Data :
- Structuré
- Non structuré
- Semi-structuré
Structuré
Toutes les données qui peuvent être stockées, consultées et traitées sous la forme d'un format fixe sont qualifiées de données « structurées ». Au fil du temps, les talents en informatique ont réussi à développer des techniques permettant de travailler avec ce type de données (dont le format est bien connu à l'avance) et à en tirer de la valeur. Cependant, de nos jours, nous prévoyons des problèmes lorsque la taille de ces données augmente considérablement, les tailles typiques étant de l'ordre de plusieurs zettaoctets.
Savez-vous? 1021 octets égal à 1 zettaoctets or un milliard de téraoctets document un zettaoctet.
À la vue de ces chiffres, on comprend facilement pourquoi on parle de Big Data et on imagine les enjeux liés à leur stockage et à leur traitement.
Savez-vous? Les données stockées dans un système de gestion de base de données relationnelle sont un exemple de 'structuré' revendre.
Exemples de données structurées
Une table « Employé » dans une base de données est un exemple de données structurées
ID_employé | Nom de l'employé | Egalité entre les | Département | Salaire_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Masculin | Finance | 650000 |
3398 | Pratibha Joshi | femme | Administrateur | 650000 |
7465 | Shushil Roy | Masculin | Administrateur | 500000 |
7500 | Shubhojit Das | Masculin | Finance | 500000 |
7699 | Priya Sané | femme | Finance | 550000 |
Non structuré
Toutes les données dont la forme ou la structure est inconnue sont classées comme données non structurées. En plus de leur taille énorme, les données non structurées posent de multiples défis en termes de traitement pour en tirer de la valeur. Un exemple typique de données non structurées est une source de données hétérogène contenant une combinaison de simples fichiers texte, d'images, de vidéos, etc. De nos jours, les organisations disposent d'une multitude de données mais malheureusement, elles ne savent pas comment en tirer de la valeur car ces données sont sous leur forme brute ou dans leur format non structuré.
Exemples de données non structurées
Résultat renvoyé par "Recherche Google"
Semi-structuré
Les données semi-structurées peuvent contenir les deux formes de données. Nous pouvons voir les données semi-structurées comme une forme structurée mais elles ne sont en réalité pas définies avec par exemple une définition de table en relationnel. SGBD. Un exemple de données semi-structurées est une donnée représentée dans un fichier XML.
Exemples de données semi-structurées
Données personnelles stockées dans un fichier XML-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
Croissance des données au fil des années
Gardez à l'esprit que application web les données, qui ne sont pas structurées, se composent de fichiers journaux, de fichiers d'historique de transactions, etc. Les systèmes OLTP sont conçus pour fonctionner avec des données structurées dans lesquelles les données sont stockées dans des relations (tableaux).
Caractéristiques du Big Data
Le Big Data peut être décrit par les caractéristiques suivantes :
- Volume
- Variété
- Vitesse
- Variabilité
(i) Volumes – Le nom Big Data lui-même est lié à une taille énorme. La taille des données joue un rôle très crucial dans la détermination de la valeur des données. En outre, le fait qu'une donnée particulière puisse réellement être considérée comme du Big Data ou non dépend du volume de données. Ainsi, 'Le volume' est une caractéristique à prendre en compte lorsqu’on traite des solutions Big Data.
(ii) Variété – Le prochain aspect du Big Data est son variété.
La variété fait référence à des sources hétérogènes et à la nature des données, à la fois structurées et non structurées. Autrefois, les feuilles de calcul et les bases de données étaient les seules sources de données prises en compte par la plupart des applications. De nos jours, les données sous forme d'e-mails, de photos, de vidéos, d'appareils de surveillance, de PDF, d'audio, etc. sont également prises en compte dans les applications d'analyse. Cette variété de données non structurées pose certains problèmes de stockage, d'exploration et d'analyse des données.
(iii) Vitesse – Le terme 'rapidité' fait référence à la vitesse de génération des données. La rapidité avec laquelle les données sont générées et traitées pour répondre aux demandes détermine le potentiel réel des données.
La vélocité du Big Data traite de la vitesse à laquelle les données circulent depuis des sources telles que les processus métier, les journaux d'applications, les réseaux et les sites de médias sociaux, les capteurs, Mobile appareils, etc. Le flux de données est massif et continu.
(iv) Variabilité – Cela fait référence à l'incohérence qui peut parfois être montrée par les données, entravant ainsi le processus de traitement et de gestion efficace des données.
Avantages du traitement du Big Data
La capacité à traiter le Big Data dans un SGBD apporte de multiples avantages, tels que :
- Les entreprises peuvent utiliser des renseignements extérieurs lorsqu'elles prennent des décisions
Accès aux données sociales de moteurs de recherche et des sites comme Facebook et Twitter permettent aux organisations d'affiner leurs stratégies commerciales.
- Service client amélioré
Les systèmes traditionnels de feedback client sont remplacés par de nouveaux systèmes conçus avec les technologies Big Data. Dans ces nouveaux systèmes, les technologies du Big Data et du traitement du langage naturel sont utilisées pour lire et évaluer les réponses des consommateurs.
- Identification précoce des risques pour les produits/services, le cas échéant
- Meilleure efficacité opérationnelle
Les technologies Big Data peuvent être utilisées pour créer une zone de transit ou une zone d'atterrissage pour les nouvelles données avant d'identifier quelles données doivent être déplacées vers le entrepôt de données. De plus, une telle intégration des technologies Big Data et de l’entrepôt de données aide une organisation à se décharger des données rarement consultées.
Résumé
- Définition du Big Data : Big Data désigne une donnée de taille énorme. Le Bigdata est un terme utilisé pour décrire une collection de données de taille énorme, mais qui croît de façon exponentielle avec le temps.
- Les exemples d'analyse Big Data incluent les bourses, les sites de médias sociaux, les moteurs d'avion, etc.
- Le Big Data pourrait être 1) structuré, 2) non structuré, 3) semi-structuré
- Le volume, la variété, la vitesse et la variabilité sont quelques caractéristiques du Big Data
- Un service client amélioré, une meilleure efficacité opérationnelle, une meilleure prise de décision sont quelques-uns des avantages du Bigdata