Il termine “big data” si riferisce a una grande quantità di dati di grandi dimensioni, velocità e varietà. I big data possono originare da diverse fonti: Social Media; i dispositivi connessi come sensori, telefoni cellulari e dispositivi IoT (Internet delle cose); acquisti online, le ricerche sui motori di ricerca e la navigazione sul web, utili per analizzare il comportamento dei clienti; i dati aziendali come le transazioni, le fatture e i dati delle risorse umane; dati scientifici provenienti da ricerche, sperimentazioni e osservazioni.
L’ importanza dei Big Data è ormai sotto gli occhi di tutte le aziende che vogliono sfruttare il potere dei dati per ottenere informazioni utili sui clienti, migliorare la pianificazione aziendale e prendere decisioni informate basate sui dati, data driven. Questi dati presentano alcune caratteristiche definite come le 5V: volume, velocità, varietà, valore e veridicità.
Per gestire i Big Data, spesso di natura non strutturata, è necessario ricorrere a tecnologie che sfruttano sistemi di elaborazione avanzate, affinché sia possibile analizzarli e utilizzarli in modo efficace. Per gestire i Big Data occorrono architetture distribuite, algoritmi sofisticati, tecniche di elaborazione parallela e hardware dedicato. Le tecniche di elaborazione dati avanzate sono l’analisi predittiva, l’apprendimento automatico e l’intelligenza artificiale.