12 luglio 2018

Big Data Architecture Workshop

Lo scorso 10-12 luglio si è tenuto un interessantissimo workshop su tematiche relative as architetture Big Data. Organizzato da Cloudera si è svolto a Londra presso l'Hotel Hilton. Si è trattato di un evento di 3 giornate durante le quali sono stati discussi temi relativi ad architetture evolute di piattaforme big data. BDAW fa confluire contributi tecnici nella progettazione di problemi di business particolarmente sofisticati. Il workshop indirizza problematiche di architetture big data e le applica verso sistemi perticolarmente complessi.

Nel caso specifico si è analizzato un sistema eteronegeo di trasporti presente in una metropoli di 9 milioni di abitanti. L'azienda incaricata della gestione dei trasporti metropolitani fornisce un'applicazione che tramite smartphone consente di:

1) offrire ai viaggiatori informazioni chiare per raggiungere un altro punto della città

2) mostrare soluzioni rapide, efficienti e ecosostenibili

3) tenere conto degli spostamenti degli altri viaggiatori

4) Sfruttare tutti i possibili mezzi di trasferimento, buses, ferries, urban rail, mini-vans, bicycles, walking, ride sharing

5) Offrire un sistema di pagamento integrato

6) Proporre alternative in caso di congestione della rete dei trasporti.

Sono piuttosto evidenti i requisiti di raccolta continua ed ingente dei dati dell'intera rete di trasporti e di conseguenza di un corretto dimensionamento della piattaforma e delle applicazioni ivi funzionanti.

Giovedì 26 luglio 2017

Big Data e Machine Learning protagonisti del Tour de France 2017

Tutto ciò che può essere oggetto di misura verrà misurato. Se questo è il motto dei nostri tempi e oggi abbiamo la tecnologia per affrontare questa sfida, allora perché non collezionare con continuità tutti i dati di ogni ciclista durante le tappe di un grande giro ciclistico? E’ quello che da qualche anno avviene al Tour de France dove è stata progettata una moderna ed avanzatissima soluzione nell’ambito della raccolta dei dati durante le tappe di questa famosa competizione ciclistica.

Da quest'anno è stata introdotta la tecnologia del machine learning in modo da offrire agli appassionati di ciclismo di tutto il mondo un’esperienza senza precedenti. Quest’anno la piattaforma di data analytics integra il machine learning e complessi algoritmi che combinano i dati di gara live e storici per fornire un livello di visione della corsa ancora più approfondito durante lo svolgimento stesso della gara. I tifosi disporranno di accurati profili sui ciclisti per comprendere maggiormente l’ambiente e le condizioni di gara in cui i corridori registrano le migliori prestazioni.

Come parte del nuovo progetto pilota di quest’anno, si sta esplorando il ruolo delle tecnologie di analytics predittive per analizzare i possibili scenari di gara, come per esempio i distacchi dal gruppo da parte dei ciclisti in alcune tappe della corsa.


Secondo gli organizzatori, “La tecnologia è sempre più parte integrante dello sport contribuendo a trasformarne l’esperienza visiva ed aumentarne la popolarità. Vogliamo attrarre una nuova generazione di appassionati digitali esperti e mostrare come le tecnologie più evolute, come il machine learning, stiano offrendo nuove possibilità verso la visione sportiva che il pubblico moderno richiede.”


Il fulcro della soluzione di tracciatura live e di data analytics è costituito dai transponder GPS installati sotto i sellini di ogni bicicletta. I dati raccolti da questi trasponder vengono combinati con dati esterni relativi alla pendenza del percorso e alle principali condizioni atmosferiche per generare ulteriori informazioni quali la velocità live e la posizione di ogni singolo corridore, la distanza tra i ciclisti e la composizione dei gruppi durante la gara. Quest’anno, la soluzione consentirà di creare e analizzare più di 3 miliardi di data point per tutte le 21 tappe del Tour, un incremento significativo rispetto ai 128 milioni di data point analizzati dello scorso anno.


La soluzione avanzata del Tour de France si serve di un data centre virtualizzato completamente basato su cloud che offre scalabilità e richiede meno personale addetto per abilitare la soluzione. Il cloud, inoltre, fornisce una flessibilità geografica in quanto può essere gestito da qualsiasi parte nel mondo. I team tecnici di questa nuova edizione del Tour hanno lavorato insieme attraverso quattro continenti grazie ad hub di collaborazione mobile iperconnessi equipaggiati con le più recenti tecnologie di workplace digitali e virtuali.

Alcune evidenze del Tour de France includono:
•    I 198 corridori delle 22 squadre hanno generato più di 150 milioni di letture di dati geospaziali e ambientali lungo tutto il percorso di gara di 3.540 km.
•    Il sito web di tracciatura web del Tour de France, che ha supportato una media di 2.000 richieste di visualizzazione al secondo nel 2016, è stato migliorato per supportare le odierne 25.000 richieste al secondo.
•    La cyber security è una delle principali priorità per il Tour de France. Durante la gara del 2016 il sistema di sicurezza basato su cloud di Dimension Data è stato oggetto di 1.409.769 di accessi sospetti che sono stati bloccati. </p>

 

 

 

Giovedì 20 luglio 2017

Una definizione di Big Data

Negli ultimi anni sempre più rilevanza ha assunto il concetto di Big Data, soprattutto in contesti aziendali dove l’informazione è vista come una delle risorse fondamentali.

Un Big Data può essere definito in maniera generica come una gigantesca collezione di informazioni e l’insieme delle tecnologie legate alla loro gestione. Le dimensioni di queste collezioni si aggirano nell’ordine degli zettabyte (uno zettabyte corrisponde a 10^21 byte, ossia un triliardo di byte).

A differenza dei Database classici che sono progettati e costruiti con l’intento di ospitare specifiche informazioni, i Big Data sono il risultato della creazione volontaria o involontaria di un gigantesco numero di dati prodotti da un altrettanto grande numero di generatori, siano essi persone o macchine.  La diffusione del concetto di “Big Data” è legata infatti alla diffusione del WEB e delle milioni di applicazioni che lo popolano e che ne diffondono vastissimi contenuti informativi, offrendo la possibilità a miliardi di persone e di macchine di divenire produttori di informazioni di qualsiasi tipologia (testo, immagini, video, etc….). Proprio per questa ragione un’altra caratteristica fondamentale di un Big Data è l’elevatissima eterogeneità dell’informazione gestita. Un Big Data può essere costituito da informazioni proveniente da tantissime fonti differenti e di forma strutturata, semistrutturata o non strutturata.

Si prenda ad esempio in considerazione l’informazione prodotta da un social network, i quali sono probabilmente i principali alimentatori dei Big Data oggi esistenti. Il solo Facebook produce un quantitativo informativo superiore a mezzo petabyte per giorno. Ebbene, anche se l’informazione rappresentata da un post è presentata in forma strutturata, l’informazone vera, ossia quella che riguarda l’utente, corrisponde all’informazione testuale (nel campo testo) del post, quindi corrispondente ad informazione non strutturata.

 

Modelli dimensionali per la descrizione di un Big Data.

Quali sono le dimensioni descrittive nei confronti delle quali è necessario andare ad esprimere le caratteristiche costitutive di un Big Data? Il problema fu affrontato nel 2001 da Doug Laney, analista per la società internazionale MetaGroup , operante nel settore dell’Information 2 Technology. Laney sviluppò un modello descrittivo caratterizzato da tre dimensioni fondamentali: il famoso modello delle 3V.

Le dimensioni in questione sono:

Volume , con cui ci si riferisce alla caratteristica forse fondamentale di un Big Data dato che il nome stesso fa riferimento al quantitativo di dati costituenti. La principale caratteristica di un Big Data è infatti il suo ordine di grandezza, sempre al limite di quella che è la portata delle tecnologie disponibili per la gestione e manipolazione dell’informazione.

Varietà , la quale va a sottolineare non solo l’eterogenerità dei dati inclusi nella collezione che compone un Big Data, ma anche la potenziale eterogeneità dei Big Data stessi, che possono appartenere a categorie differenti. In generale un analista deve conoscere il contesto nel quale un Big Data si è sviluppato, al fine di una estrapolazione ottimale dell’informazione.

Velocità , la quale si riferisce sia alla velocità con la quale l’informazione costituente il Big Data viene generata, sia alla velocità dei sistemi che gestiscono ed analizzano tali moli informative, le quali devono reagire in maniera rapida, dato che con il passare del tempo una informazione può diventare sempre meno interessante, fino a diventare potenzialmente dannosa.

 Col passare del tempo, tuttavia, questo modello si è rivelato per lo più inadeguato per la descrizione di tutte le caratteristiche di un Big Data. Sebbene la Gartner sia sostanzialmente fedele al loro modello classico descrittivo, altre società operanti nel settore dell’IT hanno apportato migliorie a tale modello, suggerendo nuove caratteristiche, quali:

Variabilità , la quale sottolinea la possibilità che l’informazione rappresentata da un Big Data possa essere soggetta a modifiche. In altre parole, questa dimensione inquadra la problematica dell’inconsistenza.

Veridicità , la quale rappresenta l’accuratezza dell’informazione inclusa. Anche questa caratteristica va opportunamente considerata nel processo di analisi dell’informazione di un Big Data.

Complessità , la quale rappresenta il grado di complessità dei processi di gestione del Big Data, fortemente dipendenti dal numero di fonti, dalle tipologie di dati e dal numero dei dati stessi che costituiscono il Big Data.

 

Esempi di applicazione.

Google offrendo una vastissima suite di servizi completamente gratuiti (quali Gmail, Youtube, il social Google+, e molti altri), è riuscita probabilmente a costruire uno dei più grandi Big Data della storia.Grazie a questa raccolta di informazioni dei propri utenti, Google riesce ad offrire pubblicità mirate ad ogni singolo user, ricavando, di fatto, oltre il 90% degli introiti dalla pubblicità.

Un altro interessante esempio applicativo è legato al settore metereologico, infatti è grazie ad una gigantesca collezione di informazioni che il “Centro di Analisi degli Uragani degli Stati Uniti d’America” prova a stimare l’intensità ed i percorsi degli uragani che periodicamente si abbattono sugli Stati Uniti. Tali informazioni provengono da telecamere, sensori e rilevatori disposti su larga scala geografica.

Due altri progetti interessanti sono “Google Flu Trends” e “Street Bump”. Il primo, promosso da Google, ha provato a stimare la portata di epidemie di influenza abbattutesi negli Stati Uniti monitorando le query effettuate sull’omonimo motore di ricerca in opportuni archi temporali.

Il secondo, portato avanti dalla municipalità di Boston, con il supporto di una applicazione smartphone che faceva utilizzo dell’accelerometro, era in grado di segnalare la potenziale presenza di buche nel manto stradale della città.