Big Data, Big Business
Approfondire la conoscenza del proprio cliente, ottenere precisi orientamenti per il futuro, creare nuove opportunità di mercato: questo ci consentono oggi le nuove frontiere Big Data.
I progetti
I progetti Exprivia si caratterizzano per l'innovativa gestione di dati strutturati, non strutturati o ibridi in chiave di data refinery. Di rilievo l'impiego delle soluzioni proprietarie Exprivia BigKnowledge e Normasearch.
Gestire dati strutturati e non strutturati
In alcuni casi l'esigenza principale è gestire imponenti volumi di dati prevalentemente strutturati. Le imprese possono trarre vantaggio sia dal risparmio in termini di hardware, sia dalla possibilità di realizzare analisi e calcoli on the fly normalmente molto onerosi con architetture standard.
Ne è esempio un cruscotto statistico che offre grafici interattivi, basato su un motore di ricerca Big Data (ClouderaSearch) per garantire rapide analisi su set di dati dipendenti dall’analista (quindi non pre-calcolabili). L’utilizzo di un motore di ricerca (e non di un data base standard) accelera in modo decisivo l'intero processo.
Altro esempio è un sistema di back end per i dati da scontrino, sviluppato su piattaforma big data (Cloudera), che consta di due componenti principali:
- motore di riconoscimento del billing cartaceo. Partendo dalla foto della fattura/scontrino/ricevuta, attraverso tecniche di pattern matching il sistema individua informazioni come: esercizio, data e ora del pagamento, valore totale, singoli prodotti. Con questi dati viene alimentata una base dati che utilizza HIVE;
- sistema di analisi che, partendo dai dati raccolti, consente di verificare la penetrazione di un prodotto su profilo demografico geolocalizzato (i dati sul profilo vengono raccolti usando una social login oppure con registrazione standard dall’app), le comparazioni di vendita tra prodotti diversi all'interno della stessa catena GdO o tra catene GdO concorrenti. Le informazioni sono rese disponibili tramite servizi di accesso ai dati (in tal caso il cliente li integra nei suoi sistemi di business intelligence) o con report basati su Pentaho (soluzione di BI open source). Tutto il sistema gira su Amazon Cloud.
In altri casi la mole prevalente di dati non strutturati oppure ibridi richiede le capacità di information retrival proprie di Big Knowledge nel cercare e selezionare su web aperto e su documenti interni (pdf, word, e-mail, etc) tutte le informazione necessarie, riducendo l’overload informativo grazie a tecniche avanzate di analisi semantica. L'intelligenza artificiale di BK permette al sistema di creare regole in base alle informazioni trattate e quindi cercare in modo automatico le informazioni sul web o sui silos di documenti individuati. Il passo successivo è strutturare dette informazioni in modo da renderle fruibili in modo semplice ed intuitivo per il cliente.
Questa versatilità progettuale dà luogo a molte interessanti soluzioni:
- Normasearch, per la ricerca nel web aperto di nuove notizie la cui selezione è dettata da norme generate dal sistema stesso, opportunamente istruito;
- DFA per la pre-trade reconstruction. Il sistema analizza tutti gli scambi informativi sui deal (chiamate vocali, chat, e-mail) in modo da poter certificare che ogni deal sia stato chiuso in modo conforme con le procedure interne;
- Threat Intelligence, che utilizza la componente information retrival di Big Knowledge per la ricerca di informazioni relative a nuovi attacchi informatici non solo legati a normative di sicurezza, sia su web aperto che su deep web. In questo caso la categorizzazione dei dati è realizzata utilizzando il prodotto “Cogito” di Expert System;
- Competitive Intelligence, per cercare su una serie di siti profilati informazioni relative a gare d'appalto. In un classico DB vengono strutturate nozioni utili all’analisi (aggiudicatario, prezzo, tipologia di construction, durata dell’appalto, etc.), riducendo fortemente il tempo necessario agli analisti per il reperimento di questi dati;
- Asset Protection per monitorare tutti gli scambi di informazioni relativi a documenti protetti da non disclosure agreement (accordo di non divulgazione). Il sistema crea una visualizzazione grafica di tutti gli scambi a fini forensi, poiché è in grado di capire se si sta parlando di argomenti tutelati e con quale mezzo lo si stia facendo.
Data Lake
Alla gestione dei dati in ogni forma si aggiunge l’attività di costruzione del Data Lake ovvero l'infrastruttura Big Data fondamentale su cui si raccoglie l'universo delle informazioni particolareggiate disponibili sui clienti, che saranno messe a disposizione dei data scientist interni all'impresa per successive elaborazioni.