Chaque jour, nous engendrons des trillions d’octets de données de sources diverses : données satellitaires, géolocalisations, réseaux sociaux, e-mails, transactions, données météorologiques… Chacun contribue à cette accumulation de données en utilisant son Smartphone, effectuant des paiements, en se déplaçant, etc. Toutes ces données sont stockées. La quasi totalité sont localisables directement ou indirectement et l’ensemble constituent ce que l’on appelle le Big Data.
Si les entreprises et gouvernements sont bien conscients des enjeux et des bénéficient qui peuvent être tirés de cette multitude d’informations, beaucoup peine à en extraire les analyses nécessaires à l’amélioration de leurs activités, qui plus est lorsqu’il s’agit d’exploiter utilement la dimension spatiale.
Ces difficultés proviennent du volume et de l’hétérogénéité des données qui complexifient leur analyse. Or, chacun souhaiterait pouvoir analyser et produire des résultats instantanément pour répondre à ses problématiques.
Quel sera l’impact écologique de la circulation dans ma ville demain, compte tenu de la météo, du trafic et des manifestations exceptionnelles prévus ce jour ? Comment appréhender les déplacements des populations d’éléphants de mer par rapport aux conditions environnementales ? Comment déployer les secours suite à un ouragan ?
Aujourd’hui, les systèmes d’acquisition de données ouverts se multiplient dans le but de pouvoir produire des analyses toujours plus pertinentes. C’est le cas par exemple, du programme européen de surveillance de la Terre, Copernicus. Grâce à sa constellation de satellites, il permet de collecter une multitude de données sur les océans, la végétation, l’atmosphère, la bathymétrie, l’altimétrie, le climat… Toutes ces données hétérogènes sont librement accessibles aux entreprises et rendent possible la réalisation d’analyses précises à un endroit et un temps donné.
Pour permettre l’accroissement des performances des gouvernements et entreprises, il faut donc pouvoir effectuer des analyses instantanées sur une multitude de données hétérogènes. Cela implique une accessibilité simple aux informations. C’est ainsi que les lacs de données « datalake » ont commencé à voir le jour. Ceux-ci regroupent une grande variété de données brutes hétérogènes.
Cependant, rassembler ces données dans des « datalake » n’est pas suffisant, puisque la diversité des données rend difficile leur analyse. Il faut donc concevoir des moteurs d’analyse performant capable d’aller forer dans ces amas d’informations, tout en tenant compte de la dimension spatiale, pour en extraire des résultats pertinents. Tout cela de manière simple et instantanée.
On voit donc émerger des solutions dites « Datacube ». Ces moteurs d’analyses sont capables de se connecter à de nombreuses sources de données variées, de les filtrer selon le type de données, la situation géographique, la fenêtre temporelle, l’unité de représentation, etc. et d’en extraire les informations nécessaires à une analyse très fine en extrayant facilement des sous-ensembles de données cohérents. Exploiter et valoriser les diverses données d’une entreprise devient beaucoup plus simple et rapide. On parle alors de Data intelligence, et de GeoIntelligence lorsqu’il est fait usage d’information géographique.
Afin de répondre à la nécessité d’obtenir des analyses toujours plus rapidement sur des données toujours plus nombreuses, Geomatys a développé Examind Datacube, le moteur d’analyse Big Data géospatial.
Déjà connecté à une base enrichie et mise à jour en continue qui regroupe les données en libre accès dites « OSINT » (Open Source Intelligence), Examind Datacube est également capable de se brancher aux sources de données de ses clients. Ainsi, cet outil permet grâce à des algorithmes d’explorer cette grande diversité de données et d’en extraire les analyses les plus pertinentes pour le client.
Doté d’une capacité à exploiter et combiner avec précision une très grande variété et volumétrie de données spatiales et temporelles (trajectoires, modèles de prévisions météorologiques, rejeux d’évènements, capteurs, données satellites, données vecteurs dites froides…), Examind Datacube est capable d’effectuer ses analyses sans dupliquer la donnée et même, le cas échéant, en exploitant uniquement les métadonnées enrichies lors de la découverte du jeu de données. Ainsi, la solution requiert un espace de stockage moindre. Les résultats sont obtenus plus rapidement et optimisent les ressources en calcul nécessaires.
Cet outil est entièrement développé par les équipes de Geomatys. Ce qui permet une évolution continue et maîtrisée. Il embarque un environnement logiciel qui permet de traiter des données géographiques ou non, et de proposer une variété de traitements tel que de l’algorithmie classique, du machine learning, des géostatistiques etc. Ces traitements peuvent être mis en œuvre aussi bien en environnement Java que Python. Des travaux dans le domaine des Linked-Data et du Web Sémantique sont en cours afin de faciliter l’analyse de ces données et d’améliorer leur enrichissement.
Cet outil volontairement générique, peut donc s’adapter à n’importe quel domaine :
Dans le contexte environnemental actuel, Examind Datacube peut par exemple, aider à suivre en temps réel les changements environnementaux en agrégeant les données climatiques, d’urbanisation, de terres cultivées, d’habitats naturels, de qualité de l’air ou de l’eau. Les décisions sont ainsi facilitées grâce à des analyses en quasi temps réel.
Dans le domaine de la défense, la centralisation de données de sources hétérogènes comme les données géographiques, de réseaux sociaux, du dark et du deep web ou encore de traitement de langage peuvent permettre au gouvernement d’identifier des groupes terroristes ou des réseaux criminels afin de planifier les interventions nécessaires.
Examind Datacube peut également servir lors des catastrophes naturelles. Dans un premier temps, pour en anticiper l’arrivée et permettre l’évacuation des zones les plus à risque. Puis, suite à la catastrophe, faciliter l’intervention des secours en identifiant les secteurs les plus touchés grâce à la combinaison des données météorologiques, démographiques, d’images drones, de réseaux sociaux et d’appels d’urgence. Finalement, Examind Datacube est un moyen de répondre efficacement, simplement et rapidement à vos problématiques d’aujourd’hui et de demain, en produisant des informations qualifiées issues du croisement de sources diverses.