Abonnez-vous Identifiez-vous

Identifiez-vous

Vos codes d'accès sont erronés, Veuillez les saisir à nouveau. Mot de passe oublié ?

Big Data fait parler vos données

, , ,

Publié le , mis à jour le 20/03/2012 À 16H02

Avec la prédominance de l’informatique et des réseaux, les données numériques explosent aujourd’hui. Certaines technologies, dites Big Data, permettent de les rendre intelligibles et exploitables. Le potentiel économique et stratégique est tel que ce traitement de données à grande échelle fait l’objet d’un salon à Paris : Big Data 2012, du 20 au 21 mars. Présentation de ce qui constitue une nouvelle approche de la donnée.

Big Data fait parler vos données

Un véritable déluge de données ! Depuis dix ans et l'avènement de l'ère numérique, rien ne semble pouvoir ralentir la croissance exponentielle des datas. Chaque année, nous créons en effet autant de données que la somme des données déjà créées au fil du temps ! Selon une étude EMC-IDC, 1,8 zettaoctet de données (1 800 milliards de mégaoctets) ont été produites en 2011. Et ce chiffre devrait bondir à 35 zettaoctets en 2020 !

Pour exploiter ces masses d'informations, une nouvelle science est née : le big data. Elle consiste à développer les technologies capables d'analyser et de donner du sens le plus rapidement possible à ces informations. Outre leur volume, celles-si ont la particularité d'être hétérogènes : soit structurées (comme celles déjà bien ordonnées au sein de bases de donnés), soit, le plus souvent, non structurées (textes, journaux...).

"Pour donner une définition simple, on peut dire que le big data commence là où les systèmes traditionnels de gestion de bases de données deviennent inopérants", ose François Guérin, le directeur avant-vente de Sybase. Ou comment résumer ce que les spécialistes dans ce domaine appellent les "3 V" : volume, variété d'informations, vélocité.

Un nouvel état d'esprit

"Le big data, c'est d'abord un changement de méthode et d'état d'esprit", affirme Paul Guyot, le président et cofondateur de Semiocast. "À la grande différence du décisionnel, dans le big data, les questions ne sont pas connues au départ, précise Olivier Rafal, le directeur information management chez Pierre Audoin Consultants (PAC). On trouve les questions après une première manipulation, puis on les affine au fur et à mesure."

Concrètement, le big data bien utilisé devrait accélérer les processus de décision, en donnant aux analystes l'opportunité de réaliser des découvertes par eux-mêmes. "Aujourd'hui, les liens entre données structurées et non structurées sont encore peu efficaces, analyse Olivier Rafal. Mais demain, on saura de quoi parlent les gens. Un vendeur de produits de mode pourra, par exemple, repérer très vite les tendances, avant même que cela ne se soit perceptible sur les ventes." Ainsi, les hôtels Marriot sont déjà à l'écoute des réseaux sociaux pour savoir ce qui intéresse leurs clients afin de leur proposer un meilleur service.

Le concept a aussi ses puristes. Pour Stephen Brobst, le directeur technique de Teradata, l'appellation "Big Data" n'est pas très juste. "Ce n'est pas tant la taille des données qui est importante, que leur diversité, la multiplicité de leurs origines, les différents types d'analyses qu'elles induisent." Dans ces conditions, tant les bases de données relationnelles classiques que les bases de données multidimensionnelles se montrent peu efficaces.

"Les utilisateurs sont confrontés à l'accroissement très important de leurs bases de données et sont souvent dans l'incapacité d'exprimer quelles sont les données pertinentes", résume Christophe Caquineau, le vice-président business intelligence Europe chez Avanade. Ces outils ne traitent que des données structurées. Dans l'optique d'une aide à la décision, ils savent ordonner de manière précise les informations dont on dispose, de façon à y accéder rapidement. Cette organisation est efficace pour des types d'interrogation prédéfinis.

Mais pour discerner des tendances, il faut trouver une autre approche, qui repose sur différents éléments : l'optimisation du stockage, le recours à des architectures parallèles pour le calcul et les logiciels d'analyse des données non structurées.

Un grand nombre d'acteurs de l'informatique sont concernés, d'où leur engouement pour le big data. L'enjeu : gérer de très gros volumes de données. Les temps d'accès doivent donc être réduits au maximum, grâce à des systèmes de gestion de fichiers ultraperformants (tels le XFS de SGI ou le OneFS d'EMC), à des contrôleurs de disques rapides et à l'introduction, au sein des unités de stockage, d'une certaine "intelligence".

DataDirect Networks (DDN) installe même l'applicatif du client au plus près des disques, inversant la tendance de la dissociation du serveur et du stockage. Les grands acteurs proposent plutôt des boîtiers spécialisés (les "appliances"), intégrant capacité de calcul et logiciel.

Il faut ensuite traiter les données le plus rapidement possible. Le logiciel libre Hadoop de la fondation Apache remporte là un grand succès. Il permet de paralléliser les tâches et donc d'utiliser un grand nombre de serveurs standard et non plus des systèmes dédiés beaucoup plus coûteux.

L'utilisation de cartes graphiques à des fins de calcul (GPU) comme la Tesla est encore peu répandue, mais des précurseurs, à l'image de la banque d'investissement JP Morgan, en utilisent pour accélérer les calculs de risques. Selon eux, les performances des applications sont 40 fois plus élevées.

Le règne des algorithmes

Reste à "lire" les données non structurées, souvent sous forme de textes. Un défi de taille où sont mobilisés les logiciels d'analyse sémantique qui mettent en évidence les sujets les plus souvent abordés. Tel le roi Midas, ils peuvent transformer en or les échanges sur les réseaux sociaux.

C'est aussi le domaine du "not only SQL" (qui désigne les bases de données non relationnelles), où règnent des algorithmes fondés sur les dernières découvertes en matière de mathématique pure. Les Français y excellent, à l'instar des universitaires et professeurs du Collège de France qui ont créé MFG Labs.

Les spécialistes de l'informatique décisionnelle ne sont pas en reste. SAS Institute, spécialisé dans le text mining (fouille des textes) depuis une dizaine d'années, reprogramme ses algorithmes pour tirer parti des architectures parallèles. La quantité de données à analyser oblige à reconsidérer les systèmes informatiques.

Pour intégrer ces différentes technologies, les géants de l'informatique ont fait leur marché. EMC, HP, Microsoft et IBM ont respectivement racheté Greenplum, Vertica, Datallegro, Netezza. Des sociétés beaucoup plus petites, comme DataDirect Networks, créée en 1998 aux États-Unis par deux Français, profitent de l'engouement pour le big data et vendent leurs systèmes de stockage par l'intermédiaire d'IBM, HP, Bull ou SGI.

Les start-up françaises savent aussi se placer, comme l'ont prouvé MFG Labs ou Semiocast. Créée à Paris en février 2009, cette dernière propose un suivi du web, à l'aide d'outils d'analyse et de filtrage polysémantique, capables de reconnaître l'ironie. Le phénomène du big data ne fait que commencer. L'omniprésence des réseaux sociaux et l'explosion des informations issues du Machine to Machine va ouvrir encore plus le champ des possibles.

Réagir à cet article

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte
Suivez-nous Suivre Usine Nouvelle sur Facebook Suivre Usine Nouvelle sur Twitter RSS Usine Nouvelle