Données et traitements intelligents : focus sur les enjeux et méthodologies de préparation des datasets

Mardi 5 Décembre 2017, de 14h à 15h30

Les systèmes actuels d’apprentissage-machine sont fortement consommateurs de données annotées par l’homme. 80% du travail des data-scientists serait ainsi dévolu à la collecte, au nettoyage et à la structuration des données, 20% seulement à la préparation des algorithmes et des analyses (source). La qualité et la conformité des données utilisées en entrée, leur représentativité et leur exposition dans des formats interprétables par les machines restent des prolégomènes coûteux à tout type de traitements intelligents (automatisation de process, fouille et extraction de connaissances, applications prédictives, etc.).  La constitution de ressources linguistiques ou sémantiques riches est un préalable pour injecter de la connaissance du monde dans les systèmes.  Quelles sont donc les étapes et les traitements requis pour préparer des ensembles de données « machine readable » (acquisition, étiquetage, enrichissement, consolidation, intégration, etc.) Comment garantir la qualité, la représentativité et la conformité des jeux de données destinés à recevoir des analyses ? Quelles sont les compétences à mobiliser dans les projets et  comment maîtriser les coûts ? A rebours de toute « pensée magique » de l’IA, cette session proposera un panorama concret des méthodologies, des savoir-faire et des approches nécessaires pour préparer les données en vue de recevoir des traitements intelligents. Les projets présentés illustreront les problématiques sur différentes typologies de sources (informations juridiques, verbatims sur les réseaux sociaux, données de recherche, fichiers logs, etc.).

Animation :
Jean Delahousse, ‎Information Technology Consultant, Semantic technologies Expert

Intervenants :