Données et traitements intelligents : focus sur les enjeux et méthodologies de préparation des datasets

Mardi 5 Décembre 2017, de 14h à 15h30

80% du travail des data scientists serait dévolu à la collecte, au nettoyage et à la structuration des données ; 20% seulement à la préparation des algorithmes et aux analyses(source). La qualité et la conformité des données utilisées en entrée, leur représentativité et leur exposition dans des formats interprétables par les machines en sortie restent des prolégomènes coûteux à tout type de traitements intelligents (automatisation de process, fouille et extraction de connaissances, applications prédictives, etc.). De multiples traitements intermédiaires doivent être opérés sur les données avant de pouvoir les analyser et les actionner dans des services (consolidation  et enrichissement,  étiquetage et annotation,  uniformisation et intégration, etc.). Les métadonnées et les référentiels sémantiques ont vocation à jouer un rôle clé pour documenter les processus, permettre un contrôle-qualité et une gouvernance sur les données. Quelles sont donc les étapes et les traitements requis pour préparer des corpus d’apprentissage et des jeux de données « machine-readable » ? Comment garantir leur qualité, leur représentativité et leur conformité? Quelles sont les compétences à mobiliser dans les projets et comment maitriser les coûts de transformation des données ? A rebours de toute « pensée magique » de l’IA, cette session proposera un panorama concret des méthodologies, des savoir-faire et des approches nécessaires pour préparer les données en vue de recevoir des traitements intelligents.

Animation :
Jean Delahousse, ‎Information Technology Consultant, Semantic technologies Expert

Intervenants :