[Infographie] Lexique de la Data

Machine Learning, Deep Learning, Neural network,… Le vocabulaire de l’Intelligence Artificielle regorge de nombreux termes et d’expressions. Il est parfois difficile de s’y retrouver dans le « monde de la data ».

Nuukik a décrypté, pour vous, les expressions incontournables afin d’y voir plus clair sur le sujet.

[Intelligence Artificielle]

Intelligence Artificielle

L’Intelligence Artificielle représente l’ensemble des théories et des techniques utilisées afin de simuler par le biais d’une machine l’intelligence humaine.
Ce concept existe depuis des décennies mais s’est démocratisé ces dernières années. Il suscite depuis toujours de nombreux fantasmes qui sont encore bien loin de la réalité.

Schema Intelligence Artificielle

[Machine Learning]

Le Machine Learning permet à une machine de répondre à un problème sans avoir été explicitement programmé à le faire. Pour cela, un modèle mathématique est créé à partir de l’analyse d’observations passées afin de réaliser des prédictions ou prendre des décisions.

Quelques exemples d’algorithmes de Machine Learning : collaborative filtering, linear regression, random forest, …

Machine Learning

[Neural network]

Neural network

Les réseaux de neurones s’inspirent directement du fonctionnement du cerveau. Ce système est constitué d’une structure interconnectée de neurones qui fonctionnent comme des voies pour le transfert de données afin de résoudre des tâches complexes.

[Deep Learning]

Le Deep Learning approfondit le concept des réseaux de neurones en multipliant les « couches » de neurones. Le but étant de détecter des modèles, des concepts difficilement explicables par un humain. Il est souvent utilisé pour analyser des données peu structurées (images, sons, textes, …) où l’on essaye de capturer des concepts abstraits.

Deep Learning

[Data Scientist / Data Engineer / Data Analyst]

Dans le monde de la data, il existe 3 métiers qui doivent être distingués :

Data Scientist
Data Engineer
Data Analyst

Le Data Scientist construit des algorithmes et des modèles prédictifs, réalise des analyses et des préconisations/ recommandations, et a une très bonne compréhension des enjeux business de l’entreprise.

Le Data Engineer met en place, développe et contribue à l’ensemble de l’infra Data (construction, maintenance, exploitation etc.) afin de la mettre à disposition de l’entreprise et des métiers.

Le Data Analyst analyse et croise les données de l’entreprise et les interprète soit via des analyses one-shot, soit en construisant des dashboards.

[Training or Learning]

Dans le deep learning, le Training ou le Learning correspond à la phase où l’algorithme va apprendre à partir d’expériences successives de façon à trouver la meilleure solution.

Training or Learning

[Sur-apprentissage (overfitting)]

Sur-apprentissage (overfitting)

Le sur-apprentissage dégrade la performance des algorithmes de machine learning. Cet overfitting intervient lorsque l’algorithme sur-apprend, autrement dit, lorsqu’il apprend à partir des données mais aussi à partir de modèles (schémas, structures) qui ne sont pas liés au problème, comme du bruit (altère les données collectées et risque de rendre difficile l’apprentissage de la relation que l’on cherche à prédire, voire de rendre la modélisation impossible).

[Training set / Validation set / Testing set]

Jeu d’entraînement, jeu de validation et  jeu d’évaluation sont les trois étapes d’un développement qui s’appuie sur des données. 

Training set
Validation set
Testing set

Le jeu d’entraînement sert à l’apprentissage : Les données sont fournies aux algorithmes et le Data Scientist s’en sert afin de concevoir son modèle.

Le jeu de validation sert à évaluer le modèle au fur et à mesure de l’apprentissage. Il compare également des algorithmes différents ou différemment paramétrés.

Le jeu d’évaluation évalue une seule fois le modèle à la fin et lui donne un score fiable.

[Apprentissage supervisé / non-supervisé]

Il est possible de distinguer deux modèles d’apprentissage en matière de Machine Learning. Ils consistent tous deux à former une machine sur la base de données intégrées, structurées puis analysées grâce à une intervention humaine.

Apprentissage supervisé
apprentissage non-supervisé

On parle d’apprentissage supervisé lorsque, à l’entraînement, on fournit à l’algorithme la « bonne réponse » à la question à laquelle on cherche à répondre.

On parle d’apprentissage non-supervisé lorsque l’on demande simplement à l’algorithme de regrouper les données en se basant sur leur proximité.

[Feature / Feature engineering]

Feature engineering

Le Feature Engineering consiste à utiliser les connaissances d’un domaine pour extraire des fonctionnalités à partir de données brutes via des techniques d’exploration de données. Ces fonctionnalités peuvent être utilisées pour améliorer les performances des algorithmes d’apprentissage automatique.

[Big Data]

Le Big Data désigne des données si volumineuses qu’un simple logiciel de traitement de données ne peut les gérer seul et nécessite donc des traitements parallélisés sur plusieurs machines.

Big Data

[Data Lake]

Data Lake

Un Data Lake est une base de données qui permet de stocker de larges volumes de données structurées, semi-structurées et non-structurées. C’est un immense contenant prêt à accueillir de gros volumes de données « en vrac ».

[Data Warehouse]

Un Data Warehouse désigne un dispositif technologique destiné à stocker et gérer des données issues de différents systèmes sources à des fins d’analyse exploratoire. Les données stockées dans un DataWarehouse sont pré-traitées et structurées en vue de leur utilisation future.

Data Warehouse

[Data Leak]

Data leak

Le Data Leak ou violation de données est le rejet, intentionnel ou non, et non sécurisé de l’information d’une organisation au sein d’un environnement externe ou non sécurisé. Les menaces de fuite de données se produisent généralement via le Web et le courrier électronique, mais également via des périphériques de stockage de données mobiles tels que des supports optiques, des clés USB et des ordinateurs portables.

Des expressions complexes mais des définitions à la portée de tous. Grâce à Nuukik, vous pouvez y voir plus clair sur la notion d’Intelligence Artificielle, ses technologies et ses usages. N’hésitez pas à nous contacter pour parler data.

Lexique de la Data
Lexique de la Data
Lexique de la Data
Lexique de la Data
Lexique de la Data
Lexique de la Data

Vous souhaitez en savoir plus sur notre société et nos services, nous sommes à votre disposition par email, téléphone et chat.

Back to top