22 oct., 2020

L'apprentissage automatique : un atout puissant pour une meilleure exploitation de vos données

  • Article
  • apprentissage machine
  • intelligence artificielle
  • mégadonnées
  • science des données
  • IA
  • algorithme
  1. Qu’est-ce que l’apprentissage automatique?

    L’apprentissage automatique, aussi appelé apprentissage machine, est un sous-domaine de l’intelligence artificielle (IA) qui est fondé sur des approches mathématiques et statistiques et qui permet à des ordinateurs d’apprendre à partir des données. Contrairement à la programmation traditionnelle où l’humain doit écrire un programme et fournir à l’ordinateur des entrées pour avoir des résultats en sortie, un algorithme d’apprentissage machine prend des entrées ainsi que les résultats voulus et génère un programme (une fonction mathématique) en sortie.

  2. Par conséquent, l’algorithme d’apprentissage machine pourrait apprendre à partir des données historiques, appelées données d’entraînement, afin de générer un modèle permettant entre autres de faire des prédictions à partir de nouvelles données qui lui sont inconnues, appelées données de test.

  3. Les types d’apprentissage automatique

    Il existe différents types d’apprentissage automatique, en fonction des données disponibles et des modes d’apprentissage. Dans ce billet de blogue, nous nous limitons à deux types : supervisé et non supervisé.

    Apprentissage supervisé

    Dans ce type d’apprentissage, l’algorithme apprend à partir des données annotées ou étiquetées qu’on lui présente. Autrement dit, dans les données d’entraînement, on trouve les observations et leurs étiquettes, aussi appelées labels.

    Exemple d’algorithmes : la classification des données

    Lors d’une application de reconnaissance d’images d’individus, l’algorithme est entraîné sur plusieurs images. Chaque image étant étiquetée par le nom de la personne correspondante, cela permet ainsi à l’algorithme d’apprendre les caractéristiques de chaque individu en se basant sur plusieurs images de la même personne. Ayant de nouvelles images d’individus, l’algorithme de classification sera en mesure de prédire le nom de la personne associée à chaque image et de bâtir une capacité de généralisation sur de nouvelles images qu’il n’a jamais vues dans le passé.

  4. Apprentissage non supervisé

    Contrairement à l’apprentissage supervisé, où l’algorithme a l’avantage d’être entraîné sur des observations et leurs étiquettes, lors de l’apprentissage non supervisé, l’algorithme en question a uniquement des observations sans leurs étiquettes. Par conséquent, il doit découvrir lui-même la structure caractéristique des observations sans aucune assistance humaine et déterminer les étiquettes des données.

    Exemple d’algorithmes : le partitionnement des données

    Le partitionnement des données, aussi appelé clustering, permet de partitionner un ensemble de données en différents groupes, de sorte à maximiser la ressemblance entre les individus du même groupe et de minimiser celle entre des individus de groupes différents. À titre d’exemple, il est possible d’entraîner un algorithme de clustering pour identifier différents objets dans une image et d’attribuer la même étiquette pour des objets de type similaire. Dans le contexte non supervisé, c’est l’algorithme d’apprentissage qui devrait définir les étiquettes dans les données.

  5. Attention aux problèmes de surapprentissage et de sous-apprentissage!

    Lors de l’entraînement des algorithmes d’apprentissage, certains problèmes peuvent apparaître et influer sur la capacité de prédiction de l’algorithme sur les nouvelles données.

    Le problème de surapprentissage survient quand l’algorithme apprend par cœur les données d’entraînement, de sorte que les erreurs de prédiction sont très faibles sur les données d’entraînement, mais élevées pour les nouvelles observations (ou données de test). Pratiquer la validation croisée pour un choix optimal des valeurs des paramètres du modèle, faire du bagging et appliquer de la régularisation sont toutes des solutions connues dans le domaine pour pallier le problème de surapprentissage.

    Le problème de sous-apprentissage survient quand l’algorithme n’apprend pas assez sur les données d’entraînement, de sorte que les erreurs de prédiction sur les données d’entraînement et les données de test sont élevées. Ce problème peut être causé par un mauvais choix de modèle (p. ex. un modèle linéaire trop simple). Ajouter plus de caractéristiques au modèle initial, accroître sa complexité et augmenter le temps d’entraînement ainsi que la taille des données peuvent être des pistes de solution pour pallier le problème de sous-apprentissage.

    Bien préparer vos données

    Lors d’un projet de science des données, 80 % du temps sera consacré à la collecte et à la préparation des données. En fait, un projet réussi en science des données commence par une bonne préparation de vos données, une étape qu’il ne faut pas sous-estimer.

    Plusieurs catégories de données peuvent être collectées pour mener vos projets à bien, comme des données textuelles, des images et des vidéos. Elles peuvent être de nature interne (p. ex. les données provenant des capteurs mesurant les vibrations, les intensités électriques, la température du moteur) ou de nature externe (p. ex. les données de la météo et d’autres données publiques pertinentes par rapport au problème à résoudre). Ces données brutes provenant de différentes sources sont généralement non structurées.

    Une fois les données collectées, la prochaine étape consiste à structurer ces données et à les centraliser dans une structure unique et accessible partout dans l’organisation. Structurer vos données consiste à les nettoyer (p. ex. enlever les données non pertinentes et les duplications), à les formater (p. ex. conversion de types, imputation, erreurs de syntaxe, normalisation, mise à l’échelle des valeurs, valeurs aberrantes) et à évaluer leur qualité (complétude, consistance, uniformité).

    Choisir votre modèle

    Une fois vos données bien préparées, la prochaine étape de votre projet de science de données est naturellement de choisir votre modèle d’apprentissage machine. Selon la forme d’apprentissage que vous devez utiliser (supervisé, non supervisé) et du type d’algorithmes que vous voulez mettre en place (classification, régression, clustering), plusieurs options s’offrent à vous (p. ex. arbres de décision, réseaux de neurones, machines à vecteurs de support, K-Means, DBScan). Mais quel modèle choisir?

    Il est généralement difficile de deviner quel modèle est le plus approprié, car cela dépend de la taille et de la qualité de vos données de même que du type de problèmes que vous voulez résoudre. Chaque modèle a des forces et des faiblesses. Il est recommandé de tester plusieurs modèles d’apprentissage machine et de comparer les résultats des différents modèles sur les mêmes données. Notez que les performances d’un modèle peuvent varier (augmenter ou diminuer) dépendamment de ses valeurs de paramètres; un bon choix des valeurs des paramètres du modèle vous permet d’obtenir de meilleures performances, et vice versa. Finalement, sachez que la performance du modèle sélectionné n’est pas garantie pour toujours, surtout si vos données ont tendance à changer au fil du temps. Il est donc important de réentraîner votre modèle de façon régulière afin de le maintenir à jour et aussi de le comparer aux autres modèles pour vous assurer qu’il répond toujours le mieux à vos besoins.

    Par où démarrer votre projet d’IA?

    La meilleure façon de démarrer un projet dans un domaine méconnu est d’être accompagné par un partenaire qui possède une expertise en la matière. Nos experts en IA, en analyse avancée de données et en informatique industrielle sont là pour vous guider dans votre projet de science des données et de vous conseiller pour faire les bons choix, que ce soit lors de la préparation de vos données ou de la sélection de votre algorithme d’apprentissage.

    Essayez notre nouveau programme de démarrage en IA pour lancer rapidement et réussir votre premier projet en IA. D’une durée de trois à quatre semaines, ce programme vous permettra de savoir où votre organisation se situe quant à l’IA pour ensuite bien cerner les étapes à prioriser afin de maximiser vos investissements, et ce, le plus rapidement possible. Une équipe d’experts de BBA saura vous accompagner pour définir votre projet en IA et vous guider à vous doter d’une vision IA à court et à long terme pour votre organisation.

    BBA offre également des formations en apprentissage machine qui vous donnent l’occasion de découvrir ce domaine d’actualité et de connaître les plus récentes tendances du marché.

    N’hésitez pas à communiquer avec nous pour en savoir plus et pour démarrer votre aventure en IA!

Ce contenu est fourni uniquement à des fins d’information générale. Tous droits réservés ©BBA

Publications récentes
Voir tout
Poussons
la réflexion
ensemble
Contactez-nous