Matériel · Ordinateurs

Computer vision

comment les machines apprennent à voir

De la grille de pixels à la décision : le fonctionnement de la vision par ordinateur, sans jargon.

Par Léa Marchetti 20 juin 2026 7 min de lecture

Visage d'un homme traversé par des lignes laser rouges, évoquant un scan de reconnaissance faciale

Réponse rapide

La computer vision, ou vision par ordinateur, est le domaine de l’intelligence artificielle qui permet à une machine d’extraire du sens d’une image ou d’une vidéo. Elle transforme des pixels en informations exploitables.

Branche de l’IA : interpréter des images et des vidéos.
Apprentissage par l’exemple : le modèle déduit les motifs, on ne lui dicte pas la règle.
Tâches variées : classer, détecter, segmenter, reconnaître, suivre.
Partout déjà : santé, automobile, industrie, smartphone.

La computer vision, qu’est-ce que c’est ?

La computer vision, en français vision par ordinateur, est la branche de l’intelligence artificielle qui apprend aux machines à interpréter le contenu visuel. Là où un humain voit un chien sur une photo en une fraction de seconde, un ordinateur ne reçoit qu’une grille de chiffres. Tout l’enjeu consiste à transformer ces chiffres en une information utile : « il y a un chien », « le feu est rouge », « cette pièce est défectueuse ».

Il faut distinguer deux choses souvent confondues. Le traitement d’image classique applique des règles fixes : augmenter le contraste, détecter des contours. La vision par ordinateur moderne, elle, apprend à partir d’exemples. On ne lui donne pas la règle ; on lui montre des milliers d’images, et elle dégage seule les motifs qui permettent de décider. C’est cette capacité d’apprentissage qui a tout changé.

Comment une machine voit une image

Pour un ordinateur, une image n’est qu’un tableau de pixels, chacun décrit par des valeurs de couleur. Une photo, c’est donc des millions de nombres. Le défi, c’est de passer de cette masse brute à une décision, et cela se fait par étapes successives.

Acquisition

Une caméra ou un capteur produit l’image : c’est la matière première du système.
Pré-traitement

Les données sont nettoyées et normalisées : recadrage, ajustement de la luminosité, mise à la bonne taille.
Extraction de caractéristiques

Le système repère des motifs de plus en plus complexes, des simples bords aux formes, puis aux objets entiers.
Interprétation

Il associe ces motifs à une réponse : une étiquette, une position, une mesure.

Une image mentale

Les premières couches d’un modèle voient des détails minuscules, comme des traits et des angles. Les suivantes les assemblent en formes — un œil, une roue. Les dernières reconnaissent l’ensemble — un visage, une voiture. La machine ne « comprend » pas au sens humain : elle reconnaît des combinaisons de motifs qu’elle a appris à associer à une étiquette.

Ce que la vision par ordinateur sait faire

Toutes les tâches ne se valent pas, et les distinguer aide à saisir ce que la technologie apporte réellement. Trois d’entre elles forment le socle de la plupart des applications.

Niveau 1

Classification

Répond à « qu’y a-t-il sur cette image ? ». Le modèle attribue une étiquette globale : c’est un chat, ou un chien.

Niveau 2

Détection d’objets

Localise chaque élément avec un cadre et peut en compter plusieurs sur une même image. La base des aides à la conduite.

Niveau 3

Segmentation

Attribue une étiquette à chaque pixel pour découper précisément les contours d’un objet. Précieuse en imagerie médicale.

À cela s’ajoutent la reconnaissance, qui identifie une instance précise comme un visage ou un caractère de texte, et le suivi, qui maintient l’identité d’un objet d’une image à l’autre dans une vidéo. La plupart des systèmes réels combinent plusieurs de ces tâches.

Des applications bien réelles

La vision par ordinateur a quitté les laboratoires depuis longtemps. Son intérêt tient à l’échelle : la machine ne fait pas forcément mieux qu’un expert sur un cas isolé, mais elle traite des volumes qu’aucune équipe humaine ne pourrait absorber, sans se lasser.

Secteur	Usage concret
Santé	Repérage d’anomalies sur radiographies et IRM, en seconde lecture du médecin
Automobile	Détection de piétons, panneaux et véhicules pour les aides à la conduite
Industrie	Contrôle qualité : repérage de défauts en quelques millisecondes
Agriculture	Suivi de l’état des cultures par drones et satellites
Vie quotidienne	Déverrouillage par le visage, tri de photos, lecture de documents

Les technologies derrière

Pendant une décennie, les réseaux de neurones convolutifs, les CNN, ont dominé le domaine. Leur idée : faire glisser de petits filtres sur l’image pour détecter des motifs locaux, puis combiner ces motifs couche après couche. C’est ce qui a rendu la reconnaissance d’images fiable à grande échelle.

Plus récemment, les Vision Transformers, ou ViT, ont changé la donne. Plutôt que de regarder l’image par petits morceaux locaux, ils utilisent un mécanisme d’attention qui pèse les relations entre toutes les zones de l’image. Concrètement, cela leur permet de mieux exploiter de très grands volumes de données et, souvent, d’atteindre une meilleure précision. Les deux approches coexistent aujourd’hui, et beaucoup de systèmes les combinent.

Un élément reste central quelle que soit l’architecture : les données. Un modèle de vision ne vaut que par les exemples sur lesquels il a été entraîné. C’est là que se jouent à la fois sa performance et ses faiblesses.

Les limites et les enjeux à garder en tête

La vision par ordinateur impressionne, mais elle n’est ni magique ni infaillible. Elle se trompe, parfois de façon surprenante : un changement d’éclairage, un angle inhabituel ou une image de mauvaise qualité peuvent suffire à la faire dérailler.

Le problème le plus sérieux vient des données d’entraînement. Si elles sont incomplètes ou déséquilibrées, le modèle hérite de leurs biais. Un système entraîné surtout sur certains profils peut être nettement moins fiable sur les autres, avec des conséquences concrètes dès qu’il sert à des décisions sensibles.

Enfin, il y a la question de la vie privée. Reconnaître des visages dans l’espace public ou analyser des comportements soulève des enjeux qui ne sont pas techniques mais de société. Comprendre comment fonctionne la vision par ordinateur, c’est aussi pouvoir poser les bonnes questions sur la façon dont on l’emploie.

Quelle est la différence entre computer vision et reconnaissance d’images ?

La reconnaissance d’images est une tâche parmi d’autres de la computer vision : elle identifie ce qu’il y a sur une image. La vision par ordinateur est le domaine plus large, qui inclut aussi la détection, la segmentation, le suivi ou la lecture de texte.

Sur quel principe d’IA repose la vision par ordinateur ?

Sur l’apprentissage à partir d’exemples : on montre au modèle de nombreuses images étiquetées, et il déduit seul les motifs qui permettent de décider. C’est ce qui la distingue du traitement d’image à règles fixes.

Faut-il être développeur pour comprendre la vision par ordinateur ?

Non pour en comprendre le principe : une image devient une grille de chiffres, et le modèle apprend à associer des motifs à des réponses. En revanche, concevoir et entraîner ces systèmes demande des compétences techniques solides.

La computer vision est-elle fiable à 100 % ?

Non. Elle peut se tromper face à un éclairage inhabituel, une image dégradée ou une situation absente de ses données d’entraînement. Ses biais dépendent directement des données utilisées pour l’apprendre.

Savoir comment une machine voit, c’est moins se laisser impressionner par ses prouesses, et mieux juger là où elle peut se tromper.