INTRO

LA SCIENCE DERRIÈRE UNE VISION PAR ORDINATEUR CENTRÉE SUR L’HUMAIN

La poursuite de l’amélioration humaine est une quête sans fin, qu’il s’agisse d’accroître les performances, d’apprendre de nouvelles compétences ou de vivre de nouvelles expériences. L’IA peut aider à rendre possible ce qui était préalablement impossible. La vision par ordinateur, un important sous-domaine de l’intelligence artificielle, implique la traduction de pixels du monde réel dans un langage avec lequel l’ordinateur peut travailler. Plus précisément, la vision par ordinateur centrée sur l’humain développe des outils algorithmiques qui permettent aux machines de détecter et suivre les humains. Les données de mouvements humains peuvent être utilisées pour générer de nouvelles données quantifiables sur le comportement humain, et pour créer des applications interactives à même le monde réel, augmenté, ou virtuel. En d’autres mots, la vision par ordinateur centrée sur l’humain fournit les outils nécessaires pour que les machines puissent collaborer et interagir avec les humains.

MOUVEMENT

CAPTURER LE MOUVEMENT

La capacité des machines à voir et à comprendre les mouvements humains est fondamentale pour la vision par ordinateur centrée sur l’humain. Les vidéos contiennent une énorme quantité d’information sous la forme de pixels, dont la majeure partie est sans signification pour l’ordinateur, à moins de pouvoir décoder les liens entre les pixels et ce qu’ils représentent. La détection et le suivi des pixels représentant les humains sont connus sous le nom de capture de mouvement.

La capture de mouvement numérise le mouvement humain afin de permettre aux machines de suivre ou reconstruire le comportement humain. L’avantage principal de la capture de mouvement est qu’une quantité importante de données peuvent être traitées en quelques millisecondes. Cela permet aux applications d’effectuer, en temps réel, des tâches telles que l’analyse de mouvements sportifs et l’automatisation d’interactions impliquant un humain et une machine. Cette technologie est de plus en plus utilisée dans les recherches en santé et en kinésiologie pour aider les gens à améliorer leurs postures, démarches et autres mouvements.

La capture de mouvement est réalisée par le suivi du squelette articulaire, qui suit des humains dans une vidéo à l’aide d’un squelette virtuel superposé. Le squelette est constitué d’un nombre variable de points squelettiques et de segments représentant chaque membre et partie du corps. Le nombre d’articulations squelettiques peut varier en fonction de la résolution de la vidéo, ou de la distance des individus par rapport à la caméra. La chronologie des points et des coordonnées des segments du squelette forme les données des mouvements humains numérisés à partir desquelles les trajectoires et les déplacements de mouvements peuvent être estimés. Par exemple, les données des angles d’articulation peuvent être utilisées pour déduire la rotation des articulations des hanches, des genoux et des chevilles. Ensemble, ces articulations squelettiques nous permettent d’analyser les poses et les mouvements et de reconstruire les comportements humains.

FORME

CAPTURER LA FORME

La compréhension par ordinateur du monde réel est une tâche complexe, compliquée par l’imprévisibilité des humains et de l’environnement dans lequel ils se trouvent. La capture visuelle des formes consiste à localiser et à distinguer tous les humains dans une vidéo. Elle est réalisée à l’aide de la segmentation d’instances humaines, un ensemble d’algorithmes d’apprentissage automatique optimisés pour la détection et la segmentation des formes humaines. La capture des formes humaines est une amélioration par rapport à la méthode de segmentation traditionnelle qui utilise des boîtes d’encombrement, qui correspond à la délimitation d’un élément en utilisant une forme carrée ou rectangulaire. Elle utilise plutôt la pose du squelette humain qui est plus précise et plus adaptée à la segmentation des formes humaines. L’utilisation des poses squelettiques a l’avantage d’être plus robuste aux occlusions, qui se produisent lorsqu’un individu n’est que partiellement visible, que ce soit parce qu’il est dans une foule ou derrière un objet. La segmentation d’instance humaine permet aussi de compter automatiquement le nombre d’individus dans une scène et peut déterminer la taille d’une grande foule avec un haut niveau de précision.

La segmentation humaine est souvent effectuée en combinaison avec la segmentation de l’arrière-plan, ce qui accélère le processus en soustrayant l’environnement des acteurs humains. La segmentation d’arrière-plan est devenue très utile dans les environnements extérieurs qui peuvent être orageux, brumeux, ou enneigés. Cela permet d’effectuer la capture de mouvement sans capteur, peu importe l’endroit, ouvrant la voie à la capture de mouvements sans encombre de n’importe quelle activité, peu importe l’objectif. Sans l’assistance d’outils de vision par ordinateur, la capture de mouvements serait limitée aux studios spécialisés munis de multiples caméras et d’acteurs qui portent des capteurs.

L’utilisation principale de la capture de formes humaines est l’enregistrement et la reconstruction de formes humaines en mouvement en 3D hautement détaillé. Cela est réalisé en utilisant des données de maillage, généralement des polygones de différentes tailles, qui peuvent représenter le corps humain en 3D et en estimer le volume. La vision par ordinateur a tellement évolué qu’il est maintenant possible de faire la capture de formes pour générer une silhouette humaine détaillée en 3D d’individus portant des vêtements amples et d’athlètes performant à haute vitesse. La création de silhouettes humaines réalistes est essentielle dans des applications comme l’essayage, qui permet d’essayer des vêtements virtuellement avant de les acheter. C’est aussi une fonctionnalité intéressante pour les expériences de réalité immersive, car elle permet de reproduire le corps de l’utilisateur dans l’environnement virtuel. Finalement, la capture de mouvements et de formes est largement utilisée par l’industrie du divertissement pour créer des personnages virtuels qui bougent de façon réaliste, ce qui ménage temps et efforts aux productions.

INTENTION

CAPTURER L’INTENTION

La capture d’intention implique la reconnaissance de gestes et d’activités à partir de vidéos et la prédiction de l’intention des acteurs humains. Bien qu’ils soient tous deux intentionnels, un geste est un mouvement biomécanique localisé, alors qu’une activité implique généralement un mouvement de tout le corps. Reconnaître les actions qui sont exécutées dans un contexte est essentiel pour déterminer les intentions probables des personnes concernées. Par exemple, le fait de saisir un verre peut conduire à le verser, à le boire ou à simplement le déplacer.

La reconnaissance des gestes et la prédiction de l’intention humaine sont essentielles au développement d’interactions plus sophistiquées entre l’homme et l’ordinateur. C’est cette capacité qui permet aux ordinateurs de prédire les actions ou les mouvements futurs des humains. Prenons le cas d’un robot situé dans une pièce remplie de gens. Sans la capacité d’évaluer ce que font les humains et de prévoir où ils vont, le robot ne peut pas entreprendre d’actions de peur de se mettre en travers de leur chemin.

La reconnaissance d’activités est le suivi dans le temps d’un individu qui effectue une série d’actions. Le modèle d’apprentissage automatique compare l’action en cours à l’ensemble des actions sur lesquelles il a été formé, ce qui lui permet de reconnaître les actions et d’évaluer les écarts de mouvement en les comparant à la trajectoire moyenne. Par exemple, le suivi des patients pendant la réadaptation en santé peut fournir une rétroaction sur la posture et les progrès.

L’interprétation précise des comportements complexes des humains permet aux machines de s’adapter en conséquence et d’interagir avec les humains, que ce soit pour améliorer automatiquement la fluidité des enregistrements, comme dans le cas de diffusions, ou pour créer des expériences de réalité augmentée dans lesquelles les humains peuvent interagir avec l’environnement.

La vision par ordinateur ouvre de nouvelles opportunités pour permettre à la collaboration des machines et des humains d’atteindre un nouveau niveau. Cela permet aux machines de voir et de comprendre les humains, permettant des interactions humain-machine significatives. Le futur de la vision par ordinateur en IA va rendre de telles interactions encore plus utiles, permettant aux humains de continuer à s’améliorer.

Voulez-vous en savoir plus?

N’hésitez pas à nous envoyer toutes vos questions.

Envoyer une question