Introduction

La vision stéréoscopique est une caractéristique fondamentale de l'être humain et de bien d'autres formes de vie sur terre. Pourtant, peu de gens s'attardent à comprendre le fonctionnement de cette faculté si merveilleuse. Ce texte vise justement à amener le lecteur à mieux comprendre le fonctionnement sous-tendu à cette faculté de pouvoir évaluer la profondeur des choses qui nous entourent dans notre quotidien.

Historiquement, la stéréoscopie a joué un rôle de premier plan dans l'évolution de l'homme. De l'homme préhistorique, où sa survie dépendait de son aptitude à percevoir la distance le séparant d'un prédateur, à l'homme moderne utilisant cette propriété de son sens de la vision pour développer des outils lui permettant une maîtrise accrue de son environnement.

Nous allons dans un premier temps nous attarder sur le fonctionnement physiologique de la vision stéréoscopique chez l'humain. Par la suite, une analyse un peu plus mathématique sera utilisée pour approfondir les divers facteurs qui font que la vision stéréoscopique est viable.

Notions de base

Physionomie humaine

Chez l'humain, la vision stéréoscopique a toujours été une nécessité. Malgré des siècles d'évolution, l'homme a toujours conservé cette faculté de pouvoir estimer les distances à l'aide de son sens de la vision. Ceci démontre bien l'importance de cette caractéristique physiologique.

Pour être en mesure de pouvoir évaluer les distances, le cerveau doit procéder à une analyse très complexe d'une quantité d'informations considérable. Les systèmes informatiques actuels de traitement de l'image ne permettent généralement pas une telle analyse en temps réel. Afin de mieux évaluer l'importance de la quantité d'information à traiter, regardons de plus près le point de départ de ce système de traitement de l'image biologique. Ce point c'est l'oeil humain, capable de produire un flux d'information instantané capable de surcharger les systèmes informatiques de l'ensemble de la planète en une fraction de seconde. En fait, le nerf optique est considéré comme étant le canal de communication le plus dense connu par l'homme à l'échelle de l'univers tout entier !

En plus de cette masse d'informations que chaque oeil envoie au cerveau, ce dernier doit effectuer un traitement d'image permettant la corrélation des points communs aux deux images reçues. Ceci nous semble une tâche triviale lorsque que nous regardons deux images similaires d'une même scène. Pourtant, notre cerveau doit se donner beaucoup de mal pour nous fournir l'interprétation qui nous semble évidente. Afin de se convaincre de la difficulté inhérente de cette analyse, il est proposé au lecteur d'essayer d'imaginer un algorithme mathématique itératif qui permettrait de faire une telle analyse en temps réel.

Maintenant que nous avons une meilleure prise de conscience de la complexité rattachée à cette tâche, regardons comment l'information visuelle rétinienne est acheminée vers le centre de traitement, le cerveau. La figure suivante illustre de quelle manière les deux yeux interfaces avec celui-ci.

Figure 1

Illustration inspirée du livre "Virtual Reality ExCursions with programs in C "

Au contraire de ce que dit la croyance populaire, l'analyse de la stéréoscopie n'est pas répartie de façon à ce que chaque oeil envoie son information à l'hémisphère lui étant opposée. En réalité, une portion d'image de chaque oeil est acheminée à chaque hémisphère. Donc, ce n'est pas l'image entière d'un oeil qui va vers l'hémisphère opposé, mais plutôt le champ de vision opposé à l'hémisphère en question. L'illustration ci-haut montre bien ce fait. On remarque que les rayons lumineux provenant d'un côté du champ de vision, par rapport au centre du cerveau, sont détectés par les deux yeux qui relaient cette information à l'hémisphère opposée.

De cette façon, l'analyse corrélative est possible. Étant donné que les deux hémisphères du cerveau sont à toutes fins pratiques isolées l'une de l'autre, il ne serait pas possible de faire une analyse stéréoscopique si chaque hémisphère ne recevait qu'une information monoscopique. De plus, advenant le mauvais fonctionnement d'un des hémisphères, le candidat serait automatiquement stéréo-déficient (incapable de voir les profondeurs). Ce facteur est un élément de survie essentiel. Environs 2% de la population (excluant les non voyant) sont stéréo-déficent. La cause de ceci peut être de nature neuronale (mauvais fonctionnement du cerveau en ce qui concerne l'analyse stéréoscopique) ou encore de nature optique (mauvaise acuité visuelle de un des deux yeux).

Concepts trigonométriques

Après cette brève étude de notre physionomie, il nous faut maintenant analyser la vision stéréoscopique sous un autre angle, celui de nature plus mathématique. Qu'est-ce qui fait que certains objets nous apparaissent plus près de nous que d'autres? L'observation du monde qui nous entoure est une des façons la plus appropriée pour répondre à une telle question.

Tout le monde à un jour remarqué que les yeux d'une personne regardant un objet proche aura tendance à croiser ses yeux l'un vers l'autre. À l'autre opposé, une personne fixant une distance supérieure à quelques centaines de pieds aura ses deux yeux parfaitement centrés. C'est ce qu'on appel l'angle de convergence. On peut illustrer ce concept comme suit:

Figure 2

La figure ci-haut illustre deux cas différents de convergence. Lorsque l'observateur fixe son regard sur le plan A, ses yeux adopteront un angle de convergence thêta 1. Par contre, lorsque le plan B est fixé, l'angle de convergence sera plus prononcé, soit thêta 2. Le cerveau ce sert principalement de cette information de convergence pour effectuer son analyse stéréoscopique. Il obtient l'information de l'angle thêta par le biais des influx nerveux provenant des nerfs dans les tissus musculaires ayant pour rôle d'orienter l'oeil dans la direction voulue.

Cette information est utilisée à plusieurs fins. Elle sert en premier lieu à dicter au cerveau quel est l'ajustement relatif de position entre les deux images lui étant fournis. Oui, car la simple observation de deux images l'une à côté de l'autre ne permet pas de rapidement repérer les points communs de ces deux images. En fait, comme nous le verrons plus tard, c'est souvent exactement le contraire qui est mis en application dans la plupart des casques de réalité virtuelle. En effet, dans tout casque HMD, la paire d'images est présentée à une distance fixe appelée plan image. Or, cette distance n'aura pas nécessairement de lien avec la distance où doit être vu l'objet selon la corrélation stéréoscopique.

En second lieu, l'angle de convergence de l'oeil permet au cerveau de déterminer quel doit être l'accommodation des yeux. L'accommodation représente l'action de changer la distance focale de l'oeil en modifiant la tension musculaire appliquée sur le cristallin. Ce dernier étant une lentille constituée de tissus biologiques étant relativement déformable. Donc, l'accommodation consiste à modifier la courbure du cristallin.

Pour être en mesure de recréer la vision binoculaire (stéréoscopique) par des moyens artificiels, il est nécessaire de toujours garder les observations précédentes à l'esprit. Comment peut-on générer deux images qui auront une apparence volumique? La réponse réside en partie dans la figure 2. Soit une scène réelle. Par exemple, une boite se situant à deux mètres d'un observateur. Le plan image où seront situés les deux images stéréoscopiques est à 1 mètre de l'observateur. Quelle sera l'apparence des deux images recréant la scène et quelle doit être la séparation entre les deux en millimètres?

Premièrement, il doit y avoir une rotation entre les deux images. Cette rotation dépend évidemment de la distance inter-pupille (anglais: IPD ) de l'observateur et la distance entre celui-ci et l'objet. Deuxièmement, les deux images doivent être placées de façon à suivre le chemin de vision de chaque oeil. Donc, plus le plan image est proche de l'observateur, plus la séparation tend vers approximativement 69 mm. Pour ajuster la séparation, peu importe le point de référence sur l'image, du moment que le point correspondant est utilisé sur l'autre image. Ici, le centre du cube est utilisé arbitrairement.

Figure 3

Calculs:

thêta = tan -1 (0.0345 mètre/2 mètres) = 0.988 degrés

angle entre les deux images = 2 x 0.988 degrés = 1.98 degrés

dx = tan (0.988 degrés) x 1 mètre = 17.2 millimètres

séparation = 2 * dx = 34.5 mm (note: la séparation est toujours comprise entre 0 et la distance inter-pupille, environ 69 mm pour la plupart des gens)

Il est à noter que la représentation oeil gauche/droit en bas de la figure 3 ne représente pas les valeurs numériques ci-haut calculées. Elle ne sert qu'à donner une idée de l'apparence visuelle perçue.

Stress biologique causé par la vision stéréoscopique

À ce stade ci, le lecteur a sûrement pris conscience de l'importance de respecter le fonctionnement du corps humain face à la génération artificielle d'images stéréoscopiques. Ce qui est important à retenir c'est qu'en aucun cas il n'est possible de complètement recréer les conditions de vision binoculaire équivalente aux scènes réelles qui nous entourent. Le problème est, comme déjà mentionné, que le seul moyen actuel pour recréer une vision stéréoscopique d'une scène consiste à disposer deux images comportants de légères disparités à une distance fixe appelée plan image devant les yeux de l'observateur. Ces images étant à deux dimensions implique que l'observateur sera forcé à adopter une accommodation donnée fixe. Ce niveau d'accommodation étant déterminé par la distance physique entre les yeux de celui-ci et le plan image comme tel.

Comme nous l'avons déjà vu, il est possible de faire apparaître un objet virtuel à une distance dictée par la géométrie du système. Donc, ceci implique que nous sommes en mesure de faire apparaître un objet à une distance de 10 mètres devant l'observateur alors qu'il fixe une paire d'images à deux dimensions qui sont situées à seulement 10 centimètres de celui-ci. Ce constat ne semble pas causer de problème en soit. Faux. Il y aura un conflit plus ou moins important entre diverses informations acheminées au cerveau. Ce conflit est l'indice fondamental qu'il y aura un problème lors de l'utilisation du système.

Regardons le problème de plus près. L'observateur fixe une scène à une distance A par l'entremise d'images stéréoscopiques placées à une distance B. Utilisez la figure 4 qui suit comme référence à ce sujet. Comme nous l'avons déjà vu, le cerveau commence par ajuster la convergence de manière à faire concorder les points communs des deux images fournies par les yeux. Par la suite, il envoi aux muscles du cristallin un influx pour que l'accommodation (le focal de l'oeil) soit en concordance avec l'information de convergence. Prendre note qu'il est plutôt difficile de dire à ce point si la convergence précède ou suit l'accommodation. Ces deux ajustements sont fait sans ordre défini dans le temps. Donc l'observateur adopte une accommodation lui permettant de bien voir à 10 mètres. Il voit donc une image floue. Le cerveau ne comprend pas la nature de ce conflit. Il tente donc de rectifier la situation en modifiant la tension musculaire des muscles autour du cristallin pour obtenir une image plus nette. Plus l'effort de compensation exigé sera grand, plus le stress biologique sera prononcé. De ce fait même, il y aura apparition de symptômes comme une mauvaise accommodation temporaire du candidat même une demi-heure après avoir arrêté la stimulation visuelle erronée.

Figure 4

Il faut donc se donner des moyens d'évaluer dans quelle mesure la génération artificielle d'images stéréoscopiques est viable. L'objectif ici sera de minimiser l'ampleur du conflit précédemment mentionné. Comme l'accommodation est contrôlée par la convergence oculaire, il nous faut déterminer une zone où la correction d'accommodation est inférieure à une certaine limite.

On a la situation suivante:

Figure 5

Soit le graphe suivant donnant l'angle de convergence requise pour une distance de fixation donnée:

Figure 6

Le graphique de la figure 6 contient énormément d'informations. Il permet de visualiser l'effort de convergence en fonction de la distance de fixation. L'angle de convergence est donné pour un oeil par rapport à un axe parallèle tendant vers l'infini.

Tentative d'explication: Comme il semble qu'il y ait une relation directe entre l'angle de convergence et l'accommodation du cristallin, on peut à toutes fins pratiques dire qu'il existe une relation de proportionnalité directe entre ces deux facteurs.

Donc, on peut dire que le stress maximal des muscles contrôlant l'accommodation cristalline est atteint lorsque la distance de fixation est d' environs 10 cm. De même, l'effort musculaire sera nul pour une distance de fixation infinie.

Selon le premier postulat, nous pouvons remplacer la variable accommodation par la variable convergence. Donc, selon la figure 6, une convergence de 20 degrés équivaut à une accommodation de 10 cm. Ce point représente l'effort musculaire de 100% en considérant le deuxième postulat. Ce qui nous donne la figure 7.

Figure 7

Il ressort de la figure 7 que sur une plage d'utilisation partant de 1 mètre jusqu'à l'infini l'effort musculaire sur le système de vision humain reste inférieur à 10%. Donc, dans cette zone, il n'y aura pas de problèmes majeurs rencontrés lors d'une exposition prolongée. Par contre, l'effort musculaire augmente très rapidement passé ce seuil de 1 mètre. Nous commençons donc à entrevoir quelle sera la zone viable d'utilisation en ce qui concerne la génération de scènes stéréoscopiques.

Poussons l'analyse un peu plus loins. Dans la réalité, les objets se trouvent toujours à la distance focale où ils sont perçus en ce qui a trait à la convergence. Par contre, dans le cas d'un système de visualisation stéréoscopique artificiel, tous les objets présentés apparaissent à la même distance, celle du plan image. Donc, contrairement au cas réel, la stéréoscopie artificielle fait en sorte qu'il y a conflit entre la convergence et l'accommodation nécessaire au visionnement d'un objet donné, et ce, dans le cas où la distance de l'objet virtuel est différente de la distance du plan image.

Le premier graphique représente l'écart entre l'effort d'accommodation réel et celui dicté par la convergence de la paire d'images stéréoscopique dans le cas où le plan image est situé à l'infini.

Figure 8

Ici, on remarque que la courbe obtenue est identique à celle de la figure 7. Ce résultat est normal. On peut donc en conclure que, pour la stéréoscopie artificelle, l'effort d'accomodation est en fait un conflit d'accommodation dans le cas présent. C'est à dire, la différence entre l'effort qui serait requis dans une situation réel et celle exigée par l'information de convergence transmit au cerveau.

Le deuxième graphique représente l'écart entre l'effort d'accommodation réel et celui dicté par la convergence de la paire d'images stéréoscopique dans le cas où le plan image est situé à 1 mètre.

Figure 9

Ici, on constate que le conflit d'accommodation ne correspond pas à l'effort d'accommodation comme tel. Voici comment on peut interpréter le graphique ci-haut. Un des points d'intérêts du graphe est celui où la distance est de 1 mètre. En ce point, l'effort d'accommodation est de 10% comme on pouvait s'y attendre. Par contre, le conflit d'accommodation est nul car l'information de convergence correspond à la distance du plan image.

Si on considère le conflit d'accommodation et l'accommodation elle-même comme étant de mêmes natures ( les effets physiologiques sur l'humain sont identiques dans les deux cas), on peut poser 10% comme étant la limite à ne pas dépasser. D'après le dernier graphe, ceci nous permet d'afficher des objets virtuels de 0.5 mètres à l'infini tout en respectant les contraintes physiologiques humaines.

Bref, ce point d'opération nous a permis un gain important sur la plage dynamique des distances admissibles des objets virtuels. Par contre, le conflit est présent sur une plage accrue (de 10m à l'infinie) mais beaucoup moindre de 1 à 0.5 mètres.

On peut en conclure que le plan image à 1 mètre est idéal dans les cas où les objets virtuels apparaîtront souvent entre 0.5 et 5 mètres. Par contre, le plan image à l'infini constitue un bon point de fonctionnement dans des applications où les objets virtuels apparaissent souvent de 1 mètre à l'infinie.

Pour compliquer les choses d'avantages, il faut noter que l'oeil, étant un système optique, possède une caractéristique fondamentale de ceux-ci. En effet, un photographe expérimenté sait exploiter ce que l'on appel la profondeur de champ. La profondeur de champ est liée à l'ouverture numérique et à la distance focale du système optique. L'effet perceptible de ce phénomène est de pouvoir voir de façon nette des parties d'une scène qui ne sont pas à une distance correspondant à la distance focale du système optique (le cristallin et l'ensemble des fluides contenus à l'intérieur de l'oeil par exemple). Pour une distance focale donnée, le diamètre d'ouverture de la pupille de l'oeil détermine qu'elle est la tolérance d'accommodation par rapport à la distance de fixation centrale. La profondeur de champ correspond en quelques sortes à la mesure d'erreur sur une valeur donnée. Par exemple, pour une accommodation à 1 mètre, la profondeur de champ fait en sorte que l'image sur le fond de la rétine sera nette de 0.8m à 1.4m lorsque la luminosité ambiante est telle que la pupille de l'observateur a un diamètre de 4 mm.

Cette notion de profondeur de champ est très importante. Elle nous permet effectivement de diminuer l'effet de floue perçu lorsqu'il y a conflit entre la distance du plan image et celle où l'objet virtuel apparaît. Ceci implique qu'il est possible de faire en sorte que des objets en avant ou en arrière du plan image physique apparaîtront de façon claire si l'image est suffisamment lumineuse pour forcer la fermeture de la pupille.