Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM AND METHOD FOR ASSISTING WITH THE NAVIGATION OF A MOBILE SYSTEM
Document Type and Number:
WIPO Patent Application WO/2024/100349
Kind Code:
A1
Abstract:
The invention relates to a computer-implemented method for assisting with the navigation of a mobile system, which comprises: - obtaining (RGB) an optical image of a scene acquired by an embedded camera onboard the mobile system; - obtaining (LiDAR) 3D points of the scene acquired by an embedded rangefinder onboard the mobile system; - projecting, in 2D into the camera frame, 3D points and an uncertainty concerning each of the 3D points in order to provide a depth image and an uncertainty mask, respectively; - determining (CNN1) a semantic map of the scene (MS), a depth map of the scene (MD) and a confidence map (MT) of the depth map from the optical image, the depth image and the uncertainty mask; - determining (CNN2) a map of the traversability (CT) of the scene by the mobile system by merging the semantic map (MS), the depth map (MD) and the confidence map (MT) of the depth map.

More Like This:
Inventors:
MOUKARI MICHEL (FR)
BENAICHOUCHE AHMED NASREDDINNE (FR)
Application Number:
PCT/FR2023/051741
Publication Date:
May 16, 2024
Filing Date:
November 07, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SAFRAN (FR)
International Classes:
G01C21/00; G06N3/0464; G06N3/08; G06N20/00; G06T7/50
Domestic Patent References:
WO2019241022A12019-12-19
Foreign References:
EP3945349A12022-02-02
Other References:
GU SHUO ET AL: "3-D LiDAR + Monocular Camera: An Inverse-Depth-Induced Fusion Framework for Urban Road Detection", IEEE TRANSACTIONS ON INTELLIGENT VEHICLES, IEEE, vol. 3, no. 3, 1 September 2018 (2018-09-01), pages 351 - 360, XP011689287, ISSN: 2379-8858, [retrieved on 20180824], DOI: 10.1109/TIV.2018.2843170
CHEN LIANG ET AL: "Lidar-histogram for fast road and obstacle detection", 2017 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), IEEE, 29 May 2017 (2017-05-29), pages 1343 - 1348, XP033126901, DOI: 10.1109/ICRA.2017.7989159
Attorney, Agent or Firm:
REGIMBEAU (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé mis en œuvre par ordinateur d'aide à la navigation d'un système mobile, comprenant :

- l'obtention (RGB) d'une image optique d'une scène acquise par une caméra embarquée à bord du système mobile ;

- l'obtention (LiDAR) d'un nuage de points 3D de la scène acquis par un télémètre embarqué à bord du système mobile ;

- la projection, en 2D dans le repère de la caméra, des points 3D du nuage et d'une incertitude portant sur la mesure de chacun des points 3D du nuage pour fournir respectivement une image de profondeur et un masque d'incertitude de l'image de profondeur ;

- la détermination d'une carte sémantique de la scène (MS), d'une carte de profondeur de la scène (MD) et d'une carte de confiance (MT) de la carte de profondeur à partir de l'image optique, de l'image de profondeur et du masque d'incertitude de l'image de profondeur, cette détermination comprenant le traitement de l'image optique, de l'image de profondeur et du masque d'incertitude de l'image de profondeur par un premier réseau de neurones convolutif (CNN1) qui comprend une succession de couches convolutives, chaque couche convolutive comprenant un premier bloc de convolution (BIN, B1N+I) apte à estimer une carte d'attributs sémantiques (FMSN, FMSN+I), un deuxième bloc de convolution (B2N, B2N+I) apte à estimer une carte d'attributs de profondeur (FM DN, FM DN+I) et un troisième bloc de convolution (B3N, B3N+I) apte à estimer une carte d'attributs de confiance (FMTN, FMTN+I) ;

- la détermination d'une carte de traversabilité (CT) de la scène par le système mobile par fusion de la carte sémantique (MS), de la carte de profondeur (MD) et de la carte de confiance (MT) de la carte de profondeur.

2. Procédé selon la revendication 1, dans lequel le deuxième bloc de convolution (B2N+I) d'une couche convolutive de rang N+l (CN+I) dans la succession de couches convolutives est configuré pour : - calculer le produit de la carte d'attributs de confiance (FMTN) estimée par le troisième bloc de convolution (B3N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives avec la carte d'attributs de profondeur (FM DN) estimée par le deuxième bloc de convolution (B2N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives ;

- calculer un premier résultat de convolution par application d'un noyau de convolution audit produit ;

- calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ;

- calculer le ratio du premier et du deuxième résultat de corrélation.

3. Procédé selon la revendication 1, dans lequel le deuxième bloc de convolution (B2N+I) d'une couche convolutive de rang N+l (CN+I) dans la succession de couches convolutives est configuré pour :

- calculer le produit de la carte d'attributs de confiance (FMTN) estimée par le troisième bloc de convolution (B3N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives avec une carte de concaténation résultant de la concaténation de la carte d'attributs sémantiques (FMSN) estimée par le premier bloc de convolution (B1N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives et de la carte d'attributs de profondeur (FM DN) estimée par le deuxième bloc de convolution (B2N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives ;

- calculer un premier résultat de convolution par application d'un noyau de convolution audit produit ;

- calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ;

- calculer le ratio du premier et du deuxième résultat de corrélation. 4. Procédé selon l'une des revendications 2 et 3, dans lequel le deuxième bloc de convolution (B2N+I) de la couche convolutive de rang N+l (CN+I) dans la succession de couches convolutives est en outre configuré pour ajouter un biais (BS) au ratio du premier et du deuxième résultat de corrélation.

5. Procédé selon la revendication 1, dans lequel le premier bloc de convolution (B1N+I) d'une couche convolutive de rang N+l (CN+I) dans la succession de couches convolutives prend en entrée une carte de concaténation résultant de la concaténation de la carte d'attributs sémantiques (FMSN) estimée par le premier bloc de convolution (B1N) de la couche convolutive de rang N dans la succession de couches convolutives avec la carte d'attributs de profondeur (FM DN) estimée par le deuxième bloc de convolution (B2N) de la couche convolutive de rang N dans la succession de couches convolutives.

6. Procédé selon l'une des revendications 1 à 5, dans lequel la fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur comprend la détermination d'une carte de concaténation par concaténation de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur et le traitement de la carte de concaténation par un deuxième réseau de neurones convolutif (CNN2).

7. Produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé selon l'une des revendications 1 à 6.

8. Dispositif de cartographie de terrain destiné à être embarqué sur un système mobile, comprenant un processeur configuré pour mettre en œuvre les étapes du procédé selon l'une des revendications 1 à 6.

Description:
Système et procédé d'aide à la navigation d'un système mobile

DOMAINE TECHNIQUE

Le domaine de l'invention est celui de l'aide à la navigation d'un système mobile du type robot ou véhicule autonome en déplacement sur un terrain, et plus particulièrement celui de la génération d'une trajectoire navigable par le système mobile sur le terrain.

TECHNIQUE ANTÉRIEURE

Dans le domaine de la navigation de systèmes mobiles, on connaît des méthodes qui ont pour but de trouver la présence d'une route dans des images acquises par une caméra embarquée sur un système mobile. Ces méthodes utilisent des indices visuels comme les points de fuite, les textures ou encore le relief pour délimiter les contours d'une route sur une image, ou posent le problème directement comme un problème de segmentation de la route dans l'image. Cependant, ces méthodes ne s'intéressent pas aux chemins au sens le plus large du terme, qui peuvent notamment être des chemins hors-pistes non forcément goudronnés ni correctement délimités, et encore moins au thème plus général de la traversabilité correspondant à l'identification dans les images acquises de zones du terrain sur lesquelles le système mobile serait apte à se déplacer.

On trouve d'autre part des méthodes basées sur des modèles de réseaux de neurones qui identifient le type de sol sur lequel le véhicule évolue. Par exemple, le document WO 2019/241022 Al décrit une solution utilisant un réseau de neurones profond pré-entrainé pour réaliser la détection d'une voie navigable qui n'est pas nécessairement délimitée par des marquages au sol.

EXPOSÉ DE L'INVENTION

L'invention a pour objectif de proposer une solution de génération d'une trajectoire traversable pour un système mobile en déplacement sur un terrain qui soit à la fois fiable et performante.

A cet effet, l'invention propose un procédé mis en œuvre par ordinateur d'aide à la navigation d'un système mobile, comprenant : - l'obtention d'une image optique d'une scène acquise par une caméra embarquée à bord du système mobile ;

- l'obtention d'un nuage de points 3D de la scène acquis par un télémètre embarqué à bord du système mobile ;

- la projection, en 2D dans le repère de la caméra, des points 3D du nuage et d'une incertitude portant sur la mesure de chacun des points 3D du nuage pour fournir respectivement une image de profondeur et un masque d'incertitude de l'image de profondeur ;

- la détermination d'une carte sémantique de la scène, d'une carte de profondeur de la scène et d'une carte de confiance de la carte de profondeur à partir de l'image optique, de l'image de profondeur et du masque d'incertitude de l'image de profondeur ;

- la détermination d'une carte de traversabilité de la scène par le système mobile par fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur.

Certains aspects préférés mais non limitatifs de ce procédé sont les suivants :

- la détermination de la carte sémantique de la scène, de la carte de profondeur de la scène et de la carte de confiance de la carte de profondeur comprend le traitement de l'image optique, de l'image de profondeur et du masque d'incertitude de l'image de profondeur par un premier réseau de neurones convolutif qui comprend une succession de couches convolutives, chaque couche convolutive comprenant un premier bloc de convolution apte à estimer une carte d'attributs sémantiques, un deuxième bloc de convolution apte à estimer une carte d'attributs de profondeur et un troisième bloc de convolution apte à estimer une carte d'attributs de confiance ;

- le deuxième bloc de convolution d'une couche convolutive de rang N+l dans la succession de couches convolutives est configuré pour : o calculer le produit de la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives avec la carte d'attributs de profondeur estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ; o calculer un premier résultat de convolution par application d'un noyau de convolution audit produit ; o calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ; o calculer le ratio du premier et du deuxième résultat de corrélation ;

- le deuxième bloc de convolution d'une couche convolutive de rang N+l dans la succession de couches convolutives est configuré pour : o calculer le produit de la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives avec une carte de concaténation résultant de la concaténation de la carte d'attributs sémantiques estimée par le premier bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives et de la carte d'attributs de profondeur estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ; o calculer un premier résultat de convolution par application d'un noyau de convolution audit produit ; o calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ; o calculer le ratio du premier et du deuxième résultat de corrélation ;

- le deuxième bloc de convolution de la couche convolutive de rang N+l dans la succession de couches convolutives est en outre configuré pour ajouter un biais au ratio du premier et du deuxième résultat de corrélation ; - le premier bloc de convolution d'une couche convolutive de rang N+l dans la succession de couches convolutives prend en entrée une carte de concaténation résultant de la concaténation de la carte d'attributs sémantiques estimée par le premier bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives avec la carte d'attributs de profondeur estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;

- la fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur comprend la détermination d'une carte de concaténation par concaténation de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur et le traitement de la carte de concaténation par un deuxième réseau de neurones convolutif.

L'invention porte également sur un produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé selon l'invention. L'invention s'étend aussi à un dispositif de cartographie de terrain destiné à être embarqué sur un système mobile, comprenant un processeur configuré pour mettre en œuvre les étapes du procédé selon l'invention.

BRÈVE DESCRIPTION DES DESSINS

D'autres aspects, buts, avantages et caractéristiques de l'invention apparaîtront mieux à la lecture de la description détaillée suivante de formes de réalisation préférées de celle-ci, donnée à titre d'exemple non limitatif, et faite en référence aux dessins annexés sur lesquels :

- la figure 1 est un schéma illustrant un mode de réalisation possible d'un procédé selon l'invention ;

- la figure 2 représente les opérations réalisées par une couche convolutive d'un premier réseau de neurones convolutif pouvant être utilisé par l'invention ;

- la figure 3 représente plus particulièrement les opérations réalisées par le deuxième et le troisième bloc de convolution d'une couche convolutive d'un premier réseau de neurones convolutif pouvant être utilisé par l'invention. EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS

L'invention porte notamment sur un dispositif de cartographie de terrain destiné à être embarqué sur un système mobile, par exemple un système mobile terrestre type tout- terrain tel qu'un robot, un drone ou un véhicule autonome.

Ce dispositif comprend une unité d'estimation de traversabilité configurée pour générer une trajectoire traversable par le système mobile à partir d'un flux d'images provenant d'une caméra ainsi que des mesures de profondeur issues d'un télémètre.

La génération d'une trajectoire fiable nécessitant une perception de la géométrie et de la sémantique du terrain, l'unité d'estimation de traversabilité vient avantageusement réaliser la fusion d'une solution géométrique d'estimation de la 3D du terrain (sa profondeur en l'occurrence) avec une solution de segmentation sémantique du terrain. L'unité d'estimation de traversabilité vient en outre exploiter une carte de confiance associée à la fiabilité de la prédiction de la solution géométrique, ce qui permet d'améliorer grandement les performances.

L'unité d'estimation de traversabilité délivre une carte de traversabilité, par exemple une carte binaire dans laquelle chaque point du terrain imagé par la caméra est identifié comme étant traversable ou non par le système mobile ou encore une carte dans laquelle une probabilité de traversabilité est associée à chaque point du terrain.

L'unité d'estimation de traversabilité est configurée pour mettre en œuvre le procédé qui sera décrit ci-après en référence à la figure 1.

Ce procédé comprend l'obtention RGB d'une image optique d'une scène (en l'occurrence un terrain sur lequel se déplace le système mobile), acquise par une caméra embarquée à bord du système mobile. La caméra est par exemple une caméra monoculaire. Les images successivement acquises par la caméra sont typiquement des images RGB du terrain, assurant une fonctionnalité en lumière visible. Dans une variante de réalisation, un fonctionnement nocturne est assuré en exploitant une autre plage de longueur d'onde (infrarouge par exemple).

Le procédé comprend par ailleurs une étape LiDAR d'obtention d'un nuage de points 3D de la scène acquis par un télémètre embarqué à bord du système mobile. Le télémètre est par exemple un télémètre laser, tel qu'un LiDAR. Le procédé comprend ensuite une étape de projection, en 2D dans le repère de la caméra, des points 3D du nuage et d'une incertitude portant sur la mesure de chacun des points 3D du nuage pour fournir respectivement une image de profondeur et un masque d'incertitude de l'image de profondeur (i.e., une carte dans laquelle une incertitude portant sur la détermination de la profondeur est associée à chaque point du terrain).

Le télémètre fournit des mesures de profondeur éparses qui sont généralement densifiés artificiellement en encodant les pixels non observés. Par ailleurs, en utilisant la puissance (amplitude) du signal reçu par le télémètre, qui correspond par exemple à la quantité de lumière qui revient au capteur après un tir, il est possible de déduire une incertitude sur les mesures de profondeur. En effet, la quantité de lumière reçue en retour par le capteur est directement corrélée au matériau sur lequel elle est projetée et donne une information sur la fiabilité de la distance calculée en ce point.

Le procédé comprend ensuite une étape consistant à déterminer une carte sémantique MS de la scène, une carte de profondeur MD de la scène et une carte de confiance MT de la carte de profondeur à partir de l'image optique, de l'image de profondeur et du masque d'incertitude de l'image de profondeur. Cette étape est par exemple mise en œuvre par un premier réseau de neurones convolutif CNN1 convenablement pré-entrainé à cette fin.

Cette étape vient réaliser l'inférence simultanée de la 3D (la carte de profondeur) et de la sémantique de l'image (la carte sémantique). Il en découle une meilleure prédiction de ces deux modalités, et ce avec un temps de calcul minimisé. Par ailleurs, cette étape exploite une incertitude déterminée a priori à partir des données de télémétrie pour estimer une fiabilité (la carte de confiance) sur les prédictions.

Le procédé se poursuit avec une étape consistant à déterminer une carte de traversabilité CT de la scène par le système mobile par fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur. Cette étape est par exemple mise en œuvre par un deuxième réseau de neurones convolutif CNN2 convenablement pré-entrainé à cette fin. Cette étape tire partie des deux modalités (3D et sémantique) et les fusionne en utilisant la confiance comme pondération. En référence à la figure 2, le premier réseau de neurones convolutif CNN1 comprend une succession de couches convolutives CN, CN+I et chaque couche convolutive peut comprendre un premier bloc de convolution B1N, B1N+I apte à estimer une carte d'attributs sémantiques FMSN, FMSN+I, un deuxième bloc de convolution B2N, B2N+I apte à estimer une carte d'attributs de profondeur FM DN, FMÛN+i et un troisième bloc de convolution B3N, B3N+I apte à estimer une carte d'attributs de confiance FMTN, FMTN+I.

Dans une réalisation possible, le premier bloc de convolution B1N+I de la couche convolutive de rang N+l dans la succession de couches convolutives prend en entrée la carte d'attributs sémantiques FMSN estimée par le premier bloc de convolution B1N de la couche convolutive de rang N dans la succession de couches convolutives. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le premier bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée l'image optique.

Dans une réalisation alternative représentée sur la figure 2, le premier bloc de convolution B1N+I de la couche convolutive de rang N+l dans la succession de couches convolutives prend en entrée une carte de concaténation résultant de la concaténation, identifiée par la référence et sur la fifure 2, de la carte d'attributs sémantiques FMSN estimée par le premier bloc de convolution B1N de la couche convolutive de rang N dans la succession de couches convolutives et de la carte d'attributs de profondeur FM DN estimée par le deuxième bloc de convolution B2N de la couche convolutive de rang N. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le premier bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée la concaténation de l'image optique et de l'image de profondeur.

Dans cette réalisation alternative, le premier réseau de neurones convolutif comprend ainsi une première branche (la succession des premiers blocs de convolution) qui travaille sur l'estimation de la sémantique de la scène en tirant parti des informations optiques issues de la caméra mais aussi des informations de profondeur issues du télémètre. La segmentation sémantique s'en trouve améliorée.

Dans une réalisation possible, le deuxième bloc de convolution B2N+I de la couche convolutive de rang N+l dans la succession de couches convolutives prend en entrée la carte d'attributs de profondeur FM DN estimée par le deuxième bloc de convolution B2N de la couche convolutive de rang N dans la succession de couches convolutives et la carte d'attributs de confiance FMSN estimée par le troisième bloc de convolution B3N de la couche convolutive de rang N dans la succession de couches convolutives. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le deuxième bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée l'image de profondeur et le masque d'incertitude de la carte de profondeur.

Dans une réalisation alternative représentée sur la figure 2, le deuxième bloc de convolution B2N+I de la couche convolutive de rang N+l dans la succession de couches convolutives prend en entrée, d'une part la carte de concaténation résultant de la concaténation, identifiée par la référence et, de la carte d'attributs sémantiques FMSN estimée par le premier bloc de convolution B1N de la couche convolutive de rang N dans la succession de couches convolutives et de la carte d'attributs de profondeur FM DN estimée par le deuxième bloc de convolution B2N de la couche convolutive de rang N et, d'autre part, la carte d'attributs de confiance FMSN estimée par le troisième bloc de convolution B3N de la couche convolutive de rang N dans la succession de couches convolutives. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le deuxième bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée, d'une part, la concaténation de l'image optique et de l'image de profondeur et, d'autre part, le masque d'incertitude de la carte de profondeur.

Dans cette réalisation alternative, le premier réseau de neurones convolutif comprend ainsi une deuxième branche (la succession des deuxièmes blocs de convolution) qui travaille sur l'estimation de la profondeur de la scène en tirant parti des informations de profondeur issues du télémètre mais aussi des informations optiques issues de la caméra. L'estimation de profondeur sémantique s'en trouve améliorée.

Par ailleurs dans les deux réalisations précédemment évoquées, une incertitude a priori sur les mesures du télémètre est propagée tout au long de la succession des couches convolutives, ce qui permet d'obtenir une confiance sur la qualité et la fiabilité des prédictions en sortie.

La figure 3 représente une réalisation possible d'opérations mises en œuvre par le deuxième et le troisième bloc de convolution d'une couche convolutive du premier réseau de neurones convolutif. Sur cette figure 3, • correspond à une multiplication point par point, * à une convolution, / à une division et + à une addition. T(W) représente le noyau de la convolution.

On considère X un tenseur représentant un signal d'entrée, C une fonction scalaire positive représentant la confiance (ou certitude) pour chaque valeur de X, B un tenseur représentant la base d'un opérateur de filtrage et B* son conjugué et A une fonction scalaire positive représentant l'applicabilité pour chaque valeur de B. La convolution normalisée peut être écrite comme suit : où

Dans l'équation (1), N est le facteur de normalisation. Par exemple, en considérant le cas où la confiance C est constante et B=l, l'équation (1) devient : où les paramètres de convolution A' sont la version normalisée de A.

Dans le cadre de l'invention, l'apprentissage du premier réseau de neurones est réalisé de manière à déterminer les paramètres correspondant au produit AB pour une tâche de génération de la carte de profondeur à partir de données d'entrée éparses associées à une confiance a priori. Plus particulièrement, la base B est fixée pour être égale à un tenseur de 1 et la fonction d'applicabilité A est apprise lors de la phase d'apprentissage du réseau.

En référence à la figure 3, la fonction d'applicabilité A correspond aux paramètres de convolution. Parce que l'applicabilité doit rester une fonction positive, la positivité des poids de la convolution doit être garantie. Ainsi, une fonction softplus T(. ) peut être appliquées sur les poids W de la convolution. Si l'on se base sur l'équation (1), la propagation de profondeur devient :

Ainsi, le deuxième bloc de convolution B2N+I d'une couche convolutive de rang N+l dans la succession de couches convolutives peut être configuré pour :

- calculer le produit (au moyen de la multiplication point par point •) de la carte d'attributs de confiance FMTN estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives avec une carte de concaténation résultant de la concaténation de la carte d'attributs sémantiques FMSN estimée par le premier bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives et de la carte d'attributs de profondeur FM DN estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;

- calculer un premier résultat de convolution par application du noyau de convolution r(fy) audit produit ;

- calculer un deuxième résultat de convolution par application du noyau de convolution r(V/) à la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ;

- calculer le ratio, au moyen de la division /, du premier et du deuxième résultat de corrélation.

Comme on l'a vu précédemment, dans une autre réalisation possible, les deuxièmes blocs de convolution prennent en entrée les seuls attributs de profondeur de profondeur FM DN et non le résultat de leur concaténation avec les attributs sémantiques FMSN. Cette autre réalisation possible est illustrée sur la figure 3 et selon celle-ci le deuxième bloc de convolution B2N+I d'une couche convolutive de rang N+l dans la succession de couches convolutives est configuré pour :

- calculer le produit (au moyen de la multiplication point par point •) de la carte d'attributs de confiance FMTN estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives avec la carte d'attributs de profondeur FM DN estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;

- calculer un premier résultat de convolution par application du noyau de convolution r(I/IZ) audit produit ;

- calculer un deuxième résultat de convolution par application du noyau de convolution r(V/) à la carte d'attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ; calculer le ratio, au moyen de la division /, du premier et du deuxième résultat de corrélation.

Par ailleurs, dans l'un ou l'autre des réalisations mentionnées ci-dessus, et comme est également représenté sur la figure 3, chaque deuxième bloc de convolution peut en outre être configuré pour ajouter un terme de biais BS au résultat du ratio du premier et du deuxième résultat de corrélation. Ce terme de biais permet d'augmenter la capacité du premier réseau de neurones.

La figure 3 illustre par ailleurs un troisième bloc de convolution B3N+I. Ce bloc réalise une convolution conventionnelle pour la propagation de la confiance. Ce bloc peut inclure une fonction d'activation ReLU (Rectifier Linear Unit désignant une unité linéaire rectifiée) pour garantir la positivité et conserver la dimension entre les cartes d'attributs de confiance et les cartes d'attributs de profondeur.

De la même manière, les premiers blocs de convolution qui viennent déterminer les cartes d'attributs sémantiques peuvent prendre la forme de blocs de convolution conventionnels.

Une réalisation possible de l'apprentissage du premier réseau de neurones convolutif exploite la fonction de coût suivante pour apprendre à régresser la profondeur et à modéliser l'inverse de l'incertitude (i.e., la confiance). Soit S un jeu de coordonnées où la valeur de profondeur est renseignée dans la vérité terrain, log la log-confiance prédite, la vérité terrain de profondeur et la profondeur prédite. La fonction de coût peut être définie comme suit :

Dans l'équation (8), Â est un hyperparamètre, L p est l'erreur de régression définie par l'équation (6) et Pen est un terme de pénalisation définie par l'équation (7) qui permet prévenir le cas où les confiances en sortie sont égales à 0. Dans cette équation (8), le terme de gauche est le produit de l'erreur de régression par la confiance. La p — norm est à remplacer par l'erreur de régression souhaitée.

A travers cette multiplication, la confiance agit comme une pondération sur l'erreur de régression et impacte donc la vitesse d'apprentissage, à la fois globalement et relativement. D'abord globalement, parce que lorsque A décroit, la valeur de la confiance moyenne décroit également donc la vitesse d'apprentissage diminue globalement. Et relativement parce que plus l'entropie de la distribution de la confiance est grande, plus l'impact sur la vitesse d'apprentissage va être varié en fonction des localisations spatiales. Le choix de A contrôle donc la confiance moyenne et l'entropie de la distribution, impactant ainsi l'apprentissage.

En pratique, une prédiction de la log confiance peut être réalisée pour améliorer la stabilité de l'apprentissage. Aussi, afin de maintenir les sorties de confiance dans l'intervalle [0, 1] pour faciliter l'interprétation des résultats, une activation (-1) x ReLU peut être réalisée sur la dernière couche pour obtenir une log confiance négative, ce qui permet de produire une sortie finale de confiance dans l'intervalle [0, 1].

Le premier réseau de neurones convolutif fournit en sortie une carte sémantique MS, une carte de profondeur MD et une carte de confiance MT de la carte de profondeur. La détermination de la carte de traversabilité CT de la scène par le système mobile peut comprendre la détermination d'une carte de concaténation par concaténation de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur et le traitement de la carte de concaténation par le deuxième réseau de neurones convolutif CNN2. Ce deuxième réseau peut être un réseau convolutif d'architecture conventionnelle.