Dans un monde où les interactions humaines avec les machines sont essentielles, l’IA physique évolue. Wetour Robotics propose une nouvelle perspective : améliorer les interfaces plutôt que de rendre les robots plus intelligents.
Au cours des trois dernières années, le domaine de l’IA physique a connu des avancées remarquables, en particulier du côté des robots. Des entreprises comme Boston Dynamics, Figure et Unitree ont développé des actionneurs, locomotions et dextérité à un niveau qui semblait inimaginable il y a dix ans. Parallèlement, Google DeepMind avec Gemini Robotics a redéfini les modèles de vision-langage-action dans des environnements non structurés. Cependant, malgré ces progrès matériels, l’interface entre les humains et les machines n’a pas évolué de manière significative depuis quarante ans, se limitant à trois modalités d’entrée : écrans, boutons et voix. Ces méthodes supposent que l’utilisateur peut s’arrêter, regarder et traduire son intention en commandes structurées, ce qui devient problématique dans des environnements réels tels que les éoliennes, les quais de chargement ou les trottoirs. En effet, lorsque les mains sont occupées, les yeux sont concentrés ou parler est impraticable, ces interfaces traditionnelles échouent silencieusement. Wetour Robotics propose une approche novatrice, connue sous le nom de Fusion d’Intentions Spatiales, qui traite simultanément trois flux d’informations centrées sur l’humain : la position spatiale, le contexte visuel et l’intention gestuelle. Cette méthode vise à intégrer le corps humain comme interface, rendant le participant humain tout aussi essentiel dans le système informatique que le robot. Wetour Robotics soutient que le véritable bond en avant de l’IA physique ne réside pas dans l’amélioration des capacités des robots, mais dans la reconnaissance de l’humain comme un nœud de premier ordre dans le réseau informatique. Les ingénieurs de Wetour Robotics soulignent que la simple reconnaissance de gestes ou de scènes n’est pas suffisante. L’information que l’humain porte sur son intention d’action est distribuée sur plusieurs canaux, notamment la position du corps, l’attention visuelle et la préparation musculaire. Observer chaque canal isolément entraîne une ambiguïté. Pour reconstruire l’intention de manière fiable, il est nécessaire de fusionner ces informations, offrant ainsi une participation fluide et intuitive de l’humain dans la boucle de calcul. En conclusion, l’avenir de l’IA physique pourrait bien reposer sur l’amélioration des interfaces, permettant aux travailleurs de communiquer plus efficacement avec les machines existantes, tout en intégrant leurs besoins dans des environnements complexes et exigeants.