Par Jérôme Derozard, consultant et entrepreneur. Billet invité
Facebook organisait cette semaine sa conférence annuelle dédiée aux développeurs, F8, avec sa fameuse « keynote » d’introduction présentée par Mark Zuckerberg. Très à l’aise en public, blaguant aussi bien sur la bataille des « hashtags » avec le film Fast & Furious que sur la longueur de sa lettre annuelle, le PDG de Facebook n’a pu esquiver les nombreuses polémiques nées de la diffusion de contenus faux, voire criminels sur le réseau social. Il s’est engagé à œuvrer à rapprocher les communautés et à mieux policer sa plateforme – sans doute pour éviter que les gouvernements ne s’en chargent à sa place.
La conférence, diffusée pour la première fois sur Facebook Live Video, a également vu Mark Zuckerberg revoir sa roadmap à 10 ans pour mieux réagir à la « menace Snapchat ». Le PDG continue son assaut commencé avec le lancement d’Instagram Stories en Août dernier et plus récemment par l’intégration de fonctionnalités équivalentes à Snapchat dans Messenger et Facebook.
Autre changement de stratégie : pour mieux lutter contre son concurrent Snap. Inc, introduit en Bourse le mois dernier et autoproclamé « Camera Company », Facebook va faire de l’appareil photo (des smartphones) sa nouvelle « plateforme » et de la réalité augmentée sa nouvelle priorité technologique. Le réseau social invite les centaines de milliers de développeurs partenaires à créer des cadres, effets et autres jeux en réalité augmentée sur sa nouvelle plateforme « Camera Effects » pour rattraper Snapchat.
Celui-ci avait lancé mardi de nouveaux effets « lentilles Nouveau Monde » permettant d’ajouter des effets en arrière-plan d’une photo ou vidéo. Mais à la différence de Facebook il ne propose aucune API ouverte ou SDK (software development kit) public, préférant développer lui-même les filtres et autres effets de réalité augmentée, et bannit même explicitement depuis 2014 le développement d’applications ou plugins sur sa plateforme.
A contrario Facebook met à disposition tout son savoir-faire en termes d’intelligence artificielle pour simplifier le travail des développeurs tiers, avec des outils permettant d’analyser une photo ou vidéo, en identifier le contenu, et d’insérer des objets ou effets numériques réalistes.
Parmi les possibilités offertes par la nouvelle plateforme Camera Effects : positionner des objets 3D de façon précise sur une photo ou vidéo grâce à la « localisation et cartographie simultané » ; numériser une photo pour en créer une version en 3 dimensions dans laquelle l’utilisateur peut naviguer, ou encore identifier un objet ou une personne en temps réel pour surimposer des informations contextuelles.
Pour créer des effets exploitant ces nombreuses possibilités, Facebook propose un nouveau logiciel nommé « AR Studio » en bêta privé ; il permet de créer des masques, filtres et autres effets de réalité augmentée dynamiques puis de les distribuer sur Facebook. Un autre outil plus simple nommé « Frame Studio » est lui disponible immédiatement pour n’importe quel utilisateur ou administrateur de page et permet de créer des filtres statiques et les proposer à ses amis ou ses fans.
Le directeur technique de Facebook, Mike Schroepfer, a rappelé que ces nouvelles fonctionnalités étaient rendues possibles par les avancées récentes dans le domaine de l’intelligence artificielle, y compris sur des matériels limités comme les smartphones. Depuis l’invention des réseaux neuronaux convolutifs dans les années 1990, le traitement de l’image a connu de nets progrès ces dernières années ; par exemple l’effet permettant de transférer automatiquement le « style » d’une photo sur une autre, conçu en 2015 avec une performance d’une image par seconde sur ordinateur, est maintenant possible sur un smartphone à 30 images par seconde.
Outre le traitement de l’image, les progrès de l’IA concernent d’autres domaines comme la compréhension de l’environnement ou l’analyse et l’apprentissage de la langue. Les algorithmes développés par les équipes R&D de Facebook sont par exemple capables d’analyser l’image et le son d’une vidéo pour comprendre le sens d’une scène et en offrir une retranscription et une traduction en simultané.
Appliquées à l’ensemble des vidéos diffusées sur la plateforme Facebook, ces techniques permettront demain de mieux catégoriser les vidéos diffusées, mais aussi de mieux les contrôler - et les monétiser.
Facebook met aussi à disposition de la communauté certains de ses outils IA en open-source, comme Caffe2, un environnement de machine learning utilisable aussi bien dans un data center que sur une application mobile. Un des exemples d’application de Caffe2 est la possibilité de détecter l’arrière-plan d’une photo prise en « mode selfie » et de le flouter pour mieux faire ressortir le visage du sujet, et ce sans nécessiter l’intégration d’une deuxième caméra comme sur l’iPhone 7 Plus.
C’est d’ailleurs là le défi principal de Facebook avec sa nouvelle plateforme de réalité augmentée : démontrer son intérêt face aux plateformes intégrant matériel et logiciel de ses concurrents Apple (avec l’iPhone) et Google (avec Tango) capables d’exploiter au mieux les capteurs intégrés aux derniers smartphones.
Une solution pour Facebook aurait été de se lancer lui aussi sur le marché des lunettes de réalité augmentée afin de disposer de sa propre plateforme matérielle. Mark Zuckerberg a cependant choisi de laisser Microsoft, Cast Labs ou Magic Leap le soin de « défricher » ce marché. Il promet cependant qu’à terme les applications de réalité augmentée développées sur sa plateforme pourront être intégrées à des lunettes, l’un de ses exemples favoris étant la possibilité de remplacer demain le poste de télévision en une simple application d'AR à 1$...
Pourquoi ne pas se lancer immédiatement sur ce marché ? Pour Michael Abrash, scientifique en chef d’Oculus, les lunettes « réalité augmentée complète » permettront à terme de passer de l’ère de l’informatique personnelle à l’ère de l’informatique virtuelle. Cependant il faut encore compter 5 à 10 ans avant de voir les premiers produits grand public apparaitre compte tenu des nombreux problèmes à résoudre, dont le fait de pouvoir porter ces lunettes en permanence sans risque de rejet physique ou social.
Ces lunettes de « full AR » devront posséder plusieurs caractéristiques essentielles : pouvoir intégrer monde réel et virtuel aussi bien dans leurs dimensions visuelles que sonores, être actives en permanence, être capables de comprendre le monde qui les entoure et de filtrer les données à remonter aux utilisateurs pour éviter la surcharge informationnelle.
Si les lunettes grand public sont encore loin, à court terme il sera plus simple d’utiliser les technologies de réalité augmentée pour « numériser le réel » dans un casque de réalité virtuelle. La VR n’était d’ailleurs pas absente à la conférence F8, avec notamment la présentation du premier produit de « réalité virtuelle sociale », Facebook Spaces. Disponible sur Oculus Rift en bêta, cette application permet de créer un espace de discussion virtuel et d’y inviter jusqu’à 3 personnes.
Facebook Spaces propose un studio de création d’avatar qui analyse les photos postées sur le réseau social pour suggérer un avatar. Une fois dans l’espace de discussion, les utilisateurs peuvent explorer à plusieurs des photos et vidéos à 360°, partager des contenus comme de la musique ou une vidéo, prendre un « selfie » en réalité virtuelle ou recevoir des appels vidéo depuis Messenger.
Dans le domaine de la réalité virtuelle Facebook se positionne encore aujourd’hui comme le principal investisseur du secteur, couvrant l’ensemble du secteur depuis le matériel jusqu’au logiciel en passant par l’infrastructure, des caméras jusqu’aux casques, mobiles ou sédentaires. Dans le domaine des caméras, Facebook a dévoilé deux nouveaux prototypes open-source capables de filmer à 360° et en 3D. Il devient ainsi possible de produire des films en relief, dans lesquels les utilisateurs peuvent se déplacer avec six degrés de liberté pour observer l’action sous plusieurs angles.
Une fois les vidéos produites, encore faut-il pouvoir les diffuser à l’utilisateur. Pour alléger le volume de données à transmettre Facebook a mis au point un algorithme capable de prédire les zones de la vidéo qui seront les plus visionnées de manière à améliorer la qualité de ces zones aux dépens de zones moins regardées.
Pour assurer la diffusion des vidéos à 360° il est également nécessaire d’améliorer la bande passante disponible sur les réseaux mobiles tout en réduisant le coût des données. Pour cela Facebook collabore avec des opérateurs mobiles au sein d’« OpenCellular » afin de concevoir des équipements et logiciels réseaux open source. Pour améliorer les débits en ville, Facebook a également lancé un réseau pilote à San José utilisant Terragraph, une sorte « fibre sans fil » permettant de raccorder les immeubles en très haut débit sans avoir à installer de nouveaux câbles.
Autre plateforme clé pour Facebook : Messenger, qui avait accueilli ses premiers bots lors du dernier F8. Depuis plus de 100.000 « bots » ont été créés par autant de développeurs et 2 milliards de messages échangés entre entreprises et utilisateurs via Messenger.
Pour aider les 1,2 milliards d’utilisateurs à trouver le « bon » bot, Facebook va lancer son propre « app store » accessible depuis un nouvel onglet de l’application. Il permettra de retrouver les différents bots classés par genre et mis en avant en utilisant des algorithmes secrets - et sans doute en fonction des intérêts commerciaux de la société.
Autre nouveauté sur Messenger, les « chat extensions » permettent à plusieurs utilisateurs d’utiliser un bot dans une conversation, par exemple pour commander un repas, jouer ou écouter de la musique.
Enfin certaines des fonctionnalités de l’assistant personnel « M », disponible actuellement uniquement aux Etats-Unis, vont être intégrées directement dans Messenger. L’application pourra ainsi suggérer des actions ou des bots à utiliser en fonction du contenu de la conversation, une autre façon de faire découvrir des bots et de monétiser un jour la plateforme.
Mais pour communiquer avec ses amis sur Messenger il est encore nécessaire d’utiliser le clavier de son smartphone, au risque de se couper de son entourage immédiat, une limitation que souhaite supprimer Regina Dugan, la responsable du « Building 8 » et transfuge de chez Google en charge des développements matériels.
Si l’interface vocale (comme Siri ou Alexa) est une première étape pour résoudre cette limitation, elle n’est pas suffisante pour mettre en place un véritable dialogue entre l’ordinateur et l’utilisateur compte tenu de la bande passante trop limitée offerte par la voix. Facebook ne compte d’ailleurs pas se lancer sur le marché des assistants vocaux comme Amazon Echo.
Selon Regina Dugan, le cerveau humain dispose d’une bande passante d'1 Térabit par seconde, soit 40 films en haute définition téléchargés chaque seconde. La voix ne permet que de transmettre 100 bits par seconde, soit l’équivalent d’un modem des années 80. Pour augmenter la bande passante il est donc nécessaire de se « brancher » directement au cerveau, via des ponts neuronaux capables de capturer directement la pensée.
Il existe déjà des prototypes permettant de détecter l’activité des neurones pour déplacer un curseur sur un écran. Mais les équipes du Building 8 (une soixantaine d’ingénieurs) travaillent sur un système optique permettant de « photographier » le changement d’état des neurones sans nécessiter d’implants, avec pour objectif de permettre à un utilisateur de taper 100 mots par minute uniquement par la pensée, soit cinq fois plus vite qu’en utilisant le clavier d’un smartphone ! Autre avantage du système : il permettra de détecter des concepts plutôt que de mots écrits, concepts qui pourront être traduits instantanément dans n’importe quelle langue.
Les ondes cérébrales deviendraient ainsi l'instrument privilégié pour établir une communication : les personnes atteintes de la maladie de Charcot pourraient ainsi dialoguer non plus en clignant des yeux, mais en imprimant leur pensée !
Autre projet futuriste de l’équipe du Building 8 : la possibilité d’utiliser la peau pour recevoir des informations de l’extérieur, grâce aux nombreuses terminaisons nerveuses de l’épiderme. Un prototype permet déjà d’apprendre en une heure à reconnaître des signaux différents, transmis là via la peau sous forme de concepts et non de mots. Ainsi il sera possible demain de détecter nos pensées en chinois et de les transmettre via la peau en espagnol !
Si les applications pratiques sont encore loin, Building 8 et les autres initiatives de Facebook dans le domaine de la recherche fondamentale montrent que son ambition n’a rien à envier à Google / Alphabet et ses fameux « moonshots ». Avec à la clé la volonté d’attirer les meilleurs talents, développeurs et partenaires sur le cœur de la plateforme, qui reste comme pour Google la publicité sous toutes ses formes !
Une chose est certaine : il sera bien difficile pour Mark Zuckerberg, après tous les chantiers évoqués, de continuer à prétendre que Facebook n'est qu'une "simple entreprise technologique"...