DIGITAL – Ce prototype reste imparfait pour le moment, mais préfigure nos futures interactions avec les machines.
Moshi sait chuchoter, parler comme un pirate, converser sur la randonnée, et même chantonner. Moshi (traduction de allô en japonais) est une intelligence artificielle générative vocale lancée par Kyutai le 3 juillet.
Ce laboratoire de recherche français, financé par le fondateur de Free Xavier Niel, le dirigeant de CMA CGM Rodolphe Saadé (propriétaire de La Tribune), et Eric Schmidt, ex-PDG de Google, s’est lancé en novembre dernier.
Objectif, attirer la crème des chercheurs grâce à des projets de recherche à la pointe de l’IA générative. Le tout en open source, c’est-à-dire librement accessible.
En quelques mois et avec une équipe réduite de 8 chercheurs, un financement conséquent (300 millions d’euros, dont seule une petite partie aurait déjà été dépensée) mais bien moins important que ceux des mastodontes du secteur, on peut reconnaître à Kyutai la prouesse d’avoir mis au point une IA générative vocale fluide, capable de répondre à un interlocuteur très rapidement.
« C’était six mois de folie », résume Patrick Pérez, PDG de Kyutai sur scène, lors d’une conférence organisée à l’Ircam pour présenter les toutes premières avancées du jeune laboratoire.
OpenAI repousse son lancement
Le coup fait d’autant plus mouche qu’OpenAI, leader américain du secteur et père de ChatGPT, a présenté, il y a quelques semaines, une technologie similaire, ChatGPT-4o Voice, avant de reculer son lancement auprès du grand public.
Moshi, elle, peut déjà être expérimentée par quiconque via une interface de démonstration (les conversations ne sont possibles qu’en anglais pour le moment et ne durent pas plus de 5 minutes).
Impossible toutefois de lui demander d’analyser une image ou une vidéo, comme il sera possible de le faire avec la version vocale de ChatGPT-4o.
Maderpost / Latribune