Aller au contenu principal

Moshi

Moshi est un projet open source de synthèse vocale développé par le laboratoire de recherche en IA Kyutai, cofondé par Xavier Niel, Rodolphe Saadé et Eric Schmidt. Ce projet a été présenté pour la première fois en juillet 2024. Moshi est une IA conversationnelle capable de générer des conversations en temps réel avec une latence très faible (160 millisecondes). Ce qui rend Moshi unique, c'est sa capacité à reconnaître et à adapter son ton en fonction des émotions, à chuchoter, à hésiter, à faire des plaisanteries, et même à prendre un accent. Il a été entraîné avec un mélange de données textuelles et audio, et peut fonctionner localement sur un appareil non connecté.

Applications

Moshi est conçu pour des applications variées, notamment : Service client : Améliorer l'interaction client en fournissant des réponses rapides et émotionnellement intelligentes. Éducation : Aider les enseignants et les étudiants avec des assistants vocaux interactifs et engageants. Divertissement : Créer des personnages de jeu vidéo et des applications de réalité virtuelle plus immersifs grâce à des dialogues naturels et expressifs.

Performances et Capacités Techniques

Le projet Moshi se distingue par ses performances élevées et ses capacités techniques avancées : Reconnaissance des émotions : Moshi peut identifier et adapter son discours en fonction de l'état émotionnel de l'utilisateur. Latence : Avec une latence de seulement 160 millisecondes, les conversations sont fluides et réactives. Fonctionnement hors-ligne : Moshi peut fonctionner localement sur un appareil, garantissant la confidentialité des données et l'accessibilité dans des environnements sans connexion internet.

Perspectives d'Avenir

Kyutai envisage de continuer à améliorer Moshi en intégrant de nouvelles langues et en affinant ses capacités d'émotion et d'expression vocale. Des collaborations avec des industries variées sont également en cours pour explorer de nouvelles applications et cas d'utilisation.

Vous pouvez essayer Moshi gratuitement ici https://www.moshi.chat/

Il suffit de rentrer son adresse email et ensuite avec votre micro vous pouvez parler à Moshi qui va vous répondre. Pour l'instant il faut lui parler anglais. Ce qui est impressionnant, c'est la vitesse à laquelle le logiciel peut vous répondre alors que ça passe par internet. La qualité des réponses n'est pas encore au rendez-vous, mais le projet est prométeur.

Une vidéo de présentation est visible ici : https://www.youtube.com/watch?v=JKA_v5Bb_tI

Le code source est disponible ici :

Github: https://github.com/kyutai-labs/moshi

et la documentation technique est ici :

Paper: https://kyutai.org/Moshi.pdf