Google dévoile Whisk, un outil d'image créatif alimenté par Gemini

Google dévoile Whisk, un outil d'image créatif alimenté par Gemini
Diya Poddar
18 déc. 2024, 08:51 AM
  • Contrairement aux éditeurs de photos traditionnels, Whisk se concentre sur l'exploration créative plutôt que sur des résultats parfaits au pixel près.
  • La sortie de Whisk témoigne d'une concurrence croissante avec Sora d'OpenAI.
  • Whisk est initialement disponible pour les utilisateurs américains, avec d'autres mises à jour prévues.

La course à l'IA générative de l'industrie technologique vient de devenir plus compétitive avec le lancement par Google de Whisk, un outil conçu pour créer des images uniques à partir de photos téléchargées par les utilisateurs.

Dévoilé via Google Labs, Whisk permet aux utilisateurs américains de remixer des sujets, des styles et des paramètres en de nouvelles images sans nécessiter d'indications textuelles.

Il s'appuie sur les avancées de l'IA de Google DeepMind, mettant en avant les technologies Gemini et Imagen 3.

Cette décision souligne l'accent mis par Google sur la fourniture d'outils d'IA accessibles tout en concurrençant la suite de produits grand public d'OpenAI, notamment le générateur de texte en vidéo Sora.

Qu'est-ce que Whisk et comment fonctionne-t-il ?

Whisk propose une nouvelle approche de la créativité alimentée par l'IA.

Les utilisateurs peuvent télécharger des images représentant des sujets, des paramètres ou des styles.

La plateforme traite ces entrées à l'aide de Gemini, le modèle de base d'IA de Google lancé en décembre 2023, qui génère des légendes pour le contenu.

Ces légendes alimentent Imagen 3 de DeepMind, un générateur de texte en image.

Contrairement aux éditeurs de photos traditionnels, Whisk se concentre sur l'exploration créative plutôt que sur des résultats parfaits au pixel près.

Il permet aux utilisateurs de remixer des catégories, comme transformer une image en peluche, en épingle émaillée ou en autocollant, en ajustant les entrées ou en incorporant du texte pour guider des détails spécifiques.

Google souligne que les résultats capturent l'« essence » d'un sujet, ce qui signifie que certaines variations, telles que des changements de coiffure ou de teint, peuvent survenir.

L'expertise primée par le prix Nobel de DeepMind sous-tend Whisk

Whisk s'appuie sur les développements de pointe de DeepMind, la division IA acquise par Google en 2014.

La recherche en intelligence artificielle de DeepMind a contribué à ce que deux de ses employés remportent le prix Nobel de chimie 2024 pour leurs découvertes sur la structure des protéines.

Cela souligne la réputation du laboratoire de repousser les limites technologiques, qui s'étend désormais à des applications créatives comme Whisk.

Whisk positionne également Google en tant que leader de l'IA conviviale pour les consommateurs.

Alors que son outil initial de conversion de texte en image, Gemini, a fait l'objet de critiques pour avoir produit des images historiquement inexactes, Whisk vise à éviter des pièges similaires en se concentrant sur des résultats abstraits et exploratoires plutôt que sur des répliques exactes.

L'innovation de l'IA stimule la rivalité entre les géants de la technologie

La présentation de Whisk par Google met en évidence sa stratégie plus large visant à dominer les produits de consommation pilotés par l'IA.

La concurrence est féroce, OpenAI ayant récemment lancé Sora, un générateur de texte en vidéo.

Google vise à consolider son avantage en intégrant Whisk aux capacités de Gemini et à Imagen 3, signalant un changement vers des outils d'IA dynamiques et multimodaux.

Dan Ives, analyste boursier chez Wedbush Securities, considère Whisk comme faisant partie du « trésor » d'offres de Google pour 2025, aux côtés de sa collaboration avec Samsung et Qualcomm sur un nouveau système d'exploitation Android.

Ces initiatives démontrent l’effort de Google pour conserver son avantage dans le paysage de l’IA, très lucratif et concurrentiel.

Les outils d'IA générative comme Whisk ont capté l'imagination du public, mais ont également fait l'objet d'un examen minutieux.

Par exemple, les problèmes antérieurs de Gemini avec des sorties d'images historiquement inexactes ont soulevé des préoccupations quant à la fiabilité de l'IA.

Whisk cherche à relever ces défis en se concentrant sur des créations imaginatives et dirigées par l'utilisateur.

Alors que Google continue d'affiner ses offres, le déploiement initial de l'outil sous forme de site Web pour les utilisateurs américains constituera un banc d'essai essentiel pour les futures mises à jour et itérations.

Les ambitions d'IA de Google

Le lancement de Whisk marque une évolution plus large dans la manière dont l'IA est utilisée pour la créativité des consommateurs.

En se concentrant sur des interfaces conviviales et en intégrant des technologies avancées comme Gemini, Google vise à démocratiser l'accès à l'IA générative.

Cependant, la concurrence reste intense, les plateformes rivales repoussant les limites de ce que l'IA peut accomplir.