Google introduceert Whisk, een creatieve beeldtool die gebruikmaakt van Gemini

Google introduceert Whisk, een creatieve beeldtool die gebruikmaakt van Gemini
Diya Poddar
18 dec 2024, 08:53 A.M.
  • In tegenstelling tot traditionele fotobewerkers richt Whisk zich meer op creatieve verkenning dan op perfect gepixelde resultaten.
  • De lancering van Whisk is een teken van de groeiende concurrentie met Sora van OpenAI.
  • Whisk is in eerste instantie beschikbaar voor gebruikers in de VS, maar er zijn verdere updates gepland.

De race om generatieve AI in de techsector is net een stukje competitiever geworden, nu Google Whisk heeft gelanceerd: een tool waarmee unieke afbeeldingen kunnen worden gemaakt op basis van door gebruikers geüploade foto's.

Whisk, dat via Google Labs werd onthuld, stelt gebruikers in de VS in staat om onderwerpen, stijlen en instellingen te combineren tot nieuwe visuele elementen, zonder dat er tekstprompts nodig zijn.

Het bouwt voort op de AI-vooruitgang van Google DeepMind en toont de technologieën Gemini en Imagen 3.

Met deze stap benadrukt Google zijn focus op het leveren van toegankelijke AI-tools, terwijl het tegelijkertijd concurreert met het assortiment consumentenproducten van OpenAI, waaronder de tekst-naar-video-generator Sora.

Wat is Whisk en hoe werkt het?

Whisk biedt een nieuwe kijk op door AI aangestuurde creativiteit.

Gebruikers kunnen afbeeldingen uploaden die onderwerpen, instellingen of stijlen weergeven.

Het platform verwerkt deze invoer met behulp van Gemini, het AI-basismodel van Google dat in december 2023 werd gelanceerd. Dit model genereert ondertitels voor de inhoud.

Deze ondertitels worden gebruikt voor DeepMind's Imagen 3, een tekst-naar-afbeeldingengenerator.

In tegenstelling tot traditionele fotobewerkers richt Whisk zich meer op creatieve verkenning dan op perfect gepixelde resultaten.

Gebruikers kunnen categorieën remixen, bijvoorbeeld door een afbeelding om te zetten in een knuffel, een speldje of een sticker. Dit doen ze door invoer aan te passen of tekst toe te voegen om specifieke details te bepalen.

Google benadrukt dat de resultaten de "essentie" van een onderwerp vastleggen. Dit betekent dat er mogelijk kleine variaties optreden, zoals veranderingen in kapsel of huidskleur.

De Nobelprijswinnende expertise van DeepMind vormt de basis van Whisk.

Whisk maakt gebruik van de nieuwste ontwikkelingen van DeepMind, de AI-divisie die Google in 2014 overnam.

Het AI-onderzoek van DeepMind droeg bij aan de toekenning van de Nobelprijs voor Scheikunde 2024 aan twee werknemers voor hun ontdekkingen over de structuur van eiwitten.

Dit onderstreept de reputatie van het laboratorium om technologische grenzen te verleggen, wat nu ook geldt voor creatieve toepassingen zoals Whisk.

Whisk positioneert Google ook als leider op het gebied van consumentvriendelijke AI.

Hoewel de eerste tekst-naar-afbeeldingstool Gemini kritiek kreeg vanwege de historisch onjuiste afbeeldingen die hij produceerde, probeert Whisk vergelijkbare valkuilen te vermijden door zich te richten op abstracte, verkennende uitvoer in plaats van exacte replica's.

AI-innovatie zorgt voor rivaliteit tussen techgiganten

De lancering van Whisk door Google benadrukt de bredere strategie van het bedrijf om de markt van door AI aangestuurde consumentenproducten te domineren.

De concurrentie is moordend, want OpenAI introduceerde onlangs Sora, een generator voor video's op basis van tekst.

Google wil zijn voorsprong consolideren door Whisk te integreren met de mogelijkheden van Gemini en Imagen 3. Dit is een teken dat het bedrijf zich richt op dynamische, multimodale AI-tools.

Dan Ives, een aandelenanalist bij Wedbush Securities, ziet Whisk als onderdeel van Google's 'schatkist' met aanbiedingen voor 2025, naast de samenwerking met Samsung en Qualcomm voor een nieuw Android-besturingssysteem.

Deze initiatieven tonen aan dat Google zich inzet om een voorsprong te behouden in het lucratieve en competitieve AI-landschap.

Generatieve AI-tools zoals Whisk hebben de verbeelding van het publiek gevangen, maar zijn ook onderworpen aan kritiek.

Zo zorgden eerdere problemen met historisch onjuiste beeldresultaten bij Gemini voor zorgen over de betrouwbaarheid van AI.

Whisk probeert deze uitdagingen het hoofd te bieden door zich te richten op creatieve, door de gebruiker gestuurde creaties.

Nu Google zijn aanbod blijft verfijnen, zal de eerste uitrol van de tool als website voor Amerikaanse gebruikers een cruciale testbed vormen voor toekomstige updates en iteraties.

De AI-ambities van Google

De lancering van Whisk markeert een bredere evolutie in de manier waarop AI wordt gebruikt voor consumentatieve creativiteit.

Door zich te richten op gebruiksvriendelijke interfaces en geavanceerde technologieën zoals Gemini te integreren, streeft Google ernaar de toegang tot generatieve AI te democratiseren.

De concurrentie blijft echter hevig, waarbij rivaliserende platforms de grenzen van wat AI kan bereiken, verleggen.