Google afslører Whisk, et kreativt billedværktøj drevet af Gemini

Google afslører Whisk, et kreativt billedværktøj drevet af Gemini
Diya Poddar
18. dec. 2024, 08:50 AM
  • I modsætning til traditionelle fotoredigerere fokuserer Whisk på kreativ udforskning i stedet for pixel-perfekte resultater.
  • Whisks udgivelse signalerer stigende konkurrence med OpenAIs Sora.
  • Whisk er i første omgang tilgængelig for amerikanske brugere, med yderligere opdateringer planlagt.

Teknologiindustriens generative AI-race er lige blevet mere konkurrencedygtig, da Google lancerede Whisk, et værktøj designet til at skabe unikke billeder fra brugeruploadede billeder.

Afsløret gennem Google Labs giver Whisk brugere i USA mulighed for at remixe emner, stilarter og indstillinger til nye billeder uden at kræve tekstbeskeder.

Det bygger på Google DeepMinds AI-fremskridt og viser Gemini- og Imagen 3-teknologier.

Tiltaget fremhæver Googles fokus på at levere tilgængelige AI-værktøjer, mens de konkurrerer mod OpenAI's suite af forbrugerprodukter, herunder tekst-til-video-generatoren Sora.

Hvad er Whisk, og hvordan virker det?

Whisk tilbyder et nyt bud på AI-drevet kreativitet.

Brugere kan uploade billeder, der repræsenterer emner, indstillinger eller stilarter.

Platformen behandler disse input ved hjælp af Gemini, Googles AI-grundmodel, der blev lanceret i december 2023, og som genererer billedtekster til indholdet.

Disse billedtekster indgår i DeepMinds Imagen 3, en tekst-til-billede-generator.

I modsætning til traditionelle fotoredigerere fokuserer Whisk på kreativ udforskning i stedet for pixel-perfekte resultater.

Det giver brugerne mulighed for at remixe kategorier - såsom at omdanne et billede til et plyslegetøj, emaljenål eller klistermærke - ved at justere input eller inkorporere tekst for at vejlede specifikke detaljer.

Google understreger, at outputtet fanger "essensen" af et emne, hvilket betyder, at nogle variationer, såsom ændringer i frisure eller hudfarve, kan forekomme.

DeepMinds nobelprisvindende ekspertise understøtter Whisk

Whisk udnytter banebrydende udviklinger fra DeepMind, AI-divisionen, som Google købte i 2014.

DeepMinds AI-forskning bidrog til, at to medarbejdere vandt Nobelprisen i kemi i 2024 for opdagelser af proteinstruktur.

Dette understreger laboratoriets ry for at skubbe teknologiske grænser, som nu strækker sig til kreative applikationer som Whisk.

Whisk positionerer også Google som førende inden for forbrugervenlig kunstig intelligens.

Mens dets oprindelige tekst-til-billede-værktøj Gemini mødte kritik for at producere historisk unøjagtige billeder, sigter Whisk mod at undgå lignende faldgruber ved at fokusere på abstrakte, udforskende output snarere end nøjagtige replikaer.

AI-innovation ansporer til rivalisering blandt teknologigiganter

Googles afsløring af Whisk fremhæver dens bredere strategi for at dominere AI-drevne forbrugerprodukter.

Konkurrencen er hård, hvor OpenAI for nylig introducerede Sora, en tekst-til-video-generator.

Google sigter mod at styrke sin fordel ved at integrere Whisk med Geminis muligheder og Imagen 3, hvilket signalerer et skift mod dynamiske, multimodale AI-værktøjer.

Dan Ives, en aktieanalytiker hos Wedbush Securities, ser Whisk som en del af Googles "skattekiste" af 2025-tilbud, sammen med samarbejdet med Samsung og Qualcomm om et nyt Android-operativsystem.

Disse initiativer demonstrerer Googles indsats for at fastholde et forspring i det meget lukrative og konkurrencedygtige AI-landskab.

Generative AI-værktøjer som Whisk har fanget offentlig fantasi, men har også været udsat for granskning.

For eksempel rejste Geminis tidligere problemer med historisk unøjagtige billedoutput bekymringer om AI-pålidelighed.

Whisk søger at navigere i disse udfordringer ved at fokusere på fantasifulde, brugerrettede kreationer.

Efterhånden som Google fortsætter med at forfine sine tilbud, vil værktøjets indledende udrulning som et websted for amerikanske brugere give en kritisk testplads for fremtidige opdateringer og iterationer.

Googles AI-ambitioner

Whisks debut signalerer en bredere udvikling i, hvordan AI bruges til forbrugernes kreativitet.

Ved at fokusere på brugervenlige grænseflader og integrere avancerede teknologier som Gemini, sigter Google mod at demokratisere adgangen til generativ kunstig intelligens.

Konkurrencen er dog fortsat intens, hvor rivaliserende platforme skubber grænserne for, hvad AI kan opnå.