Google presenterar Whisk, ett kreativt bildverktyg som drivs av Gemini

Google presenterar Whisk, ett kreativt bildverktyg som drivs av Gemini
Diya Poddar
18 dec. 2024, 08:55 FM
  • Till skillnad från traditionella fotoredigerare fokuserar Whisk på kreativ utforskning snarare än pixelperfekta resultat.
  • Whisks release signalerar ökande konkurrens med OpenAI:s Sora.
  • Visp är initialt tillgängligt för amerikanska användare, med ytterligare uppdateringar planerade.

Teknikbranschens generativa AI-race blev precis mer konkurrenskraftig när Google lanserade Whisk, ett verktyg utformat för att skapa unika bilder från användaruppladdade foton.

Whisk, som presenterades genom Google Labs, tillåter användare i USA att blanda om ämnen, stilar och inställningar till nya bilder utan att behöva textmeddelanden.

Den bygger på Google DeepMinds AI-framsteg, och visar upp Gemini- och Imagen 3-teknologier.

Flytten belyser Googles fokus på att leverera tillgängliga AI-verktyg samtidigt som de tävlar mot OpenAI:s svit av konsumentprodukter, inklusive text-till-video-generatorn Sora.

Vad är Whisk och hur fungerar det?

Whisk erbjuder en ny version av AI-driven kreativitet.

Användare kan ladda upp bilder som representerar ämnen, inställningar eller stilar.

Plattformen bearbetar dessa indata med hjälp av Gemini, Googles AI-grundmodell som lanserades i december 2023, som genererar bildtexter för innehållet.

Dessa bildtexter matas in i DeepMinds Imagen 3, en text-till-bild-generator.

Till skillnad från traditionella fotoredigerare fokuserar Whisk på kreativ utforskning snarare än pixelperfekta resultat.

Det tillåter användare att remixa kategorier – som att förvandla en bild till en plyschleksak, emaljnål eller klistermärke – genom att justera ingångar eller infoga text för att vägleda specifika detaljer.

Google betonar att utdata fångar "essensen" av ett ämne, vilket innebär att vissa variationer, såsom förändringar av frisyr eller hudton, kan förekomma.

DeepMinds Nobelprisbelönta expertis ligger till grund för Whisk

Whisk utnyttjar den senaste utvecklingen från DeepMind, AI-divisionen som Google förvärvade 2014.

DeepMinds AI-forskning bidrog till att två anställda vann 2024 års Nobelpris i kemi för upptäckter av proteinstruktur.

Detta understryker labbets rykte för att tänja på tekniska gränser, vilket nu sträcker sig till kreativa applikationer som Whisk.

Whisk positionerar även Google som ledande inom konsumentvänlig AI.

Medan dess ursprungliga text-till-bild-verktyg Gemini fick kritik för att ha producerat historiskt felaktiga bilder, strävar Whisk efter att undvika liknande fallgropar genom att fokusera på abstrakta, utforskande utdata snarare än exakta repliker.

AI-innovation stimulerar rivalitet bland teknikjättar

Googles avtäckning av Whisk belyser dess bredare strategi att dominera AI-drivna konsumentprodukter.

Konkurrensen är hård, med OpenAI som nyligen introducerade Sora, en text-till-video-generator.

Google strävar efter att befästa sina fördelar genom att integrera Whisk med Geminis kapacitet och Imagen 3, vilket signalerar en förändring mot dynamiska, multimodala AI-verktyg.

Dan Ives, en aktieanalytiker på Wedbush Securities, ser Whisk som en del av Googles "skattkista" av 2025-erbjudanden, tillsammans med samarbetet med Samsung och Qualcomm om ett nytt Android-operativsystem.

Dessa initiativ visar Googles ansträngning att behålla en fördel i det mycket lukrativa och konkurrenskraftiga AI-landskapet.

Generativa AI-verktyg som Whisk har fångat allmänhetens fantasi men också blivit föremål för granskning.

Till exempel väckte Geminis tidigare problem med historiskt felaktiga bildutdata farhågor om AI-tillförlitlighet.

Whisk strävar efter att navigera i dessa utmaningar genom att fokusera på fantasifulla, användarriktade skapelser.

När Google fortsätter att förfina sina erbjudanden kommer verktygets första lansering som en webbplats för amerikanska användare att ge en kritisk testbädd för framtida uppdateringar och iterationer.

Googles AI-ambitioner

Whisks debut signalerar en bredare utveckling av hur AI används för konsumentkreativitet.

Genom att fokusera på användarvänliga gränssnitt och integrera avancerad teknik som Gemini, strävar Google efter att demokratisera tillgången till generativ AI.

Konkurrensen är dock fortfarande intensiv, med rivaliserande plattformar som tänjer på gränserna för vad AI kan uppnå.