Google avduker Whisk, et kreativt bildeverktøy drevet av Gemini

Google avduker Whisk, et kreativt bildeverktøy drevet av Gemini
Diya Poddar
18. des. 2024, 08:53 A.M.
  • I motsetning til tradisjonelle fotoredigerere, fokuserer Whisk på kreativ utforskning i stedet for pikselperfekte resultater.
  • Whisks utgivelse signaliserer økende konkurranse med OpenAIs Sora.
  • Visp er i utgangspunktet tilgjengelig for amerikanske brukere, med ytterligere oppdateringer planlagt.

Teknologibransjens generative AI-kappløp ble akkurat mer konkurransedyktig da Google lanserte Whisk, et verktøy utviklet for å lage unike bilder fra brukeropplastede bilder.

Whisk, som ble avduket gjennom Google Labs, lar brukere i USA remikse emner, stiler og innstillinger til nye bilder uten å kreve tekstmeldinger.

Den bygger på Google DeepMinds AI-fremskritt, og viser teknologiene Gemini og Imagen 3.

Flyttingen fremhever Googles fokus på å levere tilgjengelige AI-verktøy mens de konkurrerer mot OpenAIs pakke med forbrukerprodukter, inkludert tekst-til-video-generatoren Sora.

Hva er Whisk og hvordan fungerer det?

Whisk tilbyr en ny versjon av AI-drevet kreativitet.

Brukere kan laste opp bilder som representerer emner, innstillinger eller stiler.

Plattformen behandler disse inndataene ved å bruke Gemini, Googles AI-grunnmodell lansert i desember 2023, som genererer bildetekster for innholdet.

Disse bildetekstene går inn i DeepMinds Imagen 3, en tekst-til-bilde-generator.

I motsetning til tradisjonelle fotoredigerere, fokuserer Whisk på kreativ utforskning i stedet for pikselperfekte resultater.

Den lar brukere remikse kategorier – for eksempel å gjøre om et bilde til et plysjleketøy, emaljenål eller klistremerke – ved å justere innganger eller inkludere tekst for å veilede spesifikke detaljer.

Google understreker at utdataene fanger "essensen" av et emne, noe som betyr at enkelte variasjoner, for eksempel endringer i frisyre eller hudtone, kan forekomme.

DeepMinds nobelprisvinnende ekspertise underbygger Whisk

Whisk utnytter banebrytende utviklinger fra DeepMind, AI-divisjonen Google kjøpte opp i 2014.

DeepMinds AI-forskning bidro til at to ansatte vant Nobelprisen i kjemi i 2024 for funn av proteinstruktur.

Dette understreker laboratoriets rykte for å flytte teknologiske grenser, som nå strekker seg til kreative applikasjoner som Whisk.

Whisk posisjonerer også Google som ledende innen forbrukervennlig kunstig intelligens.

Mens det første tekst-til-bilde-verktøyet Gemini møtte kritikk for å produsere historisk unøyaktige bilder, har Whisk som mål å unngå lignende fallgruver ved å fokusere på abstrakte, utforskende utdata i stedet for eksakte kopier.

AI-innovasjon ansporer til rivalisering blant teknologigiganter

Googles avduking av Whisk fremhever den bredere strategien for å dominere AI-drevne forbrukerprodukter.

Konkurransen er hard, med OpenAI som nylig introduserte Sora, en tekst-til-video-generator.

Google har som mål å styrke sin fordel ved å integrere Whisk med Geminis evner og Imagen 3, noe som signaliserer et skifte mot dynamiske, multimodale AI-verktøy.

Dan Ives, en aksjeanalytiker hos Wedbush Securities, ser på Whisk som en del av Googles "skattekiste" av 2025-tilbud, sammen med samarbeidet med Samsung og Qualcomm om et nytt Android-operativsystem.

Disse initiativene viser Googles innsats for å opprettholde et forsprang i det svært lukrative og konkurransedyktige AI-landskapet.

Generative AI-verktøy som Whisk har fanget offentlig fantasi, men også møtt gransking.

For eksempel vakte Geminis tidligere problemer med historisk unøyaktige bildeutdata bekymringer om AI-pålitelighet.

Whisk søker å navigere i disse utfordringene ved å fokusere på fantasifulle, brukerstyrte kreasjoner.

Ettersom Google fortsetter å avgrense tilbudene sine, vil den første utrullingen av verktøyet som et nettsted for amerikanske brukere gi et kritisk testområde for fremtidige oppdateringer og iterasjoner.

Googles AI-ambisjoner

Whisks debut signaliserer en bredere utvikling i hvordan AI brukes til forbrukerkreativitet.

Ved å fokusere på brukervennlige grensesnitt og integrere avanserte teknologier som Gemini, har Google som mål å demokratisere tilgangen til generativ AI.

Konkurransen er imidlertid fortsatt intens, med rivaliserende plattformer som flytter grensene for hva AI kan oppnå.