Google esittelee Whiskin, Geminin tuottaman luovan kuvatyökalun

Google esittelee Whiskin, Geminin tuottaman luovan kuvatyökalun
Diya Poddar
18.12.2024, 09:56 AP.
  • Toisin kuin perinteiset valokuvaeditorit, Whisk keskittyy luovaan tutkimiseen pikselitäydellisten tulosten sijaan.
  • Whiskin julkaisu on merkki kasvavasta kilpailusta OpenAI:n Soran kanssa.
  • Whisk on aluksi yhdysvaltalaisten käyttäjien saatavilla, ja lisäpäivityksiä suunnitellaan.

Teknologiateollisuuden generatiivisesta tekoälykilpailusta tuli juuri kilpailukykyisempi, kun Google julkaisi Whiskin, työkalun, joka on suunniteltu luomaan ainutlaatuisia kuvia käyttäjien lataamista valokuvista.

Google Labsin kautta julkistettu Whisk antaa yhdysvaltalaisille käyttäjille mahdollisuuden sekoittaa aiheita, tyylejä ja asetuksia uusiksi visuaaleiksi ilman tekstikehotteita.

Se perustuu Google DeepMindin tekoälyn edistymiseen ja esittelee Gemini- ja Imagen 3 -teknologioita.

Muutos korostaa Googlen keskittymistä helppokäyttöisten tekoälytyökalujen toimittamiseen samalla, kun se kilpailee OpenAI:n kuluttajatuotesarjaa vastaan, mukaan lukien tekstistä videoksi -generaattori Sora.

Mikä on Whisk ja miten se toimii?

Whisk tarjoaa uudenlaisen näkemyksen tekoälypohjaiseen luovuuteen.

Käyttäjät voivat ladata kuvia, jotka edustavat aiheita, asetuksia tai tyylejä.

Alusta käsittelee nämä syötteet Geminillä, Googlen joulukuussa 2023 lanseeratulla tekoälysäätiömallilla, joka luo tekstitykset sisällölle.

Nämä kuvatekstit syötetään DeepMindin Imagen 3:een, tekstistä kuvaksi -generaattoriin.

Toisin kuin perinteiset valokuvaeditorit, Whisk keskittyy luovaan tutkimiseen pikselitäydellisten tulosten sijaan.

Sen avulla käyttäjät voivat sekoittaa luokkia uudelleen – kuten muuttaa kuvasta pehmolelu, emalineula tai tarra – säätämällä syötteitä tai sisällyttämällä tekstiä ohjaamaan tiettyjä yksityiskohtia.

Google korostaa, että tulosteet kuvaavat kohteen "olemuksen", mikä tarkoittaa, että joitain muunnelmia, kuten muutoksia hiustyyliin tai ihon sävyyn, saattaa esiintyä.

Whiskin taustalla on DeepMindin Nobel-palkittu asiantuntemus

Whisk hyödyntää Googlen vuonna 2014 ostaman DeepMindin, tekoälydivisioonan, viimeisintä kehitystä.

DeepMindin tekoälytutkimuksen ansiosta kaksi työntekijää voitti vuoden 2024 Nobelin kemian palkinnon proteiinirakenteen löydöistä.

Tämä korostaa laboratorion mainetta teknologisten rajojen ylittäjänä, joka ulottuu nyt luoviin sovelluksiin, kuten Whisk.

Whisk asettaa Googlen myös johtavaksi kuluttajaystävällisessä tekoälyssä.

Vaikka sen alkuperäinen tekstistä kuvaksi -työkalu Gemini kohtasi kritiikkiä historiallisesti epätarkkojen kuvien tuottamisesta, Whisk pyrkii välttämään samanlaisia ​​sudenkuoppia keskittymällä abstrakteihin, tutkiviin tuloksiin tarkkojen kopioiden sijaan.

Tekoälyinnovaatiot vauhdittavat teknologiajättiläisten välistä kilpailua

Googlen Whiskin julkistaminen korostaa sen laajempaa strategiaa hallita tekoälypohjaisia ​​kuluttajatuotteita.

Kilpailu on kovaa, ja OpenAI esitteli äskettäin Soran, tekstistä videoksi -generaattorin.

Google pyrkii vahvistamaan etuaan integroimalla Whiskin Geminin ominaisuuksiin ja Imagen 3:een, mikä merkitsee siirtymistä kohti dynaamisia, multimodaalisia tekoälytyökaluja.

Dan Ives, Wedbush Securitiesin osakeanalyytikko, pitää Whiskiä osana Googlen vuoden 2025 "aarrearkkua" sekä Samsungin ja Qualcommin kanssa tehtyä yhteistyötä uudesta Android-käyttöjärjestelmästä.

Nämä aloitteet osoittavat Googlen pyrkimyksen säilyttää etumatka erittäin tuottoisassa ja kilpailukykyisessä tekoälymaailmassa.

Generatiiviset tekoälytyökalut, kuten Whisk, ovat valloittaneet yleisön mielikuvituksen, mutta ne ovat myös joutuneet tarkasteluun.

Esimerkiksi Geminin aiemmat ongelmat historiallisesti epätarkkojen kuvatulosten kanssa herättivät huolta tekoälyn luotettavuudesta.

Whisk pyrkii selviytymään näistä haasteista keskittymällä mielikuvituksellisiin, käyttäjien ohjaamiin luomuksiin.

Kun Google jatkaa tarjontansa parantamista, työkalun ensimmäinen käyttöönotto yhdysvaltalaisten käyttäjien verkkosivustona tarjoaa kriittisen testialustan tulevia päivityksiä ja iteraatioita varten.

Googlen AI-tavoitteet

Whiskin debyytti on merkki laajemmasta kehityksestä siinä, miten tekoälyä käytetään kuluttajien luovuuteen.

Keskittymällä käyttäjäystävällisiin käyttöliittymiin ja integroimalla kehittyneitä teknologioita, kuten Gemini, Google pyrkii demokratisoimaan pääsyn generatiiviseen tekoälyyn.

Kilpailu on kuitenkin edelleen kovaa, ja kilpailevat alustat ylittävät tekoälyn rajoja.