Google dezvăluie Whisk, un instrument de imagine creativ alimentat de Gemini

Google dezvăluie Whisk, un instrument de imagine creativ alimentat de Gemini
Diya Poddar
18 dec. 2024, 09:55 A.M.
  • Spre deosebire de editorii foto tradiționali, Whisk se concentrează mai degrabă pe explorarea creativă decât pe rezultate perfecte în pixeli.
  • Lansarea lui Whisk semnalează o concurență în creștere cu Sora de la OpenAI.
  • Whisk este inițial disponibil pentru utilizatorii din SUA, cu actualizări suplimentare planificate.

Cursa generativă de inteligență artificială a industriei tehnologice tocmai a devenit mai competitivă pe măsură ce Google a lansat Whisk, un instrument conceput pentru a crea imagini unice din fotografiile încărcate de utilizatori.

Dezvăluit prin Google Labs, Whisk permite utilizatorilor din SUA să remixe subiecte, stiluri și setări în imagini noi, fără a necesita solicitări text.

Se bazează pe progresele AI ale Google DeepMind, prezentând tehnologiile Gemini și Imagen 3.

Mișcarea evidențiază concentrarea Google pe furnizarea de instrumente AI accesibile în timp ce concurează cu suita OpenAI de produse de consum, inclusiv generatorul de text în video Sora.

Ce este Whisk și cum funcționează?

Whisk oferă o nouă abordare a creativității bazate pe inteligență artificială.

Utilizatorii pot încărca imagini reprezentând subiecte, setări sau stiluri.

Platforma procesează aceste intrări folosind Gemini, modelul de fundație AI al Google lansat în decembrie 2023, care generează subtitrări pentru conținut.

Aceste subtitrări se alimentează în Imagen 3 de la DeepMind, un generator de text în imagine.

Spre deosebire de editorii foto tradiționali, Whisk se concentrează mai degrabă pe explorarea creativă decât pe rezultate perfecte în pixeli.

Permite utilizatorilor să remixeze categorii, cum ar fi transformarea unei imagini într-o jucărie de pluș, un ac email sau un autocolant, ajustând intrările sau încorporând text pentru a ghida detalii specifice.

Google subliniază că rezultatele captează „esența” unui subiect, adică pot apărea unele variații, cum ar fi modificări ale coafurii sau ale tonului pielii.

Expertiza DeepMind, câștigătoare a Premiului Nobel, stă la baza Whisk

Whisk folosește dezvoltările de ultimă oră de la DeepMind, divizia AI achiziționată de Google în 2014.

Cercetarea IA a DeepMind a contribuit la câștigarea Premiului Nobel pentru Chimie a doi angajați în 2024 pentru descoperirea structurii proteinelor.

Acest lucru subliniază reputația laboratorului pentru depășirea limitelor tehnologice, care se extinde acum la aplicații creative precum Whisk.

Whisk poziționează, de asemenea, Google ca lider în inteligența artificială prietenoasă pentru consumatori.

În timp ce instrumentul său inițial de transformare a textului în imagine, Gemini, s-a confruntat cu critici pentru producerea de imagini inexacte din punct de vedere istoric, Whisk își propune să evite capcanele similare concentrându-se pe rezultate abstracte, exploratorii, mai degrabă decât pe replici exacte.

Inovația AI stimulează rivalitatea între giganții tehnologiei

Dezvăluirea de către Google a lui Whisk evidențiază strategia sa mai largă de a domina produsele de consum bazate pe inteligență artificială.

Concurența este acerbă, OpenAI introducând recent Sora, un generator de text în video.

Google își propune să-și consolideze avantajul prin integrarea Whisk cu capabilitățile Gemini și Imagen 3, semnalând o trecere către instrumente AI dinamice, multimodale.

Dan Ives, un analist de acțiuni la Wedbush Securities, consideră Whisk ca parte a „cufărului de comori” al ofertelor Google pentru 2025, alături de colaborarea sa cu Samsung și Qualcomm la un nou sistem de operare Android.

Aceste inițiative demonstrează efortul Google de a menține un avantaj în peisajul AI extrem de profitabil și competitiv.

Instrumentele AI generative precum Whisk au captat imaginația publicului, dar s-au confruntat și cu controlul.

De exemplu, problemele anterioare ale Gemenii cu ieșirile de imagini inexacte din punct de vedere istoric au ridicat îngrijorări cu privire la fiabilitatea AI.

Whisk încearcă să treacă peste aceste provocări concentrându-se pe creații imaginative, direcționate de utilizator.

Pe măsură ce Google continuă să-și perfecționeze ofertele, lansarea inițială a instrumentului ca site web pentru utilizatorii din SUA va oferi un banc de testare critic pentru actualizări și iterații viitoare.

Ambițiile AI ale Google

Debutul lui Whisk semnalează o evoluție mai largă a modului în care AI este utilizată pentru creativitatea consumatorilor.

Concentrându-se pe interfețe ușor de utilizat și integrând tehnologii avansate precum Gemini, Google își propune să democratizeze accesul la IA generativă.

Cu toate acestea, concurența rămâne intensă, platformele rivale împingând limitele a ceea ce poate realiza AI.