Google prezentuje Whisk, kreatywne narzędzie do edycji obrazów oparte na Gemini

Google prezentuje Whisk, kreatywne narzędzie do edycji obrazów oparte na Gemini
Diya Poddar
18 gru 2024, 08:54 AM
  • W przeciwieństwie do tradycyjnych edytorów zdjęć, Whisk skupia się na kreatywnej eksploracji, a nie na osiąganiu idealnych rezultatów.
  • Premiera Whisk'a oznacza rosnącą konkurencję z Sora firmy OpenAI.
  • Aplikacja Whisk jest na razie dostępna dla użytkowników z USA, ale planowane są kolejne aktualizacje.

Rywalizacja w branży technologicznej w zakresie generatywnej sztucznej inteligencji stała się jeszcze bardziej zacięta, ponieważ Google wprowadził Whisk, narzędzie zaprojektowane do tworzenia unikalnych obrazów na podstawie zdjęć przesłanych przez użytkowników.

Aplikacja Whisk, zaprezentowana w Google Labs, umożliwia użytkownikom w Stanach Zjednoczonych tworzenie nowych wizualizacji na podstawie tematów, stylów i ustawień bez konieczności wprowadzania tekstu.

Opiera się na postępach w dziedzinie sztucznej inteligencji firmy Google DeepMind, prezentując technologie Gemini i Imagen 3.

Ten ruch podkreśla skupienie Google na dostarczaniu dostępnych narzędzi AI, jednocześnie konkurując z pakietem produktów konsumenckich OpenAI, w tym generatorem tekstu na wideo Sora.

Czym jest Whisk i jak działa?

Whisk to nowe podejście do kreatywności opartej na sztucznej inteligencji.

Użytkownicy mogą przesyłać obrazy przedstawiające tematy, scenerie lub style.

Platforma przetwarza te dane wejściowe przy użyciu Gemini, modelu podstawowego AI firmy Google, który został wprowadzony na rynek w grudniu 2023 r. i generuje opisy treści.

Te opisy są wykorzystywane w programie Imagen 3 firmy DeepMind, który generuje obrazy na podstawie tekstu.

W przeciwieństwie do tradycyjnych edytorów zdjęć, Whisk skupia się na kreatywnej eksploracji, a nie na osiąganiu idealnych rezultatów.

Umożliwia użytkownikom miksowanie kategorii, np. przekształcanie obrazu w pluszową zabawkę, broszkę emaliowaną lub naklejkę, poprzez dostosowywanie danych wejściowych lub dodawanie tekstu, który będzie zawierał szczegółowe informacje.

Google podkreśla, że wyniki odzwierciedlają „istotę” tematu, co oznacza, że mogą wystąpić pewne różnice, takie jak zmiany fryzury lub odcienia skóry.

Ekspertyza DeepMind, która przyniosła firmie nagrodę Nobla, stanowi podstawę Whisk.

Whisk wykorzystuje najnowsze osiągnięcia DeepMind, działu sztucznej inteligencji, który Google przejął w 2014 r.

Badania nad sztuczną inteligencją prowadzone przez DeepMind przyczyniły się do zdobycia przez dwóch pracowników Nagrody Nobla w dziedzinie chemii w 2024 r. za odkrycia dotyczące struktury białek.

Podkreśla to reputację laboratorium, które dąży do poszerzania granic technologii, a teraz obejmuje również kreatywne zastosowania, takie jak Whisk.

Dzięki Whisk Google staje się również liderem w dziedzinie przyjaznej konsumentom sztucznej inteligencji.

Chociaż początkowe narzędzie do tworzenia obrazów na podstawie tekstu, Gemini, spotkało się z krytyką za generowanie historycznie nieprecyzyjnych obrazów, Whisk stara się uniknąć podobnych pułapek, skupiając się na abstrakcyjnych, eksploracyjnych wynikach, a nie na dokładnych replikach.

Innowacje w dziedzinie sztucznej inteligencji pobudzają rywalizację między gigantami technologicznymi

Prezentacja Whisk przez Google podkreśla szerszą strategię firmy zmierzającą do dominacji w dziedzinie produktów konsumenckich opartych na sztucznej inteligencji.

Rywalizacja jest zacięta, a OpenAI niedawno wprowadziło Sora, generator wideo na podstawie tekstu.

Google chce umocnić swoją przewagę, integrując Whisk z możliwościami Gemini i Imagen 3, sygnalizując tym samym zmianę w kierunku dynamicznych, wielomodalnych narzędzi AI.

Dan Ives, analityk giełdowy z Wedbush Securities, uważa Whisk za część „skarbnicy” ofert Google na rok 2025, obok współpracy z Samsungiem i Qualcommem w zakresie nowego systemu operacyjnego Android.

Inicjatywy te pokazują, że Google stara się utrzymać przewagę w bardzo dochodowym i konkurencyjnym sektorze sztucznej inteligencji.

Narzędzia generatywnej sztucznej inteligencji, takie jak Whisk, przykuły uwagę opinii publicznej, ale spotkały się również z krytyką.

Na przykład wcześniejsze problemy Gemini z nieprecyzyjnymi wynikami obrazowania wzbudziły obawy dotyczące niezawodności sztucznej inteligencji.

Firma Whisk stara się sprostać tym wyzwaniom, koncentrując się na pomysłowych, kierowanych przez użytkownika kreacjach.

Wraz z dalszym udoskonalaniem oferty Google, wstępne wprowadzenie narzędzia w formie strony internetowej dla użytkowników z USA będzie stanowić kluczowe pole testowe dla przyszłych aktualizacji i ulepszeń.

Ambicje Google w dziedzinie sztucznej inteligencji

Debiut Whisk'a zapowiada szerszą ewolucję w sposobie wykorzystania sztucznej inteligencji w celu wspierania kreatywności konsumentów.

Koncentrując się na łatwych w obsłudze interfejsach i integrując zaawansowane technologie, takie jak Gemini, Google ma na celu demokratyzację dostępu do generatywnej sztucznej inteligencji.

Jednakże konkurencja pozostaje ostra, a rywalizujące platformy przesuwają granice możliwości sztucznej inteligencji.