Google stellt Whisk vor, ein kreatives Bildbearbeitungstool, das auf Gemini basiert

Google stellt Whisk vor, ein kreatives Bildbearbeitungstool, das auf Gemini basiert
Diya Poddar
18. Dez. 2024, 08:50 AM
  • Im Gegensatz zu herkömmlichen Fotoeditoren konzentriert sich Whisk auf kreative Erkundung statt auf pixelperfekte Ergebnisse.
  • Die Veröffentlichung von Whisk ist ein Zeichen für zunehmende Konkurrenz mit OpenAI's Sora.
  • Whisk ist zunächst für US-Benutzer verfügbar, weitere Updates sind geplant.

Der Wettlauf der Technologiebranche um generative KI ist gerade noch wettbewerbsfähiger geworden, da Google Whisk auf den Markt gebracht hat, ein Tool, das einzigartige Bilder aus von Benutzern hochgeladenen Fotos erstellen soll.

Whisk, das über Google Labs vorgestellt wurde, ermöglicht es Benutzern in den USA, Themen, Stile und Einstellungen zu neuen Bildern zu kombinieren, ohne dass Textanweisungen erforderlich sind.

Es baut auf den KI-Fortschritten von Google DeepMind auf und zeigt die Technologien Gemini und Imagen 3.

Der Schritt unterstreicht Googles Fokus auf die Bereitstellung zugänglicher KI-Tools, während es gegen OpenAIs Suite von Verbraucherprodukten, darunter den Text-zu-Video-Generator Sora, antritt.

Was ist Whisk und wie funktioniert es?

Whisk bietet eine neue Sicht auf KI-gestützte Kreativität.

Benutzer können Bilder hochladen, die Themen, Einstellungen oder Stile darstellen.

Die Plattform verarbeitet diese Eingaben mithilfe von Gemini, dem im Dezember 2023 eingeführten KI-Grundmodell von Google, das Untertitel für den Inhalt generiert.

Diese Bildunterschriften werden in DeepMinds Imagen 3 eingespeist, einem Text-zu-Bild-Generator.

Im Gegensatz zu herkömmlichen Fotoeditoren konzentriert sich Whisk auf kreative Erkundung statt auf pixelperfekte Ergebnisse.

Es ermöglicht Benutzern, Kategorien neu zu mischen – beispielsweise ein Bild in ein Plüschtier, eine Emailleschnalle oder einen Aufkleber zu verwandeln – indem sie Eingaben anpassen oder Text einfügen, um bestimmte Details zu steuern.

Google betont, dass die Ergebnisse die „Essenz“ eines Themas einfangen, was bedeutet, dass einige Variationen, wie z. B. Änderungen der Frisur oder des Hauttones, auftreten können.

Die Nobelpreis-prämierte Expertise von DeepMind bildet die Grundlage für Whisk.

Whisk nutzt die neuesten Entwicklungen von DeepMind, der KI-Sparte, die Google 2014 übernommen hat.

Die KI-Forschung von DeepMind trug dazu bei, dass zwei Mitarbeiter den Nobelpreis für Chemie 2024 für Entdeckungen zur Proteinstruktur erhielten.

Dies unterstreicht den Ruf des Labors, technologische Grenzen zu verschieben, der sich nun auch auf kreative Anwendungen wie Whisk erstreckt.

Whisk positioniert Google außerdem als führendes Unternehmen im Bereich benutzerfreundlicher KI.

Während das ursprüngliche Text-zu-Bild-Tool Gemini für die Produktion historisch ungenauer Bilder kritisiert wurde, versucht Whisk, ähnliche Fallstricke zu vermeiden, indem es sich auf abstrakte, explorative Ergebnisse statt auf exakte Repliken konzentriert.

KI-Innovationen schüren Rivalität unter Technologiegiganten

Die Vorstellung von Whisk durch Google unterstreicht die umfassendere Strategie des Unternehmens, die Dominanz bei KI-gesteuerten Verbraucherprodukten zu erlangen.

Der Wettbewerb ist hart, denn OpenAI hat vor Kurzem Sora vorgestellt, einen Generator für Videos aus Texten.

Google möchte seinen Vorsprung festigen, indem es Whisk mit den Funktionen von Gemini und Imagen 3 integriert, was auf eine Verschiebung hin zu dynamischen, multimodalen KI-Tools hindeutet.

Dan Ives, Aktienanalyst bei Wedbush Securities, sieht Whisk als Teil von Googles „Schatztruhe“ an Angeboten für das Jahr 2025, neben der Zusammenarbeit mit Samsung und Qualcomm an einem neuen Android-Betriebssystem.

Diese Initiativen zeigen Googles Bemühungen, sich in der hoch lukrativen und wettbewerbsintensiven KI-Landschaft einen Vorsprung zu verschaffen.

Generative KI-Tools wie Whisk haben die Fantasie der Öffentlichkeit geweckt, aber auch Kritik auf sich gezogen.

So sorgten die früheren Probleme von Gemini mit historisch ungenauen Bildausgaben für Bedenken hinsichtlich der Zuverlässigkeit von KI.

Whisk versucht, diese Herausforderungen zu meistern, indem es sich auf fantasievolle, benutzergesteuerte Kreationen konzentriert.

Da Google seine Angebote ständig weiterentwickelt, wird die erste Einführung des Tools als Website für US-Benutzer ein wichtiger Testbereich für zukünftige Updates und Iterationen sein.

Googles KI-Ambitionen

Das Debüt von Whisk markiert eine umfassendere Entwicklung in der Verwendung von KI für die Kreativität der Verbraucher.

Durch den Fokus auf benutzerfreundliche Schnittstellen und die Integration fortschrittlicher Technologien wie Gemini möchte Google den Zugang zu generativer KI demokratisieren.

Der Wettbewerb bleibt jedoch hart, da konkurrierende Plattformen die Grenzen dessen ausloten, was KI leisten kann.