Google lança Whisk, uma ferramenta criativa de imagens alimentada pelo Gemini

Google lança Whisk, uma ferramenta criativa de imagens alimentada pelo Gemini
Diya Poddar
18 de dez. de 2024, 04:55 AM
  • Ao contrário dos editores de fotos tradicionais, o Whisk foca na exploração criativa em vez de resultados perfeitos em pixels.
  • O lançamento do Whisk sinaliza uma crescente competição com o Sora da OpenAI.
  • O Whisk está inicialmente disponível para usuários dos EUA, com mais atualizações planejadas.

A corrida da indústria de tecnologia por IA generativa acaba de ficar mais competitiva, com o lançamento do Whisk pelo Google, uma ferramenta projetada para criar imagens exclusivas a partir de fotos enviadas pelos usuários.

Revelado pelo Google Labs, o Whisk permite que usuários dos EUA remixem assuntos, estilos e configurações em novos visuais sem a necessidade de prompts de texto.

Ele se baseia nos avanços de IA do Google DeepMind, apresentando as tecnologias Gemini e Imagen 3.

A mudança destaca o foco do Google em fornecer ferramentas de IA acessíveis enquanto compete com o conjunto de produtos de consumo da OpenAI, incluindo o gerador de texto para vídeo Sora.

O que é Whisk e como ele funciona?

O Whisk oferece uma nova abordagem à criatividade impulsionada por IA.

Os usuários podem carregar imagens que representem assuntos, cenários ou estilos.

A plataforma processa essas entradas usando o Gemini, modelo de base de IA do Google lançado em dezembro de 2023, que gera legendas para o conteúdo.

Essas legendas são alimentadas pelo Imagen 3 da DeepMind, um gerador de imagens a partir de texto.

Ao contrário dos editores de fotos tradicionais, o Whisk foca na exploração criativa em vez de resultados perfeitos em pixels.

Ele permite que os usuários remixem categorias — como transformar uma imagem em um brinquedo de pelúcia, um broche de esmalte ou um adesivo — ajustando as entradas ou incorporando texto para orientar detalhes específicos.

O Google enfatiza que as saídas capturam a "essência" de um assunto, o que significa que algumas variações, como mudanças no penteado ou tom de pele, podem ocorrer.

A expertise premiada com o Prêmio Nobel da DeepMind sustenta o Whisk

O Whisk aproveita os desenvolvimentos de ponta da DeepMind, a divisão de IA adquirida pelo Google em 2014.

A pesquisa de IA da DeepMind contribuiu para que dois funcionários ganhassem o Prêmio Nobel de Química de 2024 por descobertas sobre a estrutura de proteínas.

Isso reforça a reputação do laboratório por ultrapassar limites tecnológicos, que agora se estende a aplicações criativas como o Whisk.

O Whisk também posiciona o Google como líder em IA amigável ao consumidor.

Embora sua ferramenta inicial de texto para imagem, Gemini, tenha enfrentado críticas por produzir imagens historicamente imprecisas, o Whisk visa evitar armadilhas semelhantes, concentrando-se em resultados abstratos e exploratórios, em vez de réplicas exatas.

Inovação em IA estimula rivalidade entre gigantes da tecnologia

O lançamento do Whisk pelo Google destaca sua estratégia mais ampla de dominar os produtos de consumo baseados em IA.

A competição é acirrada, com a OpenAI lançando recentemente o Sora, um gerador de texto para vídeo.

O Google pretende consolidar sua vantagem integrando o Whisk aos recursos do Gemini e do Imagen 3, sinalizando uma mudança em direção a ferramentas de IA dinâmicas e multimodais.

Dan Ives, analista de ações da Wedbush Securities, vê o Whisk como parte do "tesouro" de ofertas do Google para 2025, ao lado da colaboração com a Samsung e a Qualcomm em um novo sistema operacional Android.

Essas iniciativas demonstram o esforço do Google para manter uma vantagem no lucrativo e competitivo cenário da IA.

Ferramentas de IA generativa como o Whisk capturaram a imaginação do público, mas também enfrentaram escrutínio.

Por exemplo, os problemas anteriores da Gemini com saídas de imagens historicamente imprecisas levantaram preocupações sobre a confiabilidade da IA.

A Whisk busca superar esses desafios focando em criações imaginativas e direcionadas pelo usuário.

À medida que o Google continua a aprimorar suas ofertas, o lançamento inicial da ferramenta como um site para usuários dos EUA fornecerá um campo de testes crítico para futuras atualizações e iterações.

As ambições de IA do Google

A estreia do Whisk sinaliza uma evolução mais ampla na forma como a IA é usada para a criatividade do consumidor.

Ao se concentrar em interfaces fáceis de usar e integrar tecnologias avançadas como o Gemini, o Google visa democratizar o acesso à IA generativa.

No entanto, a competição continua intensa, com plataformas rivais ultrapassando os limites do que a IA pode alcançar.