Google memperkenalkan Whisk, alat imej kreatif yang dikuasakan oleh Gemini

Google memperkenalkan Whisk, alat imej kreatif yang dikuasakan oleh Gemini
Diya Poddar
18 Dis 2024, 15:52 PTG
  • Tidak seperti editor foto tradisional, Whisk memfokuskan pada penerokaan kreatif dan bukannya hasil piksel yang sempurna.
  • Keluaran Whisk menandakan persaingan yang semakin meningkat dengan Sora OpenAI.
  • Whisk pada mulanya tersedia untuk pengguna AS, dengan kemas kini lanjut dirancang.

Perlumbaan AI generatif industri teknologi semakin kompetitif apabila Google melancarkan Whisk, alat yang direka untuk mencipta imej unik daripada foto yang dimuat naik pengguna.

Didedahkan melalui Google Labs, Whisk membenarkan pengguna di AS mengadun semula subjek, gaya dan tetapan ke dalam visual baharu tanpa memerlukan gesaan teks.

Ia dibina berdasarkan kemajuan AI Google DeepMind, mempamerkan teknologi Gemini dan Imagen 3.

Langkah ini menyerlahkan tumpuan Google untuk menyampaikan alatan AI yang boleh diakses sambil bersaing dengan rangkaian produk pengguna OpenAI, termasuk penjana teks-ke-video Sora.

Apakah Whisk dan bagaimana ia berfungsi?

Whisk menawarkan pandangan baharu tentang kreativiti dikuasakan AI.

Pengguna boleh memuat naik imej yang mewakili subjek, tetapan atau gaya.

Platform memproses input ini menggunakan Gemini, model asas AI Google yang dilancarkan pada Disember 2023, yang menjana kapsyen untuk kandungan tersebut.

Kapsyen ini dimasukkan ke dalam DeepMind's Imagen 3, penjana teks ke imej.

Tidak seperti editor foto tradisional, Whisk memfokuskan pada penerokaan kreatif dan bukannya hasil piksel yang sempurna.

Ia membolehkan pengguna mengadun semula kategori—seperti menukar imej menjadi mainan mewah, pin enamel atau pelekat—dengan melaraskan input atau memasukkan teks untuk membimbing butiran khusus.

Google menekankan bahawa output menangkap "intipati" subjek, bermakna beberapa variasi, seperti perubahan pada gaya rambut atau ton kulit, mungkin berlaku.

Kepakaran DeepMind yang memenangi Hadiah Nobel menyokong Whisk

Whisk memanfaatkan perkembangan termaju daripada DeepMind, bahagian AI yang diperoleh Google pada tahun 2014.

Penyelidikan AI DeepMind menyumbang kepada dua pekerja memenangi Hadiah Nobel Kimia 2024 untuk penemuan struktur protein.

Ini menekankan reputasi makmal untuk menolak sempadan teknologi, yang kini meluas kepada aplikasi kreatif seperti Whisk.

Whisk juga meletakkan Google sebagai peneraju dalam AI mesra pengguna.

Walaupun alat teks-ke-imej awal Gemini menghadapi kritikan kerana menghasilkan imej yang tidak tepat dari segi sejarah, Whisk bertujuan untuk mengelakkan perangkap yang sama dengan memfokuskan pada output yang abstrak dan penerokaan dan bukannya replika yang tepat.

Inovasi AI mendorong persaingan dalam kalangan gergasi teknologi

Pelancaran Whisk Google menyerlahkan strateginya yang lebih luas untuk menguasai produk pengguna dipacu AI.

Persaingan adalah sengit, dengan OpenAI baru-baru ini memperkenalkan Sora, penjana teks-ke-video.

Google berhasrat untuk mengukuhkan kelebihannya dengan menyepadukan Whisk dengan keupayaan Gemini dan Imagen 3, menandakan peralihan ke arah alatan AI yang dinamik dan berbilang modal.

Dan Ives, seorang penganalisis ekuiti di Wedbush Securities, melihat Whisk sebagai sebahagian daripada "peti harta karun" Google untuk tawaran 2025, di samping kerjasamanya dengan Samsung dan Qualcomm pada sistem pengendalian Android baharu.

Inisiatif ini menunjukkan usaha Google untuk mengekalkan kelebihan dalam landskap AI yang sangat menguntungkan dan berdaya saing.

Alat AI Generatif seperti Whisk telah menangkap imaginasi awam tetapi juga menghadapi penelitian.

Sebagai contoh, isu awal Gemini dengan output imej yang tidak tepat dari segi sejarah menimbulkan kebimbangan tentang kebolehpercayaan AI.

Whisk berusaha untuk menavigasi cabaran ini dengan memfokuskan pada ciptaan yang imaginatif dan terarah pengguna.

Memandangkan Google terus memperhalusi tawarannya, pelancaran awal alat sebagai tapak web untuk pengguna AS akan menyediakan tempat ujian kritikal untuk kemas kini dan lelaran masa hadapan.

Cita-cita AI Google

Kemunculan sulung Whisk menandakan evolusi yang lebih luas dalam cara AI digunakan untuk kreativiti pengguna.

Dengan memfokuskan pada antara muka mesra pengguna dan menyepadukan teknologi canggih seperti Gemini, Google menyasarkan untuk mendemokrasikan akses kepada AI generatif.

Walau bagaimanapun, persaingan kekal sengit, dengan platform saingan menolak sempadan apa yang boleh dicapai oleh AI.