在最新一期的谷歌開發(fā)者節(jié)目中,Google DeepMind團隊震撼發(fā)布了一款名為Gemini 2.5 Flash Image的模型,這款模型在圖像生成與編輯領(lǐng)域展現(xiàn)了前所未有的能力。
Gemini 2.5 Flash Image不僅具備快速生成高質(zhì)量圖像的技能,更能在多輪對話中保持場景的一致性,為用戶帶來全新的互動體驗。這一革命性的圖像生成技術(shù),無疑樹立了業(yè)界的新標(biāo)桿。
在此次發(fā)布中,Google DeepMind背后的研發(fā)團隊也首次亮相。其中,高級產(chǎn)品經(jīng)理Logan Kilpatrick尤為引人注目。他不僅在AI開發(fā)者社區(qū)中享有盛譽,還曾在OpenAI、Apple和NASA等多個知名機構(gòu)任職。在Google,他領(lǐng)導(dǎo)了Gemini 2.0 Flash本地圖像生成功能的推出,使開發(fā)者能夠通過自然語言提示輕松生成和編輯圖像。
研究工程師Kaushik Shivakumar、Robert Riachi同樣為Gemini 2.5 Flash Image的成功研發(fā)做出了重要貢獻。Kaushik在加利福尼亞大學(xué)伯克利分校獲得了計算機科學(xué)學(xué)士學(xué)位,并在該校的AUTOLab實驗室攻讀碩士學(xué)位,專注于機器人技術(shù)的研究。而Robert則專注于多模態(tài)AI模型的開發(fā)與應(yīng)用,尤其在圖像生成和編輯領(lǐng)域有著顯著貢獻。
在節(jié)目現(xiàn)場,研究人員展示了Gemini 2.5 Flash Image的幾個亮點功能。當(dāng)被要求給Logan“穿上一件巨大的香蕉服”時,模型僅用了十幾秒就生成了一張既保留了Logan臉部特征,又加入了芝加哥街頭背景的圖片。而當(dāng)提示“讓它變成納米(Nano)”時,模型則巧妙地生成了Logan的“迷你Q版”形象,依舊保持了香蕉服的設(shè)定。
更令人驚嘆的是,Gemini 2.5 Flash Image能夠通過自然語言指令進行多輪互動,且在多次編輯中保持場景一致性,無需輸入冗長的提示詞。過去圖像生成AI常因“寫字像外星文”而備受詬病,而Gemini 2.5 Flash Image已經(jīng)能在圖中正確生成簡短的文字,如“Gemini Nano”。
團隊甚至將文本渲染能力作為模型評估的新指標(biāo),因為它能反映模型生成圖像“結(jié)構(gòu)”的能力,并作為衡量整體圖像質(zhì)量的信號,有助于指導(dǎo)模型改進。Gemini 2.5 Flash Image還引入了“交錯生成機制(interleaved generation)”,能夠面對復(fù)雜、多點修改的任務(wù),將一次性指令拆解成多輪操作,逐步生成與編輯圖像,實現(xiàn)“像素級別的完美編輯”。
在實際應(yīng)用場景中,Gemini 2.5 Flash Image同樣大顯身手。無論是家居設(shè)計、人物OOTD還是廣告牌設(shè)計等領(lǐng)域,它都能快速生成多種方案,且保持角色的面部和身份一致性穩(wěn)定。這一特性極大地提升了創(chuàng)作效率,使得用戶能夠在短時間內(nèi)獲得滿意的作品。
對于開發(fā)者而言,在選擇Imagen和Gemini之間也需權(quán)衡利弊。Imagen專注于文本到圖像的任務(wù),在特定需求方面進行了優(yōu)化,如單張圖像的高質(zhì)量生成、快速輸出以及成本效益等。而Gemini則更適合復(fù)雜多模態(tài)任務(wù),支持生成+編輯、多輪創(chuàng)意迭代,并能理解模糊指令。Gemini還能利用世界知識理解模糊提示,適合創(chuàng)意場景,操作也更為方便。