Google(GOOGL.US) 近日正式推出新一代圖像生成與編輯模型 Gemini 2.5 Flash Image。這款模型允許使用者只需描述文字,就能生成或編輯圖像。其創新之處在於能以極高速度與規模,提供精準、一致且高保真度的圖像編輯效果。
Gemini 2.5 Flash Image 建立在多模態與高階推理能力的 Gemini 2.5 基礎上,能原生理解圖像與文字,讓生成與編輯流程無縫連結。使用者可以:
相較於舊款圖像模型,Gemini 2.5 Flash Image 大幅提升了編輯過程中身份與視覺一致性的維持能力。
其關鍵技術特點包括:
Gemini 2.5 Flash Image 技術表現
Gemini 2.5 Flash Image 上週其實已經以「nano-banana」的代號出現在大型語言模型競技場 LMArena 中,並獲得了用戶 200 多萬票的認可。
如今正式揭曉後,Gemini 2.5 Flash Image 在文字生成圖片與圖像編輯兩個場景均拿下了全球第一,在圖像編輯榜單上更是獲得 1362 的高分,較第二名的領先幅度接近 15%。
在 Google 公佈的基準測試中,Gemini 2.5 Flash Image 更是在用戶綜合喜好度、人物、創造力、資訊圖表、物件和環境的生成上均領先 GPT-4o 圖像生成、Flux.1 Kontext(max)、Qwen Image Edit 等模型,但在風格化能力上與 GPT-4o 圖像生成仍有差距。
專家與圖像愛好者均讚譽 Gemini 2.5 Flash Image 擬真效果與語意控制能力,即使多次編輯,也能保持自然且貼近原素材。
Gemini 2.5 Flash Image 價格、使用與未來規劃
目前,Gemini 2.5 Flash Image 以預覽模式提供,價格為 30 美元 / 100 萬個輸出 token,每張圖片為 1290 個輸出 token,每張圖像價格約為 0.039 美元。所有其他輸入和輸出模態均遵循 Gemini 2.5 Flash 定價。
隨著與 OpenRouter 及 fal.ai 等平台合作,企業與開發者整合快速成長。所有生成圖像皆內嵌不可見 SynthID 浮水印,保障可追蹤性與 AI 倫理合規性。Google 也持續優化長文本渲染與更精細的一致性控制。
Gemini 2.5 Flash Image 不僅速度更快、創造力更高,其技術突破在於終於解決了生成式 AI 長期面臨的「一致性與情境感知圖像編輯」難題,為創作者、開發者與企業開啟了全新的工作流程與創作可能性。