超越GPT-4o！Google發佈新圖像生成AI模型Gemini 2.5 Flash Image

關閉

鉅亨網新聞

推薦

利好

利淡

沽空

股價

Google(GOOGL.US) 近日正式推出新一代圖像生成與編輯模型 Gemini 2.5 Flash Image。這款模型允許使用者只需描述文字，就能生成或編輯圖像。其創新之處在於能以極高速度與規模，提供精準、一致且高保真度的圖像編輯效果。

Gemini 2.5 Flash Image 建立在多模態與高階推理能力的 Gemini 2.5 基礎上，能原生理解圖像與文字，讓生成與編輯流程無縫連結。使用者可以：

透過單一指令將多張圖像融合成一張；
在多次編輯中保持主體與角色一致；
進行自然語言驅動的目標化改動（如「更換襯衫顏色」、「移除照片中的人物」）；
無論編輯複雜度多高，都能透過修正保持內容與視覺完整性。

相較於舊款圖像模型，Gemini 2.5 Flash Image 大幅提升了編輯過程中身份與視覺一致性的維持能力。

其關鍵技術特點包括：

精準視覺編輯：支持根據自然語言提示進行高度精準的局部編輯，包括背景模糊、姿勢調整或物體移除。
多模態融合：可接受多張參考圖像並融合，適合製作複雜產品模擬圖或多角色廣告場景。
模板與品牌一致性：在生成資產或產品目錄時，保持風格、品牌與角色一致。
先進推理能力：結合 Gemini 語意知識，可應用於圖表理解、教育註解等任務，而不僅限於擬真圖像生成。
可擴展 API：開發者與企業可透過 Gemini API、Google AI Studio 及 Vertex AI 使用模型，所有生成圖像均內嵌 SynthID 浮水印，以符合 AI 來源追蹤與監管規範。

Gemini 2.5 Flash Image 技術表現

Gemini 2.5 Flash Image 上週其實已經以「nano-banana」的代號出現在大型語言模型競技場 LMArena 中，並獲得了用戶 200 多萬票的認可。

如今正式揭曉後，Gemini 2.5 Flash Image 在文字生成圖片與圖像編輯兩個場景均拿下了全球第一，在圖像編輯榜單上更是獲得 1362 的高分，較第二名的領先幅度接近 15%。

在 Google 公佈的基準測試中，Gemini 2.5 Flash Image 更是在用戶綜合喜好度、人物、創造力、資訊圖表、物件和環境的生成上均領先 GPT-4o 圖像生成、Flux.1 Kontext（max）、Qwen Image Edit 等模型，但在風格化能力上與 GPT-4o 圖像生成仍有差距。

專家與圖像愛好者均讚譽 Gemini 2.5 Flash Image 擬真效果與語意控制能力，即使多次編輯，也能保持自然且貼近原素材。

Gemini 2.5 Flash Image 價格、使用與未來規劃

目前，Gemini 2.5 Flash Image 以預覽模式提供，價格為 30 美元 / 100 萬個輸出 token，每張圖片為 1290 個輸出 token，每張圖像價格約為 0.039 美元。所有其他輸入和輸出模態均遵循 Gemini 2.5 Flash 定價。

隨著與 OpenRouter 及 fal.ai 等平台合作，企業與開發者整合快速成長。所有生成圖像皆內嵌不可見 SynthID 浮水印，保障可追蹤性與 AI 倫理合規性。Google 也持續優化長文本渲染與更精細的一致性控制。

Gemini 2.5 Flash Image 不僅速度更快、創造力更高，其技術突破在於終於解決了生成式 AI 長期面臨的「一致性與情境感知圖像編輯」難題，為創作者、開發者與企業開啟了全新的工作流程與創作可能性。

(美股為即時串流報價； OTC市場股票除外，資料延遲最少15分鐘。)

新聞來源 (不包括新聞圖片): 鉅亨網

免責聲明 : 以上資訊僅供參考。AASTOCKS.com Limited對以上資訊的內容不承擔任何責任，對其準確性，完整性，品質，及時性，或可靠性不作任何陳述或予以認可，並明確表示不對任何由本資訊的全部或部分內容引致之損失或損害承擔任何法律責任或為其引起的損失負責。以上資訊或反映了相關文章或專題作者的的個人意見和觀點，並不代表AASTOCKS.com Limited的立場。以上資訊的任何內容均不構成AASTOCKS為任何投資作出招攬、提出要約、意見或推薦，或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務。投資者必須按其本身投資目標及財務狀況自行作出投資決定。

免責聲明