迎战 Google Gemini，OpenAI 传即将端出 GPT-Vision 以及多模态 AI「Gobi」

随着 Google 即将发布多模态（multimodal）语言模型挑战 OpenAI 的 GPT-4，OpenAI 也正摩拳擦掌准备迎击，据报导，OpenAI 正准备推出 GPT-4 的图像理解能力，这是曾经在 GPT-4 发布时引发轩然大波的能力——可以仅凭一张手绘网页图，就能产生整个网页的程式码。目前除了少部分测试用户之外，一般 GPT-4 用户无法使用这项能力。

现在 GPT-4 最大竞争对手之一，就是秋季即将发表的 Google AI 模型 Gemini。为了对抗 Gemini，OpenAI 可能会以「GPT-Vision」这个名字，正式向公众推出 GPT-4 图像理解能力。在 OpenAI 刚发布的 DALL-E 3 中整合了 ChatGPT，让使用者可以用聊天机器人来产生提示词，而不用亲自输入复杂详细的提示。GPT-Vision 也有可能与 DALL-E 3 相互整合。

GPT-4 这些新功能可能会在 OpenAI 将於 11 月首次举办的开发者大会上公布。先前，OpenAI CEO Sam Altman 曾暗示他将在那天宣布一个「很棒的东西」，但预计应该不会是 GPT-4.5 或者 GPT-5。

此外，根据 The Information 报导，OpenAI 内部还有一个全新的 AI 模型，代号为 Gobi，该模型从一开始就被设计为多模态，未来有可能成为 GPT-5。

核稿编辑：Chris

快加入 INSIDE Google News 按下追踪，给你最新、最 IN 的科技新闻！

Related Posts