ChatGPT4O图像生成功能已向所有免费用户推出
OpenAI创始人Sam Altman:ChatGPT图像生成功能已向所有免费用户推出。
GPT-4o Image 图像生成的功能

这次的主要还有一大特点就是支持中文输出了,但是真的真的巨慢啊~~~~(官方介绍说,每张图片生成需要一分多钟,我看还是保守了,我至少等了五分钟!)
OpenAI终于对之前的图片生成进行升级了。这次的GPT-4o升级,能够输出精确、准确、逼真的图像。
因为图像生成现在是 GPT-4o 的原生功能,可以通过自然对话来细化图像。GPT-4o 可以在聊天上下文中构建图像和文本,并且有很高的一致性。
用户只需在ChatGPT中描述图像(可指定宽高比、色号或透明度等参数),GPT-4o便能在一分钟内生成相应图像。让我们细致看一看:本次更新,突破了以往的哪些边界。
OpenAI在公告中确认,GPT-4o图像生成功能具有以下特点:
精准渲染图像内文字,能够制作logo、菜单、邀请函和信息图等;
精确执行复杂指令,甚至在细节丰富的构图中也能做到;
基于先前的图像和文本进行扩展,确保多个交互之间的视觉一致性;
支持各种艺术风格,从写实照片到插图等。
GPT-4o生成图片效果展示
除了通过GPT-4o可以在ChatGPT中直接生成图像,该模型还整合进了OpenAI的视频生成平台Sora,进一步扩展了其多模态能力。
新模型即日起将作为ChatGPT的默认图像生成引擎,向ChatGPT Free、Plus、Team及Pro用户开放,取代此前使用的DALL-E 3。企业版、教育版以及API接口也将在不久后支持该功能。
据OpenAI官方说明,GPT-4o在多个方面相较于过去的模型进行了改进:
更好的文本集成:与过去那些难以生成清晰、恰当位置文字的AI模型不同,GPT-4o现在可以准确地将文字嵌入图像中;
增强的上下文理解:GPT-4o通过利用聊天历史,允许用户在互动中不断细化图像,并保持多次生成之间的一致性;
改进的多对象绑定:过去的模型在正确定位场景中的多个不同物体时存在困难,而GPT-4o现在可以一次处理多达10至20个物体;
多样化风格适应:该模型可以生成或将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。
作为去年推出的多模态模型,GPT-4o最初的定位是成本优化版的旗舰AI模型,具备生成和理解文本、视频、音频和图像等能力。OpenAI表示,此次精调后的版本使普通用户和企业能够更轻松地创建逼真图像、可读文本段落,乃至公司logo和演示幻灯片等。
项目首席研究员Gabriel Goh透露,GPT-4o取得突破性进展的关键,源于人类训练师对模型数据的标注工作——标注了AI生成图像中的错别字、畸形手脚和面部特征等问题。通过“人类反馈强化学习”(RLHF)技术,模型学会了更精准地遵循人类指令,从而生成更准确且实用的图像。
“人类反馈强化学习”是AI公司用来在初步训练后进一步优化模型的常见技术。鉴于OpenAI的AI系统拥有庞大的用户基础——ChatGPT每周拥有超过4亿用户——这些人工训练师的影响力不可忽视。OpenAI表示,参与该优化过程的训练师团队规模略超百人。
然而,GPT-4o的图像生成技术仍然存在局限性。华尔街日报称OpenAI展示的一个案例中,当用户上传了一张带有两扇窗户的客厅照片,并要求重新布置家具时,AI在重构图像时遗漏了一扇窗户。