编译 | 金碧辉
编辑 | 程茜
智东西4月24日报道,今日凌晨,OpenAI发布图像生成模型gpt-image-1,目前已经面向全部开发者开放API。该模型不仅能够生成高质量图像,而且可以完成一些更为高级定制的功能,比如可以通过设置参数来控制审核敏感度,同时还可以控制质量、生成速度、背景、输出格式等。
与ChatGPT之前的图像生成功能相比,gpt-image-1不仅允许开发者控制生成图像的敏感度、生成效率、背景、输出格式、渲染质量和压缩质量,而且在以下几个技术层面做了升级,对敏感度进行分级控制;使单张图像生成耗时从ChatGPT时期的平均3.2秒缩短至0.8秒,完成生成效率优化;扩展输出格式至静态图、动态图、MP4、PSD等格式,升级到多格式输出支持;将分辨率细化为三档,进行渲染质量分级;开发平衡算法,做到智能降噪。
此外,新模型支持一次性生成多张图像,使用多张图像作为提示词进行合成,实现类似Photoshop的蒙版功能以及更改图片透明度等功能,这些都是之前版本所不具备的。
目前,gpt-image-1已通过API向全球开发者开放使用。在价格方面,其API使用费用为文本输入每100万token 5美元(折合人民币约为36.05元),图像输入每100万token 10美元(折合人民币约为72.1元)。图像输出每100万token 40美元(折合人民币约为288.39元)。按实际使用情况估算,生成低质量1024×1024图像成本约为每张0.02美元(折合人民币约为0.15元),中等质量图像约为每张0.07美元(折合人民币约为0.50元),高质量图像约为每张0.19美元(折合人民币约为1.37元)。Adobe、Figma等众多知名企业已将该模型集成到其产品中。
▲gpt-image-1模型的API价格
OpenAI联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)今天早晨在社交平台X上赞扬了该模型,并透露gpt-image-1模型与ChatGPT版本在图像生成速度、背景、格式上有不同之处。
▲图为萨姆·阿尔特曼今天早晨在社交平台X上的发言
一、三大核心亮点:多图生成、图像编辑、图像变体
据OpenAI介绍,gpt-image-1是OpenAI目前最新且最先进的图像生成模型。
该模型第一个亮点是可以通过设置n参数来进行图像生成端点,并根据文本提示创建图像。
▲图为gpt-image-1模型生成图像的具体参数
输入具体参数就可以生成一张图像质量高、高保真的图像。同时gpt-image-1能涵盖丰富多样的视觉风格,满足不同的创作需求。
第二个亮点是可以利用用户已经上传的一个或多个参考图像来创建新图像。
▲图为gpt-image-1模型使用4个输入图像来生成包含参考图像中物品的礼品篮的新图像。
第三个亮点是能利用精确的图像编辑功能对用户上传的图像和蒙版进行“修复”(inpainting)操作,蒙版透明区域将被替换,黑色区域保持不变,且蒙版和要编辑的图像必须格式和大小相同,蒙版图像还必须包含alpha通道。
▲图为gpt-image-1模型利用图像编辑功能进行“修复”过的新图像。
此外,据OpenAI透露,API返回的是base64编码的图像数据,图像数据默认格式为png,但用户也可以请求生成jpeg或webp格式。如果使用jpeg或webp格式,用户还可以指定output compression参数来控制压缩级别(0-100%)。例如,输入“output compression=50”的指令gpt-image-1模型将把图像压缩50%。
还需要注意的包括,方形图片以标准质量生成的速度最快,默认大小是1024×1024。
▲图为自定义输出的具体细节。
二、支持高级功能定制,可精细化控制生成效果
基于gpt-image-1,开发者可以通过指定质量、大小、格式、压缩以及是否需要透明背景来自定义输出。例如,默认情况下API返回单个图像,但开发者可以设置“n”参数在单个请求中一次生成多个图像。
目前,图像生成功能仅可通过Image API使用,OpenAI官方表示正积极努力将支持扩展到Responses API。
在价格方面,该模型通过生成专门的图像token来生成图像,延迟和最终成本都与渲染图像所需的token数量成正比,较大的图像尺寸和较高的清晰度设置会消耗更多的token从而产生较高的成本。
▲图为gpt-image-1模型根据消耗的不同的token数量可能产生不同费用。
Image API提供了三个不同功能的端点:第一个端点“Generations”可根据文本提示从头开始生成图像,第二个端点“Edits”能使用新的提示部分或完全修改现有图像,第三个端点“Variations”则用于生成现有图像的变体。
gpt-image-1具有高质量的图像生成和在图像创作中使用世界知识的能力。据OpenAI介绍,用户也可以将专门的图像生成模型DALL·E 2和DALL·E 3与图像API结合使用。
▲图为gpt-image-1模型、DALL·E 2和DALL·E 3的端点以及用例。
三、复杂需求处理时间长,多轮生成难以保证一致性
尽管gpt-image-1模型功能强大且用途广泛,但仍存在一些限制。
在内容审核方面,所有的提示和生成的图像都将根据OpenAI官网的内容发布政策进行过滤。在使用gpt-image-1进行图像生成时,开发者可以使用“moderation”参数控制审核的严格程度,该参数支持“auto”(默认,标准过滤,限制创建某些可能不适合年龄的内容类别)和“low”(限制较少的过滤)两个值。
gpt-image-1在其他方面也有一些限制。比如,该模型在处理复杂的提示可能需要长达2分钟的时间,存在消息延迟现象;同时,在文本渲染上,gpt-image-1相比DALL·E系列有显著改进,但在精确的文本放置和清晰度方面仍可能存在问题;在一致性上,gpt-image-1尽管能够生成一致的图像,但在多轮生成中,对于重复出现的角色或品牌元素,可能偶尔难以保持视觉一致性;在构图控制上,尽管gpt-image-1在遵循指令方面有所改进,但在结构化或对布局敏感的构图中,精确放置元素可能仍有困难。
结语:OpenAI新模型API,解锁图像创作更多可能
OpenAI推出的gpt-image-1模型为开发者带来了强大的图像生成工具,其丰富的功能和特性有望在图像创作、设计等多个领域得到广泛应用。
尽管存在一些限制,但随着技术的不断发展和优化,未来其图像生成能力可能会进一步提升和完善,或为用户带来更多的惊喜和可能。