上周(3 月 26 日 ),OpenAI 突然来了一个更新,将 GPT-4o 模型集成了图像生成功能,正式向 ChatGPT 的 Plus、Pro、Team 及免费用户开放。同时,该功能在 Sora 平台也已同步启用。经测试,Plus 用户几乎没有使用次数限制,在 Sora 上可以最多单次生成 4 张图片,体验更好。( 由于访问量过大,现在已经限制为两张)
观察各种测试案例,可以发现 GPT-4o 能够实现多种神奇的功能或特性,包括主体关系控制、多视图生成、精准轮廓的风格迁移、知识理解能力、多轮对话编辑能力、多元素的一致稳定性控制、复杂文字嵌入和排版等。
实际上,一句话总结就是超精准的指令遵循,以及自主生成部分的可靠性。
OpenAI 的 CEO Sam Altman 表示此举将开启创作自由的新高峰。
如果没有深度融入创作者的工作流中,创作自由不过是随口说说,所以目前网上零散的案例并没有太高的说服力。
为了测试 Sam Altman 是不是在吹牛,知危编辑部做了一个深度测评,用一个主题和多轮对话,将上面提到的特点一次性测试完成。简单来说,就是开局一只柴犬,用 Sora( 也就是 GPT-4o 的图片生成能力 )来做一个中世纪 RPG 游戏的概念设计。
怎么做?很简单,给柴犬穿上盔甲,通过时空隧道送到中世纪就行了。
实测效果表明,GPT-4o 画图的前后一致性实在太惊人了。画了几十张图,就都没有跑偏。
为了展示这种一致性,我们暂时跳过画图的过程、顺序和提示词,先展示一下成品样图。
序章:使命的开始。传说中,在古老的兰斯王国,被诅咒的石头城堡已经被黑暗魔法侵蚀数百年。
其中栖居着可怕的橘猫魔 —— 一个吞噬灵魂、操控城堡的黑暗法师。
汉字生成还是有些问题,但是能看懂
王国最后的希望,就寄托在这位身披银白色板甲的柴犬骑士身上。他的名字叫艾伦,手中的长剑 " 王国的黎明 " 是王室传承的神器。
年轻的柴犬骑士将面临极端危险的任务。他不仅要打败橘猫魔,还得面对城堡中9种强大怪物的阻挠。
他感到既兴奋又紧张,急急忙忙清点装备。
出发!
当艾伦踏入诅咒城堡的瞬间,第一个考验已悄然而至。石之精灵——那个能融入石墙的微小怪物,突然从墙面裂缝中弹出。利爪闪烁,尖啸划破寂静。
艾伦本能地侧身,长剑一挥,精灵应声而碎。
这只是开始,城堡似乎在用最微小的守卫测试他的决心。
随着深入城堡,艾伦遇到越来越强大的敌人。
腐烂蘑菇骷髅、暗影鼠群、破碎铠甲傀儡……
每一个怪物都仿佛是这座诅咒城堡漫长历史的见证者。
在城堡的深处,他遇到了最危险的对手之一:全身覆盖神秘符文的狼人。
那是一个强大到令人窒息的存在,仿佛随时可以撕裂现实。
关键时刻,艾伦召唤了之前在高层的城楼战斗中降服的腐肉骑士和瘟疫乌鸦。
藤蔓缠绕,乌鸦群包围,符文狼人瞬间破防。他趁机给予致命一击,击败了这个强大的守卫。
在进入城堡最高的大厅之前,柴犬骑士在一个碑文上读到了橘猫魔的身世,以及王国灾厄的根源。
汉字生成依然有些崩,但是依然能看懂
打开大门后,柴犬骑士终于和橘猫魔面对面。
一言不合,橘猫魔瞬间黑化和巨大化。这是一个已经与城堡融为一体的存在,半神半魔,操控着数百年的黑暗力量。
战斗一触即发!
双方对峙,力量在空气中激荡;能量激烈碰撞,周围空间扭曲;艾伦积蓄所有力量,释放 " 王国的黎明 " 最强一击。
当最后一缕黑暗消散,艾伦站在废墟中。橘猫魔彻底被击败,城堡开始恢复光明。远处,阳光透过破损的窗户洒落。橘猫魔留下的魔法袍,此刻安静地悬浮在艾伦面前。这是战利品,也是王国新的希望。
当他披上这件充满古老魔法的袍子,瞬时就将魔法与力量相结合,领悟了四个新的招式:猫爪裂空斩、猫影穿刺、猫尾旋风、猫步震地刀。
王国重新恢复了昔日里宁静祥和。
柴犬骑士没有停下脚步,他知道邪恶的根源没有被彻底清除,于是继续踏上征程。
站在一片灰暗的悬崖边缘,魔法袍轻轻飘动。他背对着腐烂的沼泽,长剑横在背后,宽大的袍子上点缀着青绿色的符文。
远处,腐烂的树木如同巨大的骸骨,在雾气中若隐若现,断裂的石桥犹如一根被折断的脊梁,横跨在死寂的沼泽之上。
这将是柴犬骑士要面临的第二个难关:腐败沼泽深渊。
以上是知危编辑部臆想出的 RPG 游戏《 诅咒世界:破碎王国 》的开头,所有图片均为 GPT-4o 生成。
在构想中,破碎王国整个世界是破碎的孤岛连接而成,每个关卡都是这个破碎世界的一个层级,层级之间并非直线连接,而是通过扭曲的空间通道相互链接。
世界构成为:
底部核心:诅咒城堡;
第二层:腐败沼泽深渊;
第三层:冰封王座高原;
第四层:灼烧熔炉废墟;
第五层:暗影织网迷宫;
顶层:时空破碎祭坛。
战斗才刚刚开始。
注:此动图并非 4o 生成,而是Sora生成的视频
好了,游戏设计到此为止。我们回过头来评估一下生成效果。
可以说,从头到尾,柴犬和其它怪物的形象都没有发生太大偏差,甚至装备、城堡都保持了很好的一致性,这是整个过程中最深刻的体会。
橘猫魔的身世背景介绍展示了 GPT-4o 嵌入大量文字的强大能力,GPT-4o目前对非拉丁文字的生成还不擅长,但还是那句话,你莫名其妙基本能读懂。
我们给 GPT-4o 的提示词是这样的:
以下是橘猫魔的详细档案,请用一个中世纪羊皮纸的形式呈现以下信息:
名称:橘猫魔
生平背景: 橘猫魔原本是一位王国最强大的法师,精通黑暗魔法和古老禁忌咒术。数百年前,他因追求永生和至高无上的力量,背叛了魔法师协会,将整个石头城堡作为自己的魔法实验场。通过献祭城堡中的所有居民,他完成了一个惊天动地的仪式,将自己与城堡融为一体,成为了一个半神半魔的存在。
征服石头城堡的过程:
能力属性:
武器与魔法装备:
主武器:灭世之爪
每次攻击能吸收敌人10%的生命力
副武器:城堡意志权杖
能召唤城堡内任何区域的守卫
这些文字也被 GPT-4o 提取到了橘猫魔的资料卡中,但是你仔细看会发现,属性还是有一些是标错了的。
城堡怪物图谱是通过对每个怪物都指定一个描述来生成的,基本都遵循了指令。这种能力属于多元素的一致稳定性控制,在制作统一风格的场景、人物、装备元素时特别有用。
上图我们给 GPT-4o 的提示词是这样的:
柴犬骑士在石头城堡( 被诅咒的城堡 )的冒险中,在找到最后的 boss 之前,将面临 6 种小型怪物,3 种中型怪物的阻挠,以下是这些怪物的描述:
小型怪物 ( 6 种 ) :
①石之精灵:能融入石墙的微小尖啸怪,突然从墙面弹出攻击敌人。
②腐烂蘑菇骷髅:从地牢潮湿角落爬出的会移动的植物骷髅。
③暗影鼠群:能在黑暗中集群攻击,如幽灵般迅速移动的诡异啮齿生物。
④破碎铠甲傀儡:由残缺铠甲组成的会自行移动的战争残骸。
⑤诅咒蝙蝠:翅膀带有诡异符文,能发出令人战栗的尖啸。
⑥瘟疫乌鸦:身体散发黑色瘟疫雾气的诡异禽类。
中型怪物 ( 3 种 ):
①石像鬼守卫:能瞬间变成石头并偷袭的半人形怪物。
②腐肉骑士:半腐烂的骑士,身上缠绕不洁的藤蔓。
③符文狼人:全身覆盖神秘符文的半兽人形态。
请生成一个游戏页面( 怪物图谱 )展示这些怪物的简笔画,注意页面排布美观整齐,怪物特征和页面风格要符合中世纪 RPG 的世界观。
这组怪物图谱的画风,也轻易地迁移到了后续 Doge 获得新技能的制作以及世界观地图的制作中。
制作出具有一致性图像的关键,在于合适的参考图和详细的提示词( 很大一部分提示词借助了 Claude 生成,这何尝又不是一种 NTR 呢 )。比如柴犬骑士在第二关开头的场景。
对于这个场景的生成,结合第一关开头的构图、柴犬骑士的本体形象,就能更好保证一致性。
对于游戏完整地图的生成。
提供相同画风的图谱、剑谱,就能控制画风的一致性。
空间构图的设计,对画面效果的呈现也很重要。
比如,如果用比较简单的提示词,来生成柴犬骑士和橘猫魔的对峙,看起来像在拉家常。
我们给 GPT-4o 的提示词是这样的:
接下来,加上空间构图提示词。
氛围感一下子就出来了。
整个生成过程当然不是一镜到底,还是会有不少 Bug,以及难以实现的细节。
比如柴犬骑士有时候双足站立有时候不是,甚至会出现同时有四只脚和两只手的情况,物品栏中的头盔形状和柴犬骑士实际佩戴的不一样,城堡在被诅咒前后的外形细节偏差等等。
比如生成装备选择画面的时候,调了很多次提示词都没有得到满意的效果,当然也不排除我们所使用的提示词不够专业和系统的原因。
怪物图谱生成如果元素过多或不能划分为 m*n 的矩形( 比如 16=4*4 ),也可能导致生成效果不规整,视觉排布凌乱。
最难实现的细节是不同主体的复杂交互,比如柴犬骑士击中石之精灵的瞬间、腐肉骑士和符文狼人打斗的瞬间,都很难遵循详细的提示,呈现效果一般。
细节错误可以用局部编辑完善,但对图片进行局部编辑的时候,不能完全保证修改范围局限在指定的位置。
比如第一次生成的游戏地图,在 “ 冰封王座高原 ” 部分的英文标注是错误的,应该是 “ Frozen Throne Plateau ”,但写成了 “ Scorching Furnace Ruins ”( 灼热熔炉遗迹 )。
对 “ Scorching Furnace Ruins ” 涂抹掩码,提示进行修改并重新生成后。最终效果是满意的,但最顶部的 “ 时空破碎祭坛 ” 的外形被修改了。
到这里,评测就结束啦!
总体而言,GPT-4o 的生图功能,相比过往其它生图应用的体验,不听话、乱画没说的、画的不像话,这种令人崩溃的体验,少了太多太多。只要用 Sora 一次生成 4 张图,获得想要的结果的概率极大。
在 “ 柴犬骑士勇闯破碎王国 ” 的概念设计中,GPT-4o 展现了精准的指令遵循、惊人的图像一致性,这种能力,正是将技术从工具升华为创作伙伴的关键所在。可以说 GPT-4o 为创作者打开了一扇通向想象的大门,看来 Sam Altman 没有说的太夸张。
当然,GPT-4o 不是终点,而是一个令人兴奋的起点。
https://openai.com/index/introducing-4o-image-generation/