Krea 公司发布了一款名为 FLUX.1-Krea 的 AI 图像生成模型,其核心目标是解决当前 AI 图像普遍存在的“AI 外观”问题,例如过度光亮、皮肤蜡质感和滥用背景虚化。文章指出,现有模型过度追求内容的“正确性”而非美学,并依赖少数带有偏见的审美评估器,导致生成结果趋于平庸。通过对比测试,FLUX.1-Krea 在确保内容准确的同时,成功生成了更自然、更具艺术感的图像。这预示着 AI 模型的未来将走向“有主见的模型”,即针对特定审美进行优化,而不是追求通用性,这将使 AI 的设计偏好更加明确,并在定性任务上取得更大进展。
“AI 外观”:一个普遍问题
从 Midjourney 到 Gemini,当前主流的 AI 图像生成模型都存在一种共同的视觉风格:图像光亮、皮肤呈蜡质感、过度使用背景虚化(散景)。无论是爱好者还是专业人士,都在试图通过复杂的提示词或微调模型来摆脱这种“AI 味”,但效果有限。
Krea 公司新推出的开源模型 FLUX.1-Krea,正是为了解决这个问题而生。
“AI 外观”为何普遍存在?
Krea 的分析指出了几个根本原因,解释了为什么多数模型会生成风格相似的平庸图像。
过度关注“正确性”而非美学 模型开发者长期以来更关心技术能力的实现,例如能否画出骑马的宇航员,或者能否正确渲染文字。
在追求技术能力和基准测试优化的过程中,早期图像模型那种混乱而真实的外观、风格的多样性和创造性的融合,都被放在了次要位置。
依赖少数有偏见的审美评估器 与语言模型依赖少数基准测试一样,图像模型也依赖少数审美评估器来判断优劣。这导致了结果的趋同。
我们发现,常用于筛选高质量训练图像的 LAION Aesthetics 模型,严重偏向于描绘女性、模糊的背景、过度柔和的纹理和明亮的图像。依赖这类模型会给 AI 的先验知识中增加隐性偏见。
将多种审美融合成无趣的平均值 试图将所有用户的偏好数据融合到一个通用模型中,结果往往不尽人意。 > 假设一个用户喜欢高级时尚摄影,另一个用户喜欢极简主义绘画。如果将这两种审美偏好混合在一起,最终得到的模型无法让任何一方满意。
对比测试:FLUX.1-Krea 的表现
为了验证 FLUX.1-Krea 的效果,测试者使用了一个巧妙的方法:先让 Claude AI 根据一张真实照片生成描述性提示词,再将这个相同的提示词分别输入给 GPT-4.1 和 FLUX.1-Krea。
测试 1:静物与猫 GPT-4.1 的生成结果更“正确”,严格遵循了提示词中的“温暖”等描述。相比之下,FLUX.1-Krea 的图像虽然在细节上有所出入,但整体感觉更自然、更可取。
测试 2:人物肖像 这个例子最能说明问题。GPT-4.1 的生成结果是典型的“AI 外观”:皮肤过度光滑油亮,背景虚化严重。而 FLUX.1-Krea 的结果则完全没有这种感觉,图像更真实,尤其是在处理人像时,成功避免了“AI 外观”的通病。
测试 3:建筑与街景 GPT-4.1 的图像依然显得“光亮”和过于完美。FLUX.1-Krea 则生成了一种更接近街头快照的感觉,尽管构图相似,但成功避开了“AI 外观”。
未来趋势:有主见的模型
AI 模型在数学和编码等可验证对错的领域进步神速,但在创意写作等定性任务上却进展缓慢。Krea 的实践揭示了原因:审美偏好无法用通用指标来衡量,而将多种审美混合只会产生平庸的结果。
未来的趋势将是“有主见的模型”(Opinionated Models)。
专业化取代通用化 模型开发者将不再追求“一刀切”的通用模型,而是会做出特定的审美选择,以使自己的模型脱颖而出。例如,动画工作室或制作公司可以为自己的特定风格构建专属模型。
让偏见显性化 AI 从来都不是客观中立的机器,它的结果反映了训练数据和设计选择。有主见的模型将这种偏好和设计选择变得明确。这不仅限于图像生成,在文本生成领域也同样适用。
随着模型训练成本的降低,我们将看到越来越多针对特定领域和审美的专业化模型出现。这标志着 AI 在处理主观和定性任务时,将进入一个更加成熟和多元化的新时代。