LL3M:大型语言3D建模师

LL3M 是一个创新的系统,它利用一组大型语言模型来编写 Python 代码,从而在 3D 软件 Blender 中创建和编辑三维资产。该系统能根据用户的文本指令从零开始构建模型,执行复杂的几何操作,并支持迭代式修改。其核心优势在于生成可解释、可编辑的 Blender 代码,不仅能实现自动修正和用户引导的细化,还能构建包含多个对象和层级关系的复杂场景。

工作流程概览

LL3M 的工作流程主要分为三个概念阶段,每个阶段都有不同的模型角色参与,共同完成从粗略到精细的创作过程。

    • 初始创建: 根据用户指令生成一个初步的形状。
    • 自动优化: 系统会自动修正初始模型中不合理的设计(如椅子靠背未连接)或过于简单的几何结构,并进行改进。
    • 用户引导优化: 系统接受用户提出的额外编辑指令,进行交互式的、迭代的 3D 资产生成。

生成与迭代优化是 LL3M 的原生工作模式。这不仅是简单的纠错,更是一个从粗到精、结合了自动优化与用户引导的完整创作流程。

核心能力

多样化的模型生成

LL3M 能够生成形态各异的形状。无论是风车等建筑的精细部件,还是钢琴键、架子鼓等物体的复杂排列,它都能胜任。此外,它还能处理丰富的外观(如滑板)和材质属性(如灯座的光泽感)。每个模型都是通过可解释、可编辑的 Blender 代码生成的

一致的风格化处理

LL3M 能够理解并应用统一的风格概念。例如,当收到“将风格改为蒸汽朋克”的指令时,系统能成功地将这个概念应用到不同的帽子模型上,既修改了几何形状,也改变了外观,同时每个模型都保留了独特的细节变化。

材质编辑

系统能够精确地编辑模型特定部分的材质。例如,它可以为刀的刀刃部分通过着色器节点创建复杂的程序化材质。

迭代式创作

LL3M 支持对同一个 3D 资产进行连续多次的编辑。这些修改会忠实地遵循用户指令,只编辑指定元素,同时保持模型原有的核心特征不变。

代码的优势

可解释的代码

系统生成的 Blender 代码易于理解和遵循。代码拥有详细的注释、清晰的变量名和结构化的逻辑。这种可解释性使得用户可以轻松修改变量(如琴键的宽度)或算法逻辑(如键盘的排列模式)。

透明的参数

通过代码生成模型,LL3M 将可解释的参数暴露在代码和 Blender 的节点结构中,让用户可以进行直观的编辑。例如,在生成材质时,系统会创建一整套着色器节点,用户可以直接在 Blender 中调整颜色或条纹图案等视觉属性。

代码的通用性与复用

尽管不同模型的视觉效果差异很大,但它们在代码层面常常共享高级模式,如循环、修改器和节点设置。这种共享结构使得模型能够迁移知识,根据各种指令生成多样化、可编辑和模块化的代码。

场景与层级结构

LL3M 不仅能生成单个物体,还能在一个场景中创建多个对象,并安排它们之间合适的空间关系。它通过实例化和父子关系 (parenting) 等复杂操作来构建场景的层级结构。

当被明确指示时,代码生成代理还能利用父子关系来构建更复杂的单个对象(如台灯),从而生成具有清晰层级结构的模型。在这种结构中,对父对象的变换会传递给其子对象,实现了高效的场景图行为。