Ideogram 4开源:93亿参数从零训练的图像模型,文字渲染能力吊打同行

93亿参数,从零训练,专为设计场景打造——Ideogram发布了他们的第一个开源图像生成模型。

什么是Ideogram 4?

Ideogram 4是Ideogram公司发布的首个开源权重(open-weight)文生图模型。这不是某个现有模型的微调或蒸馏版本,而是从零开始训练的93亿参数Diffusion Transformer(DiT)模型,采用34层单流架构。

项目在GitHub上有1400+星,模型权重发布在Hugging Face上。

核心优势

文字渲染:这是Ideogram 4最突出的能力。在图像中生成可读、准确的中文和英文字排版,包括标志、海报、标题等。目前其他开源模型在这个方面普遍做得不好。

原生2K分辨率:不需要后处理或超分,直接生成高分辨率图像。

JSON布局控制:可以通过JSON格式精确控制图像中元素的位置、颜色、文字区域和坐标。这对设计工作流来说非常实用——你不再只是写一段自然语言描述然后”听天由命”。

多语言文字支持:不仅支持英文,中文等其他语言的文字渲染也有不错的效果。

怎么用?

方式一:Diffusers(推荐)

pip install -U diffusers transformers accelerate

加载模型后即可使用标准的Diffusers推理流程。

方式二:Hugging Face模型

可用的模型版本:

  • ideogram-ai/ideogram-4(完整精度)
  • ideogram-ai/ideogram-4-fp8(FP8量化,显存需求更低)
  • NF4版本(CUDA设备)

方式三:ComfyUI集成

1. 下载FP8或NVFP4权重,放到 ComfyUI/models/diffusion_models 目录

2. 下载 flux2-vae.safetensors 作为VAE

3. 在ComfyUI中构建工作流即可使用

和其他开源模型对比

Ideogram 4在文字渲染方面声称是同参数量级开源模型中最强的。在93亿参数的规模上,它”远未达到scaling limit”,意味着Ideogram未来还会有更大的版本。

与FLUX等竞品相比,Ideogram 4的差异化在于其对设计场景的专注——精确的布局控制和高质量的文字渲染,让它更适合做海报、标志、UI mockup等设计类任务,而不是单纯的艺术图像生成。

适合谁?

设计师:需要快速生成包含文字的设计稿、海报、社交媒体图片

开发者:需要在应用中集成高质量的文生图能力

内容创作者:需要带文字的封面图、缩略图、信息图

AI爱好者:想体验最新的开源图像生成技术

硬件需求

完整精度版本需要较大的显存(估计24GB+)。FP8版本可以在16GB显存的显卡上运行。NF4版本进一步降低了门槛。如果你有8GB显存的消费级显卡,可能需要等待进一步的量化优化。

本文参考来源:GitHub – ideogram-oss/ideogram4

© 版权声明
THE END
喜欢就支持一下吧
点赞12分享
评论 抢沙发

请登录后发表评论

    暂无评论内容