Ideogram 4开源：93亿参数从零训练的图像模型，文字渲染能力吊打同行

93亿参数，从零训练，专为设计场景打造——Ideogram发布了他们的第一个开源图像生成模型。

什么是Ideogram 4？

Ideogram 4是Ideogram公司发布的首个开源权重（open-weight）文生图模型。这不是某个现有模型的微调或蒸馏版本，而是从零开始训练的93亿参数Diffusion Transformer（DiT）模型，采用34层单流架构。

项目在GitHub上有1400+星，模型权重发布在Hugging Face上。

核心优势

文字渲染：这是Ideogram 4最突出的能力。在图像中生成可读、准确的中文和英文字排版，包括标志、海报、标题等。目前其他开源模型在这个方面普遍做得不好。

原生2K分辨率：不需要后处理或超分，直接生成高分辨率图像。

JSON布局控制：可以通过JSON格式精确控制图像中元素的位置、颜色、文字区域和坐标。这对设计工作流来说非常实用——你不再只是写一段自然语言描述然后”听天由命”。

多语言文字支持：不仅支持英文，中文等其他语言的文字渲染也有不错的效果。

怎么用？

方式一：Diffusers（推荐）

pip install -U diffusers transformers accelerate

加载模型后即可使用标准的Diffusers推理流程。

方式二：Hugging Face模型

可用的模型版本：

ideogram-ai/ideogram-4（完整精度）
ideogram-ai/ideogram-4-fp8（FP8量化，显存需求更低）
NF4版本（CUDA设备）

方式三：ComfyUI集成

1. 下载FP8或NVFP4权重，放到 ComfyUI/models/diffusion_models 目录

2. 下载 flux2-vae.safetensors 作为VAE

3. 在ComfyUI中构建工作流即可使用

和其他开源模型对比

Ideogram 4在文字渲染方面声称是同参数量级开源模型中最强的。在93亿参数的规模上，它”远未达到scaling limit”，意味着Ideogram未来还会有更大的版本。

与FLUX等竞品相比，Ideogram 4的差异化在于其对设计场景的专注——精确的布局控制和高质量的文字渲染，让它更适合做海报、标志、UI mockup等设计类任务，而不是单纯的艺术图像生成。

适合谁？

设计师：需要快速生成包含文字的设计稿、海报、社交媒体图片

开发者：需要在应用中集成高质量的文生图能力

内容创作者：需要带文字的封面图、缩略图、信息图

AI爱好者：想体验最新的开源图像生成技术

硬件需求

完整精度版本需要较大的显存（估计24GB+）。FP8版本可以在16GB显存的显卡上运行。NF4版本进一步降低了门槛。如果你有8GB显存的消费级显卡，可能需要等待进一步的量化优化。

本文参考来源：GitHub – ideogram-oss/ideogram4

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END