93亿参数,从零训练,专为设计场景打造——Ideogram发布了他们的第一个开源图像生成模型。
什么是Ideogram 4?
Ideogram 4是Ideogram公司发布的首个开源权重(open-weight)文生图模型。这不是某个现有模型的微调或蒸馏版本,而是从零开始训练的93亿参数Diffusion Transformer(DiT)模型,采用34层单流架构。
项目在GitHub上有1400+星,模型权重发布在Hugging Face上。
核心优势
文字渲染:这是Ideogram 4最突出的能力。在图像中生成可读、准确的中文和英文字排版,包括标志、海报、标题等。目前其他开源模型在这个方面普遍做得不好。
原生2K分辨率:不需要后处理或超分,直接生成高分辨率图像。
JSON布局控制:可以通过JSON格式精确控制图像中元素的位置、颜色、文字区域和坐标。这对设计工作流来说非常实用——你不再只是写一段自然语言描述然后”听天由命”。
多语言文字支持:不仅支持英文,中文等其他语言的文字渲染也有不错的效果。
怎么用?
方式一:Diffusers(推荐)
pip install -U diffusers transformers accelerate
加载模型后即可使用标准的Diffusers推理流程。
方式二:Hugging Face模型
可用的模型版本:
- ideogram-ai/ideogram-4(完整精度)
- ideogram-ai/ideogram-4-fp8(FP8量化,显存需求更低)
- NF4版本(CUDA设备)
方式三:ComfyUI集成
1. 下载FP8或NVFP4权重,放到 ComfyUI/models/diffusion_models 目录
2. 下载 flux2-vae.safetensors 作为VAE
3. 在ComfyUI中构建工作流即可使用
和其他开源模型对比
Ideogram 4在文字渲染方面声称是同参数量级开源模型中最强的。在93亿参数的规模上,它”远未达到scaling limit”,意味着Ideogram未来还会有更大的版本。
与FLUX等竞品相比,Ideogram 4的差异化在于其对设计场景的专注——精确的布局控制和高质量的文字渲染,让它更适合做海报、标志、UI mockup等设计类任务,而不是单纯的艺术图像生成。
适合谁?
设计师:需要快速生成包含文字的设计稿、海报、社交媒体图片
开发者:需要在应用中集成高质量的文生图能力
内容创作者:需要带文字的封面图、缩略图、信息图
AI爱好者:想体验最新的开源图像生成技术
硬件需求
完整精度版本需要较大的显存(估计24GB+)。FP8版本可以在16GB显存的显卡上运行。NF4版本进一步降低了门槛。如果你有8GB显存的消费级显卡,可能需要等待进一步的量化优化。


















暂无评论内容