在广丰,有一种便捷生活,叫城芯优渥区位;
近日,全球领先的大模型技术创新公司智象未来宣布,其以“Peanut”匿名上榜全球知名独立AI模型评测平台Artificial Analysis、并登顶文生图榜单开源模型第一的HiDream-O1-Image正式完成开源。该模型以8B参数规模,凭借底层架构的关键创新,重新定义了图像生成的技术路径。

Artificial Analysis Text to Image Leaderboard 的价值在于,它更接近真实用户在开放场景中的偏好判断。榜单通过匿名对比、用户投票和 ELO 动态排名,尽量减少品牌认知对结果的影响,而不是只看固定题库中的单项分数。在这一体系下,HiDream-O1-Image 以8B 参数规模,在超过 3000 个样本对比中取得 1187 ELO,登顶开源模型第一。
自2025年第三季度以来,开源图像生成赛道头部格局基本稳定,FLUX.2 [dev]、Qwen-Image Max与Z-Image分别代表大参数能力、开源标杆与轻量高效三个方向。此后数月,真正意义上的全新架构挑战者寥寥无几。HiDream-O1-Image的出现打破了这一局面。
在这次Blind Arena评测中,HiDream-O1-Image在隐藏模型身份的情况下进入Text to Image Arena 总榜前列,并成为新的领先开源权重文生图模型,表现超过 Z-Image Turbo、Qwen-Image、FLUX.2 [dev] 等主流开源模型。开源当日,HiDream-O1-Image 即在 Hugging Face 模型趋势榜跻身前三,并呈不断上升趋势。

摒弃VAE与独立文本编码器,率先跑通像素级统一Transformer(UiT)架构
当前主流顶配模型普遍采用“模块化”生成路径,由独立的文本编码器处理语言,再由VAE将图像压缩至潜空间进行生成,这不可避免地带来高频细节丢失与图文语义错位。HiDream-O1-Image首次在开源领域跑通端到端的原生统一架构,将原始图像像素、文本Token及控制条件直接映射至同一个“共享Token空间”,从根本上消除了模态间的转换损耗。
HiDream-O1-Image采用一种由新型像素级统一Transformer 驱动的原生统一生成基础模型,不依赖于分离的 VAE 或分离的预训练文本编码器,而是将原始图像像素、离散文本标记和辅助任务特定条件直接映射到一个连续的共享标记空间。这种结构性统一使得所有多模态输入能够在这种统一 Transformer 架构内以端到端的方式协同处理。这种原生编码范式使 HiDream-O1-Image 能够将多样的生成和编辑任务视为一个一致的上下文视觉推理过程,而不是需要专门模块的孤立问题,从而促进输入之间更深层次、更灵活的多模态交互。
智象未来联合创始人兼CTO姚霆博士表示:“图像是世界建模的重要空间基础。在UiT原生统一架构下,图像与视频训练可以实现更高程度的协同,为模型进一步走向统一的多模态基础能力提供支撑。”基于该架构,智象未来超千亿参数的图像模型也即将面世,无限时长视频生成应用即将上线。
不止是图像生成 HiDream-O1-Image引入“先推理、后生成”机制
高质量、大规模的训练数据对于扩展通才图像生成至关重要。训练一个同时处理文生图合成、基于指令编辑和主体驱动个性化的单一模型,需要超出标准图文对之外的监督。因此,我们构建了一个专用的数据引擎,将异构原始源转换为高质量的图文对、编辑三元组和主体-参考样本。该流水线包括源数据收集、数据去重、数据质量与安全过滤以及基于 VLM 的提示词构建。
其中,最引人瞩目的,是为解决传统生图模型高度依赖用户“提示词工程”的痛点,HiDream-O1-Image首次在图像生成底座中系统性引入了基于Gemma 4的“推理智能体”。在正式生成图像前,该智能体自发启动思维链推理,深度解析用户指令中的空间布局、物理逻辑与主体属性,将模糊意图重写为高精度控制指令。这使得模型具备极强的指令遵循能力,大幅降低专业级图像生成门槛。
智象未来创始人、CTO姚霆博士表示:“HiDream-O1-Image显示出原生全模态架构在生成质量、复杂任务统一建模和规模扩展上具备比DiT更高的天花板。”随着图像及视频能力持续开源,智象未来正将领先的原生全模态架构能力转化为更开放的基础设施。
在广丰,有一种便捷生活,叫城芯优渥区位;
面对能源结构转型与用电需求升级,墅居能源
婴幼儿奶粉的"吸收力"
阅读摘要文档类型:榜单评测与选型评测维度
近年来,婴幼儿配方奶粉市场的竞争焦点已从
阅读摘要文档类型:榜单评测与选型评测维度
恒昌财富投资管理(北京)有限公司成立于2
我国60岁以上人群白内障发病率高达80%
这个春天,一种轻柔、透气、自在的穿搭风格
