通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳 ...

来自: 和讯财经 收藏 邀请

凤凰网科技讯 8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。

该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现

在多个公开基准测试中,包括GenEval、DPG、OneIG - Bench(通用图像生成),GEdit、ImgEdit、GSO(图像编辑)以及LongText - Bench、ChineseWord、TextCraft(文本渲染)等,Qwen-Image在各类生成与编辑任务中均获得SOTA。

在性能表现上,Qwen-Image能在不同场景中实现高保真文本渲染。例如,在海报制作中,它不仅能准确展示海报风格,还能保留人物姿势和神态刻画,准确生成指定的中英文文字;在分模块案例中,能完成排版并生成各部分的图标、标题和介绍文本;除此之外,即使纸张面积小且段落文字长,也能准确生成文字,还可在双语间灵活切换。

同时,Qwen-Image 在通用图像生成方面支持多种艺术风格,从照片级写实到印象派绘画,从动漫风格到极简设计,能灵活响应创意提示。

通义千问表示,希望Qwen-Image能进一步推动图像生成领域发展,降低视觉内容创作技术门槛,激发更多创新应用可能,同时期待社区积极参与和反馈,共同构建开放、透明、可持续发展的生成式AI生态。

目前,该模型已在魔搭社区与Hugging Face开源。

(责任编辑:王治强 HF013)

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com


鲜花

握手

雷人

路过

鸡蛋
相关推荐
实时动态
焦点话题
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )