Qwen-Image 20B MMDiT способна точно воспроизводить сложные текстовые элементы, включая иероглифы и многоязычные композиции. Модель также поддерживает расширенные функции редактирования: от смены стиля до изменения поз персонажей.
Alibaba Group представила инновационную модель генерации изображений Qwen-Image 20B MMDiT, устанавливающую новейшие стандарты в обработке текстовых элементов. Система показывает исключительную точность при создании многострочных композиций, корректно воспроизводя семантику абзацев и сохраняя читаемость даже для сложных иероглифических написаний. Технология уже показала превосходные результаты в специализированных тестах, включая LongText-Bench и TextCraft, где значительно опередила существующие аналоги.
Особенностью Qwen-Image стала реализация многоуровневого редактирования: пользователи могут изменять художественный стиль, добавлять или удалять объекты, корректировать текст и даже трансформировать позы персонажей без потери визуальной целостности. Модель одинаково эффективно работает с различными жанрами — от гиперреалистичных фотографий до стилизованных импрессионистских работ. Разработчики отмечают, что система особенно полезна для создания маркетинговых материалов, где важна точная передача фирменной символики и текстовых элементов.
В Alibaba подчеркивают, что Qwen-Image призвана снизить технологический барьер для создания профессионального визуального контента. Модель будет доступна в разделе генерации изображений платформы Qwen Chat, открывая новейшие возможности для дизайнеров, маркетологов и создателей цифрового искусства. По заявлению компании, это лишь первый шаг в серии запланированных инноваций в области генеративного ИИ.