Команда исследователей из университетов Китая и Сингапура совместно с ByteDance представила PhotoDoodle — инновационную AI-систему, способную точно вносить изменения в изображения, сохраняя их стиль и композицию.
PhotoDoodle основан на модели Flux.1, разработанной Black Forest Labs, и использует диффузионный трансформер для точного редактирования изображений.
Как работает PhotoDoodle
Система включает:
LoRA-адаптацию (EditLoRA) для изучения стилей художников без изменения всей модели.
Клонирование с кодировкой положения, позволяющее точно вписывать элементы в изображение.
Работу с чистыми входными данными, что исключает артефакты при редактировании.
PhotoDoodle способна изменять цвета, добавлять персонажей или эффекты, сохраняя оригинальную перспективу и контекст.
Преимущества перед другими AI-системами редактирования
В сравнительных тестах PhotoDoodle показала лучшие результаты по точности редактирования и соответствию стилю по сравнению с существующими AI-моделями.
В будущем команда планирует уменьшить количество обучающих примеров и создать версию, способную изучать стиль по одной паре изображений.
Для дальнейших исследований разработчики опубликовали набор данных с шестью художественными стилями и 300 парами изображений.