Что такое Stable Diffusion?

Stable Diffusion — это модель генеративного искусственного интеллекта (generative AI), которая создает уникальные фотореалистичные изображения на основе текстовых и графических подсказок. Первоначально она была запущена в 2022 году. Stable Diffusion можно использовать для создания не только изображений, но и видеороликов и анимаций. Модель основана на технологии диффузии и использует скрытое пространство, что значительно снижает требования к обработке. Кроме того, ее можно запускать на настольных компьютерах или ноутбуках, оснащенных графическими процессорами. С помощью трансферного обучения модель Stable Diffusion можно точно настроить под свои конкретные потребности, используя для этого всего пять изображений.

Модель Stable Diffusion доступна для всех по либеральной лицензии. Этим модель Stable Diffusion и отличается от ее предшественников.

Подробнее о генеративном искусственном интеллекте »

Почему модель Stable Diffusion особенная?

Модель Stable Diffusion особенная, потому что она доступна и проста в использовании. Она может работать на графических контроллерах потребительского уровня. Впервые любой желающий может загрузить модель и создать свои изображения. Вы также можете контролировать ключевые гиперпараметры, такие как количество ступеней шумоподавления и степень применяемого шума.

Stable Diffusion удобна в использовании и не требует дополнительной информации для создания изображений. У Stable Diffusion есть активное сообщество, поэтому существует достаточно материалов и практических руководств. Программное обеспечение выпущено под лицензией Creative ML OpenRAIL-M, которая позволяет использовать, изменять и распространять измененное программное обеспечение. Если вы выпускаете производное программное обеспечение, вы должны выпустить его под той же лицензией и приложить копию оригинальной лицензии Stable Diffusion.

Как работает Stable Diffusion?

Как модель диффузии, Stable Diffusion отличается от многих других моделей генерации изображений. В принципе, модели диффузии используют гауссовский шум для кодирования изображения. Затем они используют предсказатель шума и обратную диффузию для воссоздания изображения.

Помимо технических отличий, модель Stable Diffusion уникальна тем, что она не использует пиксельное пространство изображения. Вместо этого используется скрытое пространство более низкой размерности.

Причина этого в том, что цветное изображение с разрешением 512 x 512 пикселей имеет 786 432 возможных значения. Для сравнения: Stable Diffusion использует сжатое изображение, которое в 48 раз меньше (16 384 значения). Это значительно снижает требования к обработке. Вот почему вы можете использовать Stable Diffusion на настольном компьютере с графическим процессором NVIDIA с 8 ГБ оперативной памяти. Меньшее скрытое пространство работает, потому что естественные изображения не являются случайными. Stable Diffusion использует файлы вариационного автокодировщика (VAE) в дешифровщике для рисования мелких деталей, например глаз.

Модель Stable Diffusion версии 1 была обучена на трех наборах данных, собранных в LAION с помощью Common Crawl. Сюда входит набор данных изображений LAION-Aesthetics версии 2.6 с рейтингом эстетики 6 или выше.

Какую архитектуру использует Stable Diffusion?

Основными архитектурными компонентами Stable Diffusion являются вариационный автокодировщик, прямая и обратная диффузия, предсказатель шума и функция учитывания текста во время генерации.

Вариационный автокодировщик

Вариационный автокодировщик состоит из отдельных кодировщика и дешифратора. Кодировщик сжимает изображение с разрешением 512 x 512 пикселей до 64 x 64 пикселей в скрытом пространстве, которым легче управлять. Дешифратор восстанавливает модель из скрытого пространства в полноразмерное изображение с разрешением 512 x 512 пикселей.

Прямая диффузия

Прямая диффузия постепенно добавляет к изображению гауссовский шум до тех пор, пока не останутся только случайные помехи. По окончательному изображению с высоким уровнем шумов невозможно определить, каким оно было. Во время обучения все изображения проходят через этот процесс. Прямая диффузия в дальнейшем не используется, за исключением случаев преобразования изображения в изображение.

Обратная диффузия

Этот процесс, по сути, является параметризованным процессом, который итерационно отменяет прямую диффузию. Например, можно обучить модель, используя только два изображения – кошки и собаки. В таком случае с применением обратной диффузии вы получите изображение либо кошки, либо собаки, но ничего промежуточного. На практике в целях обучения модели используются миллиарды изображений и подсказок для создания уникальных образов.

Предсказатель шума (U-Net)

Предсказатель шума играет ключевую роль в шумоподавлении изображений. Для этого Stable Diffusion использует модель U-Net. Модели U-Net — это сверточные нейронные сети, изначально разработанные для сегментации изображений в биомедицине. В частности, Stable Diffusion использует модель остаточной нейронной сети (ResNet), разработанную для машинного зрения.

Предсказатель шума оценивает количество шума в скрытом пространстве и убирает его из изображения. Он повторяет этот процесс определенное количество раз, уменьшая уровень шума в соответствии с указанными пользователем шагами. Предсказатель шума чувствителен к условным подсказкам, которые помогают определить конечное изображение.

Учитывание текста во время генерации

Наиболее распространенной формой учитывания текста являются текстовые подсказки. Токенизатор CLIP анализирует каждое слово в текстовой подсказке и встраивает эти данные в вектор из 768 значений. В строке подсказки можно использовать до 75 токенов. Stable Diffusion подает эти подсказки из кодировщика текста в предсказатель шума U-Net с помощью текстового трансформатора. Настроив начальное число на генератор случайных чисел, вы можете создавать разные изображения в скрытом пространстве.

Что можно делать с помощью Stable Diffusion?

Stable Diffusion обеспечивает заметно улучшенную модель преобразования текста в изображение. Эта модель широко доступна и требует значительно меньшей вычислительной мощности, чем многие другие модели преобразования текста в изображение. Ее возможности включают преобразование текста в изображение и изображения в изображение, генерацию графических произведений, редактирование изображений и создание видео.

Преобразование текста в изображение

Это наиболее распространенный способ использования Stable Diffusion. Модель Stable Diffusion генерирует изображение с помощью текстовой подсказки. Вы можете создавать различные изображения, изменяя затравочное значение для генератора случайных чисел или меняя режим шумоподавления для различных эффектов.

Преобразование изображения в изображение

Можно создавать новые изображения, используя входное изображение и текстовую подсказку. Часто для этого используется эскиз и подходящая подсказка.

Создание графики, иллюстраций и логотипов

Используя набор подсказок, можно создавать иллюстрации, графику и логотипы в различных стилях. Естественно, невозможно заранее определить результат, хотя вы можете управлять созданием логотипа с помощью эскиза.

Редактирование и ретушь изображений

Вы можете использовать Stable Diffusion для редактирования и ретуши фотографий. С помощью AI Editor загрузите изображение и используйте ластик, чтобы замаскировать область, которую вы хотите отредактировать. Затем, сгенерировав подсказку, определяющую, чего вы хотите добиться, отредактируйте изображение или дорисуйте детали. Например, можно восстановить старые фотографии, удалить объекты со снимков, изменить особенности изображения и добавить новые элементы в него.

Создание видео

Используя такие функции, как Deforum от GitHub, вы можете создавать короткие видеоклипы и анимации с помощью Stable Diffusion. Другое применение – добавление различных стилей в видео. Можно также анимировать фотографии, создавая видимость движения, например течения воды.

Как Stable Diffusion от AWS может помочь?

Amazon Bedrock — это самый простой способ создания и масштабирования генерирующих приложений искусственного интеллекта на основе базовых моделей. Amazon Bedrock – это полностью управляемый сервис, который предоставляет ведущие базовые модели, включая Stable Diffusion, через API, благодаря чему вы можете выбрать модель, наиболее подходящую для вашего варианта использования, из различных FM. С помощью Bedrock вы можете ускорить разработку и развертывание масштабируемых, надежных и безопасных видов применения генеративного искусственного интеллекта без управления инфраструктурой.

Amazon SageMaker JumpStart, центр машинного обучения, предлагающий модели, алгоритмы и решения, предоставляет доступ к сотням базовых моделей, включая самые эффективные общедоступные базовые модели, такие как Stable Diffusion. Продолжается добавление новых базовых моделей, в том числе Stable Diffusion XL 1.0, последней версии модели генерации изображений.

Дальнейшие шаги на AWS

Дополнительные ресурсы к продукту

Ускорьте внедрение инноваций с помощью сервисов генеративного искусственного интеллекта AWS

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к Уровню бесплатного пользования AWS.

Регистрация

Начните разработку в консоли

Начните разработку в Консоли управления AWS.

Вход

Что такое Stable Diffusion?