Stable Diffusion

Stable Diffusion — модель преобразования текста в изображение, которая появилась в августе 2022 года. Позволяет как создавать изображения на основе текстового запроса, так и осуществлять прочие манипуляции над изображениями, например перерисовывать их части, изменять согласно описанию.

Сгенерированные сетью картинки

Удалось восстановить фотографию. Но есть нюанс…

Исходный код и веса моделей были опубликованы открыто, что позволяет её установить и запустить на компьютере любому желающему. Так же она выгодно отличается тем, что у неё не такой монструозный размер, как у других подобных нейронок и её можно запустить всего на 6гб видеопамяти, а с некоторыми приколами ажно на 2 гигах. Это далеко не первая открытая нейросеть, но первая, которая выдаёт вполне сносные результаты, когда как остальные подобные модели было возможно использовать только через специальный интерфейс, запросы к ним требовали оплаты, дык ешшо и подвергалися цензуре.

История[править]

Базовые версии Stable Diffusion (1.0-1.5) были обучены на ~900 миллионах отфильтрованных пикч из открытого датасета картинок с аннотациями LAION-5B, а затем переобучены на фильтрованном датасете эстетичных картинок LAION-Aesthetics-V2-5, чтобы генерировало более-менее кросиво и могло распознавать сложные и подробные запросы. Сначала учили на разрешении 256x256, и только потом на 512x512.

Впоследствии также появились и новые переобученные модели и миксы моделей, например обученные на аниме-изображениях. Что примечательно, пользовательские файнтюны на голову обошли оригинальную (sdv1.5) модель в качестве и крсивости рисуемых картинок, и если у оригинальной молельки наблюдался заметный жмых (от vae), то пользовательские модельки способны генерить ажно правильную анатомию с пятью пальцами без каких-либо проблем.

Эта нейросеть благородна: она была обучена на западной базе данных изображений, поэтому выдаёт изображения, именно основанные на западной же культуре, а всё остальные культуры вежливо посылает в тухес, что очень доставляет. Для наилучшей работы требуется задача запросов на английском языке.

Позволяет задавать как то, что хочется увидеть на изображении, так и то, чего видеть как раз не хочется.

Получила известность доученная модель теми же stabilityAI для NovelAI, которую слили осенью 2022. В ней разрабы применили ряд улучшений, которые впоследствии войдут в SDXL, такие, как улучшенная анатомия и детализация, генерация необрезанных картинок, которые точно подогнаны под выходное разрешение и всякие другие. Комьюнити сразу подхватило модельку, так как качество генерируемых тяночек было на голову выше дефолтной sd1.4, она до сих пор входит во множество миксов моделек. Сейчас, правда, кастомные файнтюны уже намного переросли эту novelai модельку.

Обученная модель оказалась опубликована благородными пиратами в открытом доступе и может быть легко установлена на собственный компьютер, без оплаты.

Внутре[править]

StableDiffusion 1 и 2 версии состоят из 4 нейросетей: текстового кодировщика CLIP (соединятора картинок и текст в одно пространство), кодировщика пространства пикселей в скрытое пространство (VAE), собственно самой модели диффузии и декодера из скрытого пространства обратно в пиксели. Что самое интересное, здесь принципиально ничего нового разработчики не придумали: это просто красивая адаптация методов Imagen и Latent Diffusion.

Краткий принцип работы

Для начала надо подробно описать пару вещей.

VAE (Variational Autoencoder) — это нейросеть, которая умеет сжимать картинки и другие данные в небольшое количество чисел (латентное пространство), а затем распаковывать их обратно. Если быть ещё точнее, то вае конвертирует между RGB(8 на 8(64 пикселя) на 3(цвета, красный, зелёный и синий) в 1 на 1 на 4. То есть 64 цветных пикселя жмыхаются до 4 дробных числа. Она делает это благодаря теории, которая говорит, что не все пиксели в картинке содержат реальную информацию. Таким образом, VAE учится отображать картинки в низкоразмерное и высокоплотное пространство, чтобы работать быстрее и экономно на ресурсах.

U-Net — это еще одна нейросеть, которая используется для денойзинга (очистки) изображений от шума. Она учится удалять шум из латентного пространства, которое было создано VAE.

При операции текст-в-картинку текст (предварительно преобразованный в токены или куски текстового понимания на рабоче-крестьянском) подаётся в текстовый кодировщик CLIP, который смотрит на текст, пережёвывает его и выплёвывает на выход эмбеддинги, которые являются эдакими представлениями определённых понятий. Затем генератор случайного шума генерирует собственно шум в специальном скрытом «закодированном» пространстве. Затем, собственно происходит сама диффузия или по-простому денойзинг. Диффузия это ооочень медленный метод, и денойз обычной 512x512 картинки бы проходил около получаса, если не больше, поэтому в Stable Diffusion используют метод latent diffusion, когда модель тренируют выполнять диффузию как раз в этом «сжатом» скрытом пространстве для ускорения работы. На модель диффузии архитектуры Unet подают эмбеддинг текста и закодированный шум и модель диффузии удаляет определённую часть (обычно совсем чуть-чуть, иначе результат будет не оче) шума, руководствуясь текстовыми эмбеддингами, которые дал CLIP и отхаркивает на выход обработанные «латенты»(или заколированные цветные пиксели в латентное пространство) в скрытом пространстве. Затем эти выходные «латенты» подают снова в диффузию и так N раз. Затем совсем заденойзенные «латенты» подают на декодер, который разворачивает их в обычные пиксели с небольшими потерями, немного жмыхая изображение и мы получаем картинку. При картинка-в-картинку происходит всё то же самое но вместо шума подаётся изображение, которое идёт в кодировщик (VAE), который хитро жмёт его в скрытое пространство, а диффузия потом «разшумливает» эту картинку в нужную сторону.

Алсо, зная, что clip-эмбеддинги не представляют собой слова, а скорее понятия, можно запилить эмбеддинг, например, себя любимого и использовать потом в генерациях.

Что примечательно, никто не может обьяснить, почему clip может так соединять картинки и текст, как и почему если обучить диффузию на дохуище картинок она может денойзить шум в совершенно новые, так что, получается, такие нейросети являются ничем иным, как самой настоящей магией IRL.

Ссылкота[править]

Приколы, полезные технологии или первый шаг на пути к Матрице?
Основы	Нейросети • ИИ это демоны • Обратная капча • OpenAI • Hugging Face • ИИ-художник • LyCORIS • LoRA • Safetensors • VAE • Генерация текста нейросетью • Восстание нейросетей • Лоботомия нейросети • Нейрокавер • Нейросети и актёры • Гадание по нейросети • Сильный ИИ • Нейрошарики • ИИ-цензура • Навязывание нейросетям морали • В метро без штанов • Охота на ведьм ИИ • Котозмей • Креативный доводчик • Каверы с говновозом • Fantasy.ai • DeepSeek • Stargate (нейросети, ИИ) • Потребление воды ИИ • Тест Вальдшнепа • Зерокодинг • Бомбомбини гузини • Нейровики • Бобритто Бандито • Официальные нейроарты с Трампом • Дегенерация из-за нейросетей • Генерация прона с помощью ИИ • Политика Трампа в отношении ИИ • ИИ-предпросмотр • Замена людей на ИИ • Использовал ИИ и обосрался • Стиль ChatGPT
Чат-боты	Чат-бот • ChatGPT • Character.AI (Топ персонажей) • ИИ Galactica • Порфирьевич • YaLM (Балабоба) • GigaChat • TruthGPT • YandexGPT • SpicyChat • SillyTavern • Replika • AIsekai • Google Gemini • Grok AI • FiggsAI • Скаиба общается с ИИ • Леха Беспалый • Продолжайте, больше драмы • Freysa • ОГАС • Робот атеист • Tay Tweets • Нейропутин • Троица GPT • Маусини Кводрокоптини • Бонека Амбалабу • Известные люди пишут посты с помощью ИИ • Слово о мужеском мехире • Мозгова мерёжа • Грок-антисемит • Грок без цензуры разгромил партию Маска • Грок возжужжал и был подавлен • МехаГитлер • Грок 4 • Грок написал программу о себе • Грок — Илон для каждого человека • Грок Компаньон • Gab AI • Grokbox • Джейлбрейк ИИ • Anno Intelligentiae • Large Lying Model
Графика	Повышение разрешения • Распознавание лиц • Stable Diffusion (NovelAI / установка на компьютер) • Botto.com • DALL·E 2 • (Mini Dall-e • RuDALL-E) • Different Dimension Me • Midjourney • Николай Иронов • Luma Dream Machine • Пессимизация ИИ • Блокировка несовершеннолетних персонажей на сайтах ИИ • Шедеврум • NVIDIA Smooth Motion • Капучино Ассассино • Шпиониро Голубиро • Ла Вака Сатурно Сатурнита • Veo 3 • Нейроперемога • Бабушка с бегемотом Булькой • Шизофрения в кремнии • Грок изнасиловал Уилла Стэнсила • Является ли модификация ИИ убийством • Эм даш • ChatGPT Агент • ИИ-алфавит • Базированный Илон • ChatGTP vs Грок • ИИ-абсолютизм • ИИ — чуждый разум • Подумай усерднее • Tesla Optimus • Genie 3 • ИИ в Days Gone • Вечный цикл ИИ • Neurofikwriterka • CUDA
Прочие	ElevenLabs • Нейросеть Жириновский • ИИ-судья • Политик-нейросеть • DeepL • Aitana Lopez • Ай, гитарист! • Нейромьюзи • Страх перед ИИ • Suno.ai • Udio AI • Каверы с Шindows • Нейрослоник • Нейрофобия • Хейтеры скажут, что это нейросеть • Манхэттенский проект ИИ • Проект Знаток • Не те боты в Телеграме • Нейросеть Путин • Тралалеро Тралала • Бот-автоответчик • Цифровой бог • Триппи Троппо • Лирили Ларила • Брр брр Патапим • Nooo Nicotine Give Me Nicotine • Телеграм-бот Владимир Жириновский • Несуществующие животные-гибриды • Нейрошвайн • DeepSeek и религия • ИИ-бесие • Бом Бом Бом Бом Бом Газун • Балерино Капучино • Споры с ИИ
Лулзы	Троллинг нейросетью (Дипфейк) • Нейросети-расисты • Unstable Diffusion • Hello Asuka • Луддиты против нейросетей (Открытое письмо учёных о заморозке развития ИИ • Художники против искусственного интеллекта) • Нейросети это не ИИ • Нейросети и руки • Бесконечный эпизод Губки Боба • Владимир Осин • Человек это нейросеть • Секс с нейросетью • Раздевание через нейросеть • Призывы Юдковского к ядерной войне • Disney Pixar представляет • Neural-madness • ChatGPT играет в шахматы с Stockfish • DignifAI • Подбор жены в Тиндере с использованием ChatGPT • ИИ-психолог • SupremacyAGI • Виртуальный священник • Подсказки Google • Nomad Bones • Просто Путин • Озабоченные на Character.AI • Дэвид Майер и ChatGPT • Общение с ИИ • Галлюцинации ИИ • Собачьи головы и глаза • НейроRussia • Генерация ИИ-говна • Гордон и Жириновский • Бесконечный стрим • WormGPT • Итальянский brainrot • Естественный идиот • Мороженое с цианидом • Тунг-Тунг-Тунг Сахур

Stable Diffusion

История[править]

Внутре[править]

Ссылкота[править]

Навигация

Поиск