Александр Чесалов
Генеративный искусственный интеллект #Forge&flux
Введение
Прошел всего год с того момента, когда я работал над книгой «Невероятный искусственный интеллект Easy Diffusion 3.0». В ней я высказал свое мнение о том, что постичь мир удивительного искусственного интеллекта возможно только тогда, когда мы с вами cможем увидеть положительные результаты его работы, созданные при нашем непосредственном участии. Эти результаты должны быть понятны и объяснимы каждому человеку, а также они должны быть этичны, непредвзяты и не нарушать закон. Сейчас мое мнение осталось неизменным, с небольшой поправкой лишь на то, что мы должны с вами помимо всего прочего получать максимальное удовлетворение от раскрытия наших интеллектуальных и творческих потенциалов, реализованных в совместной работе с искусственным интеллектом. Согласитесь, когда мы занимаемся любимой работой – эта работа вдвойне эффективнее и полезнее для всех.
Как вы уже знаете, на сегодняшний день генеративный искусственный интеллект может делать многое, например: написать текст нового стихотворения или даже целого рассказа, воспроизвести его различными голосами знаменитых актеров, написать новую музыку или песню, проанализировать большое количество числовых данных и составить прогноз на будущее, играть с нами или сразу с тысячью людей в компьютерные игры. Вообще говоря, его возможности, по большей части, ограничиваются лишь нашей с вами фантазией и, к сожалению, затратами на их реализацию.
Пожалуй, одной из самых впечатляющих способностей генеративного искусственного интеллекта, на мой взгляд, является его умение создавать уникальные и невероятные изображения. Эти изображения могут быть воплощением трехмерного мира фантастического будущего в компьютерной игре или быть виртуальной симуляцией окружающего нас мира. Изображения могут быть трехмерными или двумерными, а также могут быть выполнены в различных стилях живописи знаменитых художников разных эпох. Но самое интересное то, что на этих изображениях могут появиться существа или предметы, не существующие в нашем мире, которые тем не менее можно материализовать, например, с помощью 3D-принтера.
Книга, которую вы держите в руках, является учебным пособием по работе с системой генеративного искусственного интеллекта Stable Diffusion WebUI Forge, при помощи которой вы научитесь создать невероятные фотореалистичные изображения из текстовых описаний и графических изображений.
На момент написания и публикации этой книги, наиболее популярной моделью, которую поддерживает Stable Diffusion WebUI Forge и при помощи которой создаются уникальные изображения является FLUX.1.
В 2024 году модель FLUX.1 стала прорывной технологией в генеративном искусственном интеллекте, оставив позади себя все остальные модели от лидеров рынка. Десятки Интернет-сервисов стали рекомендовать ее, как наиболее производительную и эффективную при создании изображений. И, как вы уже поняли, именно этой модели уделяется основное внимание в этой книге.
Модель FLUX.1 была создана в 2024 году бывшими инженерами из компании Stability AI, которые занимались разработкой и развитием знаменитой модели Stable Diffusion 1. Робин Ромбах (Robin Rombach), Андреас Блаттманн (Andreas Blattmann), Доминик Лоренца (Dominik Lorenz) и Патрик Эссер (Patrick Esser) объединили свои усилия в работе над новым проектом FLUX.1 и создали новую компанию Black Forest Lab2.
Black Forest Lab предлагает нам три версии модели FLUX.13:
FLUX.1 [pro] – самая мощная версия реализация коммерческой модели доступная к использованию через API у партнеров компании или в индивидуальном порядке.
FLUX.1 [dev] – немного облегченный вариант первой модели не для коммерческого использования. Варианты реализации модели можно найти на сайте huggingface.co .
FLUX.1 [schnell] – самая быстрая реализация модели с открытым исходным кодом, которая так и называется «быстрая / нем. schnell». Она предназначена для использования на локальных компьютерах. Исходный код можно найти на сайте GitHub. Варианты реализации модели можно найти сайте huggingface.co .
По очень смелой оценке инженеров Black Forest Lab, данная модель боле производительна чем все разновидности модели Stable Diffusion, Midjourney и DALL-E4.
С помощью этой книги мы научимся с вами пользоваться Stable Diffusion WebUI Forge и работать с невероятно мощной моделью FLUX.1, как инструментом творчества. Вы сможете самостоятельно установить, настроить и удалить совершенно бесплатную программу и ее компоненты на свой компьютер, а также подключить к ней различные дополнительные модули, которые значительно расширят ее возможности по созданию и обработке изображений. Но, самое главное, управляя различными функциями и параметрами через удобный пользовательский интерфейс, вы научитесь создавать уникальные и неповторимые изображения, которые вы сможете использовать в своей учебе или для развлечений.
Эта книга написана как учебное пособие для школьников старших классов и студентов первых курсов ВУЗов, а также для всех тех, кто хочет получить дополнительные знания и опыт по работе с системами генеративного искусственного интеллекта.
Для целей дальнейшего продвижения и наглядности получаемых результатов работ я придумал хештег #FORGE&FLUX, который, в том числе, стал частью названия этой книги.
По требованию издателя, большинство ссылок на сайты программ, дополнительные модули и модели перемещены в список литературы.
Приятного вам чтения и продуктивной работы!
Ваш Александр Чесалов.
Самые популярные системы создания изображений
На сегодняшний день существует достаточно большое количество различных платных и бесплатных программ, которые на базе технологий генеративного искусственного интеллекта создают невероятно красивые изображения. Некоторые из этих программ можно загрузить и установить на свой домашний или рабочий компьютер и работать с ними автономно без подключения к сети. Тем не менее большинство из них находятся в сети Интернет. Множество сайтов предоставляют различные on-line-сервисы по созданию изображений с применением различных моделей искусственного интеллекта. Эти сайты в основном используют модели для генерации изображений Stable Diffusion, Midjourney, Kandinsky и многие другие.
На мой взгляд, наибольшей популярностью пользуются следующие программы и сервисы:
Midjourney – очень популярная система генеративного искусственного интеллекта, созданная одноименной компанией Midjourney. Искусственный интеллект Midjourney – это web-сервис в сети Интернет, который позволяет создавать очень красивые изображения, при этом не задействуя вычислительные ресурсы вашего компьютера. Для ее использования у вас должна быть установлена программа Discord – удобный мессенджер для групповой работы, который часто используют игроки по всему миру. Основной недостаток программы заключается в том, что не так давно Midjourney стала полностью платной 5.
Stablecog – это очень простой в использовании, но в то же время очень удобный web-сервис. К сожалению, он платный. Тем не менее – это мой любимый сервис. В день можно создать двадцать бесплатных изображений. Если вы долго не работали с сервисом после регистрации, ваши баллы за пропущенные дни суммируются.