Microsoft AI рисует объекты из текстовых описаний

Согласно академической статье, опубликованной исследователями Microsoft, новое программное обеспечение для искусственного интеллекта, разработанное в Microsoft, способно «рисовать» практически все из текстовых описаний. Например, если пользователь просит компьютер «нарисовать желтую птицу с черными крыльями и небольшим клювом», результатом будет тот, который вы видите на изображении.

Эти птицы могут не существовать в реальном мире, они являются лишь аспектом воображения нашего компьютера о птицах.

«Если вы откроете поиск птиц Bing, вы увидите фотографии птиц. Но здесь фотографии создаются компьютером, пиксель за пикселем, с нуля », - прокомментировал руководитель исследования Microsoft Сяодун Хе официальной публикации Microsoft. «Эти птицы могут не существовать в реальном мире, они всего лишь аспект воображения птиц нашего компьютера», - добавил он.

Далее он уточняет, что текущие результаты, полученные компьютером, не идеальны, но они могут приблизиться. Идея заключается в том, что такое интеллектуальное программное обеспечение может в конечном итоге служить помощником дизайнера для художников или даже дизайнеров интерьера.

Microsoft

В будущем такой профессионал может сфотографировать домашнюю обстановку, а затем попросить компьютер: «Добавьте левое угловое деревянное кресло в стиле модерн». Компьютер мог не только помочь настроить обстановку, но и создать мебель и другие элементы.

процесс

Первоначальное исследование группы разработчиков Microsoft началось с эксперимента с CaptionBot, системой искусственного интеллекта, которая может писать описательные подписи для любой фотографии. Затем они создали другое программное обеспечение для искусственного интеллекта, которое может отвечать на вопросы людей о фотографии, SeenAI, которая может быть особенно полезна для слабовидящих.

Наконец, группа смогла разработать технологию, способную генерировать эти рисунки из текстовых описаний. Первая часть называется Generative Adversarial Network (GAN), предназначенной для генерации изображений, а вторая часть называется «Discriminator», который оценивает качество фотографий.

Внимание - это человеческая концепция; мы используем математику, чтобы обратить внимание на вычислительную концепцию

Эта система была обучена парам изображений с подписями, чтобы программное обеспечение могло понять, какие слова соответствуют каким изображениям. Позже было необходимо создать математическую модель, чтобы сосредоточиться на создании, разработанном системой. «Внимание - это человеческая концепция; мы используем математику, чтобы обратить внимание на вычислительную концепцию », - сказал он.

Исследователь полагает, что в конечном итоге можно будет создавать анимационные фильмы из сценариев, написанных с использованием подобных систем, но у нас нет никаких прогнозов относительно того, когда что-либо подобное можно будет коммерчески применять к любому продукту Microsoft.

Microsoft AI «рисует» объекты из текстовых описаний через TecMundo