ИИ учится создавать настоящие коллажи: как алгоритм осваивает ножницы и бумагу
«Существующие нейросети уже умеют “рисовать” коллажи в пикселях, — объясняют авторы работы. — Но это всего лишь имитация. Мы же хотели научить ИИ создавать настоящий коллаж, со всеми его тактильными свойствами: вырезать, компоновать, клеить».
Вдохновением послужило их предыдущее исследование, где ИИ учили рисовать линии, как человек — шаг за шагом. Теперь задача усложнилась: нужно было оперировать не виртуальной кистью, а физическими материалами. Сможет ли алгоритм понять логику ножниц и бумаги?
Метод проб, ошибок и награды
Суть подхода — в обучении с подкреплением. Представьте себе ребенка, который впервые берет в руки клей и цветную бумагу. Он пробует, ошибается, смотрит на результат. Алгоритм действовал так же.
Его цель: создать из случайных материалов (например, обрывков газет) коллаж, максимально похожий на заданное изображение — скажем, на портрет Вермеера. Сначала получалось откровенно плохо. Но с каждым шагом система получала «вознаграждение» за удачные решения — чем больше сходства с оригиналом, тем выше оценка. И эта функция оценки сама тоже училась, становясь точнее.
На каждом этапе агент выбирал материал, решал, как его вырезать и куда наклеить на холст. И самое интересное — его не учили на примерах готовых коллажей. Он исследовал мир «бумага-ножницы-клей» с нуля, методом бесчисленных проб.
«Агент, не имея никаких художественных данных, самостоятельно научился создавать коллаж, — с гордостью отмечают исследователи. — Это результат его собственных изысканий, и это действительно примечательно».
Модель научилась обобщать и работать с самыми разными изображениями. Пока что всё это существует лишь в симуляции. Но представьте: если подключить эту программу к роботизированной руке, у нас появится первый в мире робот-коллажист. Звучит как сюжет для рассказа, правда?
Самый сложный вопрос: а это искусство?
Как оценить то, что создал алгоритм? Искусство — вещь субъективная. Ученые начали с опроса людей, но этого показалось мало. Тогда они привлекли в судьи... другую нейросеть — большую модель CLIP, обученную на миллионах пар «текст-изображение».
Идея в том, что такая модель обладает более «объективным» визуальным кругозором. И что же? И люди, и CLIP сошлись во мнении: коллажи, созданные агентом, получились весьма достойно, сравнимо с тем, что генерируют обычные пиксельные нейросети. Не идеально, но уже поразительно осмысленно.
Так что же, искусственный интеллект перестал быть просто инструментом и стал творцом? Пока нет. Но он точно научился понимать сам процесс творчества — с его хаосом, выбором и поиском гармонии в груде обрезков. И в этом есть своя, особенная красота.