ИИ скоро останется без чтения: человеческий контент для обучения иссякнет

Вот вам парадокс цифровой эпохи: мы, люди, создаём контент с космической скоростью, но технология растёт ещё быстрее. Исследователи из группы Epoch AI пришли к тревожному выводу: при нынешних темпах роста вычислительных мощностей, публичный контент, созданный *людьми*, может закончиться уже к началу 2030-х. Что будет, когда машинам нечего будет читать?

Подумайте сами: мы пишем, творим, постим — но в масштабах, которые для искусственного интеллекта уже скоро станут крохами. Модели сегодня «едят» триллионы слов, а наш коллективный творческий поток не безграничен. И самое главное: научить ИИ учиться у самого себя — задача, которую мы пока не решили. Это как пытаться выучить новый язык, повторяя только свои собственные ошибки.

Согласно отчёту Epoch, технологическим гигантам грозит настоящий голод данных. Запас общедоступных текстов, книг, статей и постов, на которых тренируются модели вроде GPT, может быть исчерпан где-то между 2026 и 2032 годами.

Держитесь за стулья: объёмы вычислений растут примерно вчетверо каждый год, а аппетиты моделей к данным — в 2,5 раза. И вот на этом перекрёстке мы и упираемся в тупик. Самый ценный ресурс — человеческая мысль, запечатлённая в тексте, — конечен.

На чём же тогда будет учиться ИИ? Вариантов, честно говоря, немного. Первый — конфиденциальные данные: ваши письма, сообщения, звонки. Но готовы ли вы отдать свою переписку на растерзание алгоритмам? Вопрос риторический. Второй путь — «синтетические данные», то есть тексты, которые ИИ генерирует сам для себя.

И вот тут начинается самое интересное. Что, если ИИ начнёт учиться на собственных выдумках? Учёные опасаются «коллапса модели» — ситуации, когда система будет бесконечно тиражировать и усиливать свои же ошибки и предубеждения, словно в кривом зеркале. Представьте, что вы изучаете историю по учебнику, который сами же и написали, не выходя из комнаты.

Цифры поражают: самая крупная версия модели Llama 3 была обучена на 15 триллионах токенов — фрагментов слов. Это невообразимый объём, но и его скоро будет мало.

ИИ скоро останется без чтения: человеческий контент для обучения иссякнет

Некоторые эксперты, как, например, Николас Паперно из Университета Торонто, видят выход не в гонке за масштабом, а в специализации. Зачем обучать одну гигантскую модель на всём подряд, если можно создавать более узкие, но эффективные системы для конкретных задач?

Пока же индустрия идёт проторённым путём: сначала создаётся монстр вроде Llama 3, а затем его «доучивают» для конкретных нужд. Но сможем ли мы сразу строить точные инструменты из ограниченных материалов? Это большой вопрос.

Драгоценные слова

Если человеческий контент останется золотым стандартом, то те, кто им владеет, станут новыми нефтяными магнатами. Платформы вроде Reddit и Wikipedia, крупные новостные архивы и библиотеки — всё это превращается в стратегическое сырьё.

«Сейчас возникает интересная проблема: мы говорим о "природных ресурсах", то есть о данных, созданных человеком. Пока это звучит как шутка, но это удивительно», — отмечает Селена Декельманн из Фонда Викимедиа. Пока Википедия остаётся открытой, но как долго это продлится в мире, где слова стоят дороже золота?

Что говорит Сэм Альтман

Генеральный директор OpenAI Сэм Альтман, чей ChatGPT стал символом этой революции, в одном из выступлений признался, что компания уже экспериментирует с генерацией «огромного количества синтетических данных».

«Я думаю, всем нужны высококачественные данные. Бывают синтетические данные низкого качества. Бывают и человеческие данные низкого качества», — сказал Альтман. Но он же выразил и глубокие сомнения: «Было бы очень странно, если бы лучший способ обучить модель — просто сгенерировать квадриллион токенов синтетических данных и скормить их обратно. Почему-то это кажется неэффективным». Слова человека, который стоит на передовой, заставляют задуматься: а не загоняем ли мы себя в ловушку, пытаясь создать разум из зеркального лабиринта?