Gemini от Google: новая эра мультимодального искусственного интеллекта

Гонка технологий набирает обороты, и Google, кажется, сделала свой мощный рывок. Компания анонсировала семейство моделей Gemini, заявляя о впечатляющих возможностях, которые, несомненно, подогреют и без того жаркие споры: куда же всё-таки движется эта технология и какие границы нам предстоит пересмотреть?

Google явно намерена догнать и перегнать конкурентов в области интеллектуальных систем. Специалисты спорят, удастся ли Gemini обойти ChatGPT, но одно ясно точно: в этой битве гигантов выигрываем мы, пользователи.

Итак, знакомьтесь: Gemini. Это не одна модель, а целое семейство из трёх «собратьев». Как сообщает Neurohive, они показали выдающиеся результаты, обойдя другие системы в 30 из 32 ключевых тестов. Флагманская Gemini Ultra доступна разработчикам через API, универсальная Gemini Pro уже внедряется в продукты Google, а компактная Gemini Nano создана для работы прямо на вашем смартфоне. Похоже, компания покрывает все фронты.

Gemini от Google: новая эра мультимодального искусственного интеллекта

Главная фишка всех трёх моделей — мультимодальность. Проще говоря, они с рождения учатся понимать не только текст, но и код, картинки, аудио и видео. Это как если бы вы могли общаться с системой на любом языке — вербальном, визуальном или даже языке программирования. И судя по заявлениям, флагман Ultra справляется с этим блестяще, устанавливая новые рекорды.

Особенно поражает один факт: Gemini Ultra стала первой системой, которая превзошла людей-экспертов в комплексном тесте MMLU. Он проверяет понимание в 57 разных областях — от квантовой физики и юриспруденции до медицины и этики. Звучит как сценарий из научной фантастики, не правда ли?

Компания заявляет, что Gemini способна анализировать гигантские массивы данных — сотни тысяч документов одновременно. Это открывает немыслимые перспективы для науки и экономики. А ещё она отлично разбирается в коде: понимает, объясняет и пишет программы на Python, Java, C++ и Go. На её основе даже создали улучшенную систему AlphaCode 2, которая щёлкает сложные алгоритмические задачи. Будущее разработки программ выглядит иначе.

Уже сейчас средняя модель, Gemini Pro, работает в англоязычной версии Bard. А первый смартфон с поддержкой младшей модели, Nano, — это Pixel 8 Pro. Владельцы получат удобные фишки вроде автоматического суммирования длинных текстов или подсказок при ответе в мессенджерах. В следующем году Gemini обещают внедрить в поиск, рекламу, Chrome и другие сервисы. Ждём-с.

Для разработчиков доступ к Gemini Pro через специальный API уже открыт. А создатели мобильных приложений для Android 14 смогут использовать лёгкую Nano через новую системную функцию AICore, начиная с того же Pixel 8 Pro. Инфраструктура быстро обрастает инструментами.

Но, пожалуй, самое важное преимущество Gemini — в её изначальной архитектуре. Вместо того чтобы склеивать несколько узкоспециализированных систем (одну для картинок, другую для звука), Google с нуля строила одну, всевидящую и всеслышащую. И обещают, что её восприятие мира будет только становиться глубже. Интересно, насколько наше собственное понимание «интеллекта» изменится, глядя на такие технологии?