Текущее состояние разработок в области Искусственного Интеллекта

По состоянию на 01.2025

TLDR

  • Основой искусственного интеллекта стали нейронные сети, вдохновленные человеческим мозгом.
  • Прорывом стало создание архитектуры трансформеров, которая позволила эффективно обучать модели на огромных объемах данных.
  • Языковые модели развиваются быстро, приобретая новые способности без дополнительного обучения.
  • Гонка чат-ботов
    • Запуск ChatGPT в 2022 году сделал OpenAI лидером в гонке языковых моделей.
    • Проблема масштабирования данных: к 2028 году интернет может исчерпать доступные для обучения модели текстовые данные.
    • Компании пытаются выделяться за счет специализированных возможностей и собственных данных.
    • Чат-боты стали массовым продуктом, и компании ищут новые способы сохранить конкурентное преимущество.
  • Модели рассуждения
    • Модели нового поколения могут «думать», разбивая задачи на шаги и критически оценивая свои ответы.
    • Это позволяет достигать более высоких результатов без увеличения объема данных для обучения.
    • Проблема: Эти модели требуют значительно больше вычислительных ресурсов.
    • Модели рассуждения открывают новый горизонт в развитии ИИ, улучшая точность и производительность.
  • Бизнес ИИ
    • С 2013 по 2024 годы в ИИ было инвестировано 1,29 триллиона долларов.
    • Компании сталкиваются с трудностями при интеграции ИИ в реальную инфраструктуру и обеспечении надежности приложений.
    • Ценообразование: Стоимость использования языковых моделей снижается, усиливая давление на стартапы.
    • Создание устойчивого бизнеса на базе ИИ требует уникальных данных и надежных конкурентных преимуществ.
  • Агентные системы
    • Агентные системы могут выполнять задачи автономно, без постоянного вмешательства человека.
    • Пример: система Uber QueryGPT сокращает время написания SQL-запросов с 10 минут до 3 минут.
    • Основные барьеры: Ограниченные способности восприятия и адаптации к реальным условиям.
    • Агенты — ключ к будущему, но для их полноценного развития нужно преодолеть серьезные технические ограничения.
  • Мультимодальные и голосовые модели
    • Модели становятся мультимодальными, работая с текстами, изображениями, видео и аудио.
    • Интеграция голосовых интерфейсов способна радикально упростить взаимодействие с устройствами.
    • Будущее: Модели смогут обмениваться данными напрямую, минуя текстовые преобразования.
    • Мультимодальность расширяет границы применения ИИ и может стать основой для нового пользовательского опыта.
  • Борьба за лидерство в ИИ станет определяющим фактором в глобальной экономике и безопасности в ближайшие десятилетия.
  • Масштабирование языковых моделей приближается к своим физическим и логическим пределам.
  • Новые модели рассуждения и мультимодальные интерфейсы открывают новый виток развития.
  • Ключевой вопрос: Где появится следующее «приложение-убийца» и как компании смогут создать долгосрочные конкурентные преимущества?

Введение

Человеческий мозг содержит около 100 триллионов нейронных соединений, которые работают совместно, создавая мысли через активацию определенных паттернов. Процесс обучения у человека происходит следующим образом: нейроны посылают электрические сигналы через синапсы, распознавая шаблоны, и со временем связи между ними становятся сильнее или слабее, в зависимости от полученного опыта.

Исследователи в области искусственного интеллекта черпали вдохновение в работе человеческого мозга, создавая искусственные нейронные сети, которые могли бы «обучаться» на основе анализа данных. С развитием вычислительных мощностей появилось важное открытие — архитектура трансформеров, которая позволила добиться значительного прогресса в распознавании паттернов и обучении на масштабных наборах данных.

Трансформер стал настоящим прорывом, так как обеспечил баланс между вычислительной эффективностью и способностью улавливать долгосрочные зависимости между словами. Благодаря этому стало возможным обучить нейронные сети на триллионах единиц данных и создать модели, которые могут обрабатывать огромные объемы информации.

Прорыв в архитектуре трансформеров позволил создать языковые модели, способные сжимать большинство знаний, доступных в интернете, в единую нейронную сеть.

Эволюция языковых моделей

С увеличением количества данных для обучения, исследователи обнаружили, что модели начинают демонстрировать способности, которым их изначально не обучали.

  • GPT-1 — умел отвечать на простые вопросы.
  • GPT-2 — мог писать связные истории.
  • GPT-3 — научился обобщать информацию при ограниченном объеме данных.
  • GPT-4 — приобрел способность программировать и логически рассуждать.

Бум инвестиций в ИИ

Появление этих возможностей и темпы развития привели к тому, что в искусственный интеллект было вложено более 1 триллиона долларов. Эти инвестиции способствовали созданию фундаментальных моделей и продуктов на основе ИИ, что ускорило инновации и обеспечило их массовое распространение.

Несмотря на успехи в прототипировании, доведение ИИ-продуктов до уровня коммерческого использования остается сложной задачей, требующей значительных инженерных усилий для обеспечения надежности и устойчивости.

Гонка чат-ботов

Запуск ChatGPT и эффект первого приложения-убийцы

Запуск ChatGPT в 2022 году продемонстрировал общественности беспрецедентные возможности обработки естественного языка, что обеспечило OpenAI преимущество первопроходца на рынке. За короткий срок ChatGPT достиг огромной популярности. В период с ноября 2022 по ноябрь 2024 количество ежемесячных посещений его веб-сайта превысило 4 миллиарда.

Это был прорывной продукт, который стал первым настоящим «приложением-убийцей» (killer app) — интеллектуальным чат-ботом, позволяющим пользователям вести диалог с языковой моделью.

Однако за два года после запуска ChatGPT на рынке появились десятки компаний с конкурентоспособными моделями, и умные чат-боты начали превращаться в обычный продукт (коммодитизация). Поскольку все эти модели используют похожие архитектуры, основная стратегия победы в гонке заключалась в обучении моделей на экспоненциально большем количестве данных из интернета.

Объем используемых данных для обучения моделей стремительно рос:

  • GPT-1: 5 ГБ
  • GPT-2: 40 ГБ
  • GPT-3: 753 ГБ
  • GPT-4: 40 000 ГБ

Проблема масштабирования данных

Однако уже в ближайшие годы может возникнуть серьезное ограничение: к 2028 году языковые модели рискуют полностью исчерпать доступные для использования публичные текстовые данные в интернете.

Ограничения инфраструктуры

Кроме проблемы данных, появляется еще одно узкое место — это требования к инфраструктуре для обучения и работы с большими языковыми моделями.

Основные ресурсы, необходимые для обучения:

  • Данные: Требуются огромные высококачественные текстовые корпуса и специализированные данные (например, исходный код или научные статьи).
  • Выделенные команды экспертов для подготовки и очистки данных.
  • Вычислительные мощности: Обучение крупнейших моделей требует тысяч высокопроизводительных GPU и TPU, стоимость которых может превышать $10 000 за единицу.
  • Энергетическая инфраструктура: Одно обучение модели может потреблять столько же электроэнергии, сколько 5000 домов за год.

Даже если компания соберет все необходимые ресурсы, другие смогут сопоставить её достижения за считанные месяцы. Пример: после выпуска GPT-4o в мае 2024, аналогичные модели с похожими возможностями появились менее чем через полгода.

Так как возможности моделей становятся все более схожими, компании пытаются выделиться за счет уникальных функций и дополнительных возможностей:

  • Различные форматы ввода (текст, изображения, PDF, аудио).
  • Длинные контекстные окна для обработки больших объемов текста (до 2 млн токенов).
  • Доступ в реальном времени к поисковым системам и внешним базам знаний для получения актуальных данных.

Однако одной из ключевых стратегий становится использование собственных (проприетарных) источников данных, чтобы создавать специализированные возможности и удерживать конкурентные позиции.

Модели рассуждения

Проблемы масштабирования и поиск новых решений

Когда исследователи столкнулись с ограничениями традиционного подхода масштабирования языковых моделей, они начали искать новые пути повышения производительности без необходимости добавлять огромное количество данных.

Что может улучшить модели без масштабирования данных?

  • Адаптация к конкретным областям (specialized knowledge)
  • Оптимизация данных и инженерные подходы
  • Инновации в архитектуре
  • Моделирование рассуждений

Одним из самых многообещающих направлений стало создание моделей, способных к рассуждениям, которые работают по принципу, похожему на системы мышления I и II в человеческом мозге:

  • Система I — быстрое, интуитивное и автоматическое мышление.
  • Система II — медленное, вдумчивое и аналитическое мышление.

Модели с цепочкой рассуждений

Современные модели рассуждения способны решать задачи, как человек, разбивая их на последовательные шаги и корректируя свои действия в процессе. Этот метод называется Chain-of-Thought Reasoning (цепочка рассуждений). Пример:

Вопрос: дается уравнение или пример с формулой и спрашивается про решения или свойства решений уравнения.

Обычная языковая модель быстро выдает ближайший подходящий ответ, не анализируя промежуточные шаги. И чаще всего ошибается.

Модель рассуждения разбивает задачу на шаги, проверяет каждый из них, корректирует ошибки и формирует итоговое решение. По сути решает уравнение по шагам и исследует нужные свойства.

Итог: Модель рассуждения приходит к более точному ответу за счет последовательного анализа. И гораздо чаще обычной модели выдает правильный ответ.

Преимущества моделей рассуждения

Исследования показали, что, если модель «думает» дольше (около 20 секунд), это дает такой же прирост в производительности, как если бы её обучали на значительно большем объеме данных.

Такой подход уже привел к значительным улучшениям на бенчмарках:

  • GPT-o1 — базовые рассуждения.
  • GPT-o3 — улучшенное рассуждение, способность к самоанализу и поиску более сложных решений.

Результат: Модели становятся более точными и успешными в решении сложных математических задач и логических головоломок.

Несмотря на преимущества, модели рассуждения требуют значительно больше вычислительных ресурсов, что делает их обучение и эксплуатацию дорогостоящими. Кроме того, эти модели могут совершать ошибки, которые накапливаются в процессе «думания» и приводят к неправильным выводам (галлюцинациям).

Бизнес в сфере ИИ

Бум инвестиций в ИИ

Масштабные возможности искусственного интеллекта и стремительное развитие технологий вызвали настоящий инвестиционный бум. С 2013 по 2024 годы общий объем частных и государственных инвестиций в ИИ составил 1,29 триллиона долларов.

Рост инвестиций сопровождался появлением многочисленных приложений и продуктов, использующих языковые модели как основу для решения разнообразных задач:

  • Программирование и поддержка разработчиков: GitHub Copilot, Replit Agent, Codeium
  • Консультационные сервисы: ChatGPT, Claude, Harvey AI
  • Медицина: PathAI, Glass Health
  • Юриспруденция: Ironclad, Casetext
  • Маркетинг и генерация контента: Writesonic, Jasper

От прототипа к промышленному применению

Разработка минимально жизнеспособного продукта (MVP) на базе ИИ сегодня значительно проще, чем раньше. Однако перевод прототипа в производственное решение остается сложной задачей.

Основные трудности:

  • Интеграция в инфраструктуру предприятий. Подключение ИИ-моделей к существующим системам требует значительных инженерных усилий.
  • Защита данных. Предприятия не могут рисковать, раскрывая конфиденциальные данные публичным языковым моделям.
  • Точность и надежность. Обеспечение корректности результатов имеет критически важное значение для миссий и операций, особенно в финансовой или медицинской сферах.

Пример:

Для достижения уровня надежности 99,9% вероятность ошибки на каждом этапе обработки должна быть минимальной. Если модель допускает ошибку в 5% случаев на каждом этапе, вероятность хотя бы одной ошибки при цепочке из двух этапов уже составляет 9,75%.

Первые волны внедрения ИИ в компаниях сосредоточились на внутренних инструментах, которые повышают продуктивность сотрудников.

Наиболее популярные примеры использования:

  • Генерация кода (51%)
  • Чат-боты поддержки клиентов (31%)
  • Корпоративный поиск (28%)
  • Извлечение данных (27%)
  • Автоматизация офисных процессов

Давление на стартапы и конкуренция

Низкий порог для создания MVP привел к тому, что многие стартапы конкурируют в одних и тех же нишах, сталкиваясь с давлением на цены и риском «гонки к нулю». Стоимость использования языковых моделей снизилась в 10 раз каждый год с 2021 по 2024, что усилило давление на маржу стартапов.

Вывод: Для успешного построения прибыльного бизнеса в сфере ИИ компании должны формировать уникальные конкурентные преимущества, такие как доступ к закрытым данным или создание специализированных моделей, которые трудно воспроизвести конкурентам.

Агентные системы

Переход от реактивных к автономным системам

На текущий момент языковые модели являются реактивными — они взаимодействуют с пользователем, только когда получают запрос.

Пример: Пользователь спрашивает ChatGPT, куда лучше поехать в Японии, и получает ответ о посещении Киото.

Агентные системы представляют собой новый этап развития, так как они способны действовать автономно, выполняя задачи без постоянного вмешательства человека.

Принцип работы агентов:

  • Триггер: Агент получает событие, которое инициирует его действие.
  • Создание запроса: Агент формирует запрос на основе триггера.
  • Анализ: Модель обрабатывает запрос и принимает решение.
  • Действие: Агент выполняет задачу и отправляет результат.

Гипотетический пример:

С помощью агентов можно управлять командами с меньшим количеством специалистов. Человеческий руководитель взаимодействует с агентами, которые выполняют рутинные или узкоспециализированные задачи.

Пример использования: Uber QueryGPT

Uber уже использует многоагентную систему для оптимизации внутренних запросов к базе данных.

Как это работает:

  • Intent Agent — определяет намерение пользователя.
  • Table Agent — управляет таблицами и подбирает нужные данные.
  • SQL Agent — преобразует обработанную информацию в SQL-запрос.

Результат: Время написания запроса сокращается с 10 минут до 3 минут.

Основные барьеры для развития агентов

  • Ограниченные возможности восприятия: Агентам сложно работать с непредсказуемыми и шумными данными из реального мира.
  • Адаптивность: Агенты плохо приспосабливаются к изменениям в окружающей среде.
  • Проблемы интеграции: Реальное время и взаимодействие с разнообразными системами остаются сложными задачами.

Пример проблемы:

Агентная система должна взаимодействовать с браузером, выполнять действия и корректировать их на каждом этапе. Даже небольшая ошибка может привести к провалу всей операции.

Реальные примеры

Агент OpenAI Operator уже способен выполнять задачи онлайн-шопинга. Он может:

  • Перейти на нужный сайт.
  • Найти товар (фильтруя по цвету и размеру).
  • Добавить его в корзину.
  • Завершить покупку.

Будущее агентных систем

На первом этапе агенты будут эффективны в цифровых средах, таких как браузеры и компьютеры. Со временем они смогут выполнять задачи в реальном мире, например управлять роботами или автономными транспортными средствами.

Мультимодальные и голосовые модели

От текста к мультимодальности

Изначально языковые модели могли обрабатывать только текст и код, но теперь они стали мультимодальными — способными работать с различными типами данных:

  • Текст
  • Код
  • Изображения
  • Видео
  • Аудио
  • PDF и документы

Примеры:

  • Claude Sonnet 3.5 и GPT-4o поддерживают обработку изображений и аудио.
  • Google Gemini 1.5 работает с текстами, изображениями и реальным временем.

Переосмысление пользовательского опыта

Мультимодальные возможности позволяют радикально изменить привычный интерфейс взаимодействия с компьютерами и мобильными устройствами. На данный момент основным способом взаимодействия остается ввод текста через клавиатуру, что создает узкое место в скорости и удобстве использования.

Текущий процесс:

  • Чтобы выполнить задачу на телефоне:
    • Достать телефон из кармана.
    • Разблокировать устройство.
    • Найти нужное приложение.
    • Ввести данные.

Время выполнения задачи: несколько минут и отвлечение на уведомления.

Гипотетический голосовой интерфейс:

  • Голосовой запрос: «Сири, закажи мне еду из Chipotle, оплати моей картой AMEX и попроси курьера позвонить, если будут вопросы».

Время выполнения: менее 10 секунд — можно сделать это, складывая белье.

Интеллектуальный выбор модальностей

Чтобы создать действительно бесшовный опыт, AI-системы должны интеллектуально переключаться между голосовыми и визуальными режимами, выбирая оптимальный способ взаимодействия.

Проблема: Использование только голоса для перечисления нескольких вариантов (например, свободные даты для записи к врачу) может быть неудобным.

Решение: Система должна озвучивать краткое предложение, а затем показать на экране удобный интерфейс для выбора.

Пример будущего развития — обмен семантическими данными

В перспективе модели смогут общаться друг с другом напрямую, используя внутренние семантические представления вместо текстового языка. Это позволит избежать потерь информации и обеспечит более быстрый и плотный обмен данными.

Текущий процесс:

  • Модель A: генерирует слово «кот» и переводит его в текст.
  • Модель B: читает текст и интерпретирует его.

Будущий процесс:

  • Модель A и Модель B обмениваются внутренними семантическими представлениями, сохраняя весь смысл и контекст.

Результат: Повышение скорости и эффективности взаимодействия в многоагентных системах.

Первенство США и Китая в гонке ИИ

Рост числа передовых моделей в Китае

С момента выпуска ChatGPT в 2022 году китайские компании начали активно развивать свои собственные фундаментальные модели. К 2025 году около трети всех высококачественных языковых моделей было разработано в Китае.

Примеры китайских моделей:

  • ByteDance Doubao
  • Alibaba Qwen 2.5
  • Tencent Hunyuan
  • DeepSeek V3

Борьба за глобальное лидерство

Искусственный интеллект играет стратегическую роль в определении экономического и военного первенства между странами.

  • Экономическое лидерство: Ведущие позиции в разработке ИИ позволяют контролировать ключевые технологии и цифровую инфраструктуру, что стимулирует инновации и рост.
  • Военное преимущество: Применение ИИ в разработке автономных оружейных систем и дронов может существенно изменить баланс сил в будущем.

Пример: Дроны с ИИ уже демонстрируют высокий уровень координации, выполняя сложные задачи в режиме реального времени без вмешательства человека.

Инфраструктурные преимущества

Китай активно инвестирует в развитие энергетической инфраструктуры, чтобы удовлетворить растущие потребности ИИ-центров обработки данных. США, в свою очередь, имеют преимущество в доступе к самым современным вычислительным мощностям благодаря контролю над высокопроизводительными процессорами NVIDIA H100. Экспортные ограничения США ограничивают доступ китайских компаний к этим передовым чипам.

Несмотря на ограничения, китайские компании демонстрируют высокий уровень инженерных инноваций, достигая впечатляющих результатов с менее мощным оборудованием. Например, модель DeepSeek V3 показала сопоставимые с GPT-4o результаты при 8 раз меньших затратах на обучение.

США сохраняют лидерство в научных публикациях и цитируемости в области ИИ. С 2000 по 2021 год:

  • США: 1,37 млн научных статей и 7,4 млн цитирований.
  • Китай: 958 тыс. статей и 2,2 млн цитирований.

Тем не менее, в Китае продолжается значительное расширение научного сообщества. В 2020 году число специалистов в области ИИ в Китае превысило количество аналогичных специалистов в США.

История показывает, что США часто первыми создают основные технологические платформы, тогда как Китай масштабирует и улучшает приложения, основанные на этих платформах.

Примеры:

  • Интернет: TCP/IP и WWW (США) → WeChat и Baidu (Китай).
  • Мобильные платежи: iOS и Android (США) → Alipay и WeChat Pay (Китай).

Хотя Китай исторически использовал стратегии адаптации и масштабирования, его современные усилия в области ИИ показывают стремление к технологическому лидерству, а не только к копированию западных решений.

Заключение

Ограничения масштабирования фундаментальных моделей

Существующий подход масштабирования языковых моделей может достичь своих пределов уже в ближайшие годы. Согласно прогнозам, к 2028 году объем доступных текстовых данных в интернете будет полностью исчерпан при текущих темпах роста.

Однако появляются новые фронтиры в развитии моделей, такие как модели рассуждения, которые демонстрируют неожиданные способности и открывают новые возможности без необходимости в экспоненциальном росте данных.

Пример: У моделей, обученных на одной и той же базе данных, но с дополнительным временем на размышления и самокоррекцию, производительность значительно выше, чем у обычных языковых моделей.

Текущие слабости моделей

Несмотря на впечатляющий прогресс, сегодняшние языковые модели все еще имеют ограниченные способности в областях, требующих планирования, креативности и восприятия окружающей среды. Они также сталкиваются с трудностями при интеграции с реальными физическими системами и обработке непредсказуемых данных.

Объем частных инвестиций в ИИ продолжает расти, но остается неясным, где именно будет зафиксирована ценность и как компании смогут построить долгосрочные конкурентные преимущества.

Ключевые вызовы:

  • Удержание пользователей.
  • Создание уникальных и защищенных бизнес-моделей.
  • Формирование надежных и точных приложений.

Будущие направления развития

Мы находимся на ранней стадии многолетнего мегатренда в развитии ИИ. Первая волна приложений сосредоточена на чат-ботах, инструментах для программирования и внутренних корпоративных системах. Следующая волна будет связана с агентными системами и голосовыми интерфейсами.

Однако, несмотря на очевидную пользу многих приложений, создание долговременной ценности и защитных барьеров остается серьезной задачей.

Заключительный вопрос: Где появится следующее «приложение-убийца» и как компании смогут извлечь максимальную прибыль из этих миллиардных инвестиций?