По состоянию на 01.2025
TLDR
Человеческий мозг содержит около 100 триллионов нейронных соединений, которые работают совместно, создавая мысли через активацию определенных паттернов. Процесс обучения у человека происходит следующим образом: нейроны посылают электрические сигналы через синапсы, распознавая шаблоны, и со временем связи между ними становятся сильнее или слабее, в зависимости от полученного опыта.
Исследователи в области искусственного интеллекта черпали вдохновение в работе человеческого мозга, создавая искусственные нейронные сети, которые могли бы «обучаться» на основе анализа данных. С развитием вычислительных мощностей появилось важное открытие — архитектура трансформеров, которая позволила добиться значительного прогресса в распознавании паттернов и обучении на масштабных наборах данных.
Трансформер стал настоящим прорывом, так как обеспечил баланс между вычислительной эффективностью и способностью улавливать долгосрочные зависимости между словами. Благодаря этому стало возможным обучить нейронные сети на триллионах единиц данных и создать модели, которые могут обрабатывать огромные объемы информации.
Прорыв в архитектуре трансформеров позволил создать языковые модели, способные сжимать большинство знаний, доступных в интернете, в единую нейронную сеть.
Эволюция языковых моделей
С увеличением количества данных для обучения, исследователи обнаружили, что модели начинают демонстрировать способности, которым их изначально не обучали.
Бум инвестиций в ИИ
Появление этих возможностей и темпы развития привели к тому, что в искусственный интеллект было вложено более 1 триллиона долларов. Эти инвестиции способствовали созданию фундаментальных моделей и продуктов на основе ИИ, что ускорило инновации и обеспечило их массовое распространение.
Несмотря на успехи в прототипировании, доведение ИИ-продуктов до уровня коммерческого использования остается сложной задачей, требующей значительных инженерных усилий для обеспечения надежности и устойчивости.
Запуск ChatGPT и эффект первого приложения-убийцы
Запуск ChatGPT в 2022 году продемонстрировал общественности беспрецедентные возможности обработки естественного языка, что обеспечило OpenAI преимущество первопроходца на рынке. За короткий срок ChatGPT достиг огромной популярности. В период с ноября 2022 по ноябрь 2024 количество ежемесячных посещений его веб-сайта превысило 4 миллиарда.
Это был прорывной продукт, который стал первым настоящим «приложением-убийцей» (killer app) — интеллектуальным чат-ботом, позволяющим пользователям вести диалог с языковой моделью.
Однако за два года после запуска ChatGPT на рынке появились десятки компаний с конкурентоспособными моделями, и умные чат-боты начали превращаться в обычный продукт (коммодитизация). Поскольку все эти модели используют похожие архитектуры, основная стратегия победы в гонке заключалась в обучении моделей на экспоненциально большем количестве данных из интернета.
Объем используемых данных для обучения моделей стремительно рос:
Проблема масштабирования данных
Однако уже в ближайшие годы может возникнуть серьезное ограничение: к 2028 году языковые модели рискуют полностью исчерпать доступные для использования публичные текстовые данные в интернете.
Ограничения инфраструктуры
Кроме проблемы данных, появляется еще одно узкое место — это требования к инфраструктуре для обучения и работы с большими языковыми моделями.
Основные ресурсы, необходимые для обучения:
Даже если компания соберет все необходимые ресурсы, другие смогут сопоставить её достижения за считанные месяцы. Пример: после выпуска GPT-4o в мае 2024, аналогичные модели с похожими возможностями появились менее чем через полгода.
Так как возможности моделей становятся все более схожими, компании пытаются выделиться за счет уникальных функций и дополнительных возможностей:
Однако одной из ключевых стратегий становится использование собственных (проприетарных) источников данных, чтобы создавать специализированные возможности и удерживать конкурентные позиции.
Проблемы масштабирования и поиск новых решений
Когда исследователи столкнулись с ограничениями традиционного подхода масштабирования языковых моделей, они начали искать новые пути повышения производительности без необходимости добавлять огромное количество данных.
Что может улучшить модели без масштабирования данных?
Одним из самых многообещающих направлений стало создание моделей, способных к рассуждениям, которые работают по принципу, похожему на системы мышления I и II в человеческом мозге:
Модели с цепочкой рассуждений
Современные модели рассуждения способны решать задачи, как человек, разбивая их на последовательные шаги и корректируя свои действия в процессе. Этот метод называется Chain-of-Thought Reasoning (цепочка рассуждений). Пример:
Вопрос: дается уравнение или пример с формулой и спрашивается про решения или свойства решений уравнения.
Обычная языковая модель быстро выдает ближайший подходящий ответ, не анализируя промежуточные шаги. И чаще всего ошибается.
Модель рассуждения разбивает задачу на шаги, проверяет каждый из них, корректирует ошибки и формирует итоговое решение. По сути решает уравнение по шагам и исследует нужные свойства.
Итог: Модель рассуждения приходит к более точному ответу за счет последовательного анализа. И гораздо чаще обычной модели выдает правильный ответ.
Преимущества моделей рассуждения
Исследования показали, что, если модель «думает» дольше (около 20 секунд), это дает такой же прирост в производительности, как если бы её обучали на значительно большем объеме данных.
Такой подход уже привел к значительным улучшениям на бенчмарках:
Результат: Модели становятся более точными и успешными в решении сложных математических задач и логических головоломок.
Несмотря на преимущества, модели рассуждения требуют значительно больше вычислительных ресурсов, что делает их обучение и эксплуатацию дорогостоящими. Кроме того, эти модели могут совершать ошибки, которые накапливаются в процессе «думания» и приводят к неправильным выводам (галлюцинациям).
Бум инвестиций в ИИ
Масштабные возможности искусственного интеллекта и стремительное развитие технологий вызвали настоящий инвестиционный бум. С 2013 по 2024 годы общий объем частных и государственных инвестиций в ИИ составил 1,29 триллиона долларов.
Рост инвестиций сопровождался появлением многочисленных приложений и продуктов, использующих языковые модели как основу для решения разнообразных задач:
От прототипа к промышленному применению
Разработка минимально жизнеспособного продукта (MVP) на базе ИИ сегодня значительно проще, чем раньше. Однако перевод прототипа в производственное решение остается сложной задачей.
Основные трудности:
Пример:
Для достижения уровня надежности 99,9% вероятность ошибки на каждом этапе обработки должна быть минимальной. Если модель допускает ошибку в 5% случаев на каждом этапе, вероятность хотя бы одной ошибки при цепочке из двух этапов уже составляет 9,75%.
Первые волны внедрения ИИ в компаниях сосредоточились на внутренних инструментах, которые повышают продуктивность сотрудников.
Наиболее популярные примеры использования:
Давление на стартапы и конкуренция
Низкий порог для создания MVP привел к тому, что многие стартапы конкурируют в одних и тех же нишах, сталкиваясь с давлением на цены и риском «гонки к нулю». Стоимость использования языковых моделей снизилась в 10 раз каждый год с 2021 по 2024, что усилило давление на маржу стартапов.
Вывод: Для успешного построения прибыльного бизнеса в сфере ИИ компании должны формировать уникальные конкурентные преимущества, такие как доступ к закрытым данным или создание специализированных моделей, которые трудно воспроизвести конкурентам.
Переход от реактивных к автономным системам
На текущий момент языковые модели являются реактивными — они взаимодействуют с пользователем, только когда получают запрос.
Пример: Пользователь спрашивает ChatGPT, куда лучше поехать в Японии, и получает ответ о посещении Киото.
Агентные системы представляют собой новый этап развития, так как они способны действовать автономно, выполняя задачи без постоянного вмешательства человека.
Принцип работы агентов:
Гипотетический пример:
С помощью агентов можно управлять командами с меньшим количеством специалистов. Человеческий руководитель взаимодействует с агентами, которые выполняют рутинные или узкоспециализированные задачи.
Пример использования: Uber QueryGPT
Uber уже использует многоагентную систему для оптимизации внутренних запросов к базе данных.
Как это работает:
Результат: Время написания запроса сокращается с 10 минут до 3 минут.
Основные барьеры для развития агентов
Пример проблемы:
Агентная система должна взаимодействовать с браузером, выполнять действия и корректировать их на каждом этапе. Даже небольшая ошибка может привести к провалу всей операции.
Реальные примеры
Агент OpenAI Operator уже способен выполнять задачи онлайн-шопинга. Он может:
Будущее агентных систем
На первом этапе агенты будут эффективны в цифровых средах, таких как браузеры и компьютеры. Со временем они смогут выполнять задачи в реальном мире, например управлять роботами или автономными транспортными средствами.
От текста к мультимодальности
Изначально языковые модели могли обрабатывать только текст и код, но теперь они стали мультимодальными — способными работать с различными типами данных:
Примеры:
Переосмысление пользовательского опыта
Мультимодальные возможности позволяют радикально изменить привычный интерфейс взаимодействия с компьютерами и мобильными устройствами. На данный момент основным способом взаимодействия остается ввод текста через клавиатуру, что создает узкое место в скорости и удобстве использования.
Текущий процесс:
Время выполнения задачи: несколько минут и отвлечение на уведомления.
Гипотетический голосовой интерфейс:
Время выполнения: менее 10 секунд — можно сделать это, складывая белье.
Интеллектуальный выбор модальностей
Чтобы создать действительно бесшовный опыт, AI-системы должны интеллектуально переключаться между голосовыми и визуальными режимами, выбирая оптимальный способ взаимодействия.
Проблема: Использование только голоса для перечисления нескольких вариантов (например, свободные даты для записи к врачу) может быть неудобным.
Решение: Система должна озвучивать краткое предложение, а затем показать на экране удобный интерфейс для выбора.
Пример будущего развития — обмен семантическими данными
В перспективе модели смогут общаться друг с другом напрямую, используя внутренние семантические представления вместо текстового языка. Это позволит избежать потерь информации и обеспечит более быстрый и плотный обмен данными.
Текущий процесс:
Будущий процесс:
Результат: Повышение скорости и эффективности взаимодействия в многоагентных системах.
Рост числа передовых моделей в Китае
С момента выпуска ChatGPT в 2022 году китайские компании начали активно развивать свои собственные фундаментальные модели. К 2025 году около трети всех высококачественных языковых моделей было разработано в Китае.
Примеры китайских моделей:
Борьба за глобальное лидерство
Искусственный интеллект играет стратегическую роль в определении экономического и военного первенства между странами.
Пример: Дроны с ИИ уже демонстрируют высокий уровень координации, выполняя сложные задачи в режиме реального времени без вмешательства человека.
Инфраструктурные преимущества
Китай активно инвестирует в развитие энергетической инфраструктуры, чтобы удовлетворить растущие потребности ИИ-центров обработки данных. США, в свою очередь, имеют преимущество в доступе к самым современным вычислительным мощностям благодаря контролю над высокопроизводительными процессорами NVIDIA H100. Экспортные ограничения США ограничивают доступ китайских компаний к этим передовым чипам.
Несмотря на ограничения, китайские компании демонстрируют высокий уровень инженерных инноваций, достигая впечатляющих результатов с менее мощным оборудованием. Например, модель DeepSeek V3 показала сопоставимые с GPT-4o результаты при 8 раз меньших затратах на обучение.
США сохраняют лидерство в научных публикациях и цитируемости в области ИИ. С 2000 по 2021 год:
Тем не менее, в Китае продолжается значительное расширение научного сообщества. В 2020 году число специалистов в области ИИ в Китае превысило количество аналогичных специалистов в США.
История показывает, что США часто первыми создают основные технологические платформы, тогда как Китай масштабирует и улучшает приложения, основанные на этих платформах.
Примеры:
Хотя Китай исторически использовал стратегии адаптации и масштабирования, его современные усилия в области ИИ показывают стремление к технологическому лидерству, а не только к копированию западных решений.
Ограничения масштабирования фундаментальных моделей
Существующий подход масштабирования языковых моделей может достичь своих пределов уже в ближайшие годы. Согласно прогнозам, к 2028 году объем доступных текстовых данных в интернете будет полностью исчерпан при текущих темпах роста.
Однако появляются новые фронтиры в развитии моделей, такие как модели рассуждения, которые демонстрируют неожиданные способности и открывают новые возможности без необходимости в экспоненциальном росте данных.
Пример: У моделей, обученных на одной и той же базе данных, но с дополнительным временем на размышления и самокоррекцию, производительность значительно выше, чем у обычных языковых моделей.
Текущие слабости моделей
Несмотря на впечатляющий прогресс, сегодняшние языковые модели все еще имеют ограниченные способности в областях, требующих планирования, креативности и восприятия окружающей среды. Они также сталкиваются с трудностями при интеграции с реальными физическими системами и обработке непредсказуемых данных.
Объем частных инвестиций в ИИ продолжает расти, но остается неясным, где именно будет зафиксирована ценность и как компании смогут построить долгосрочные конкурентные преимущества.
Ключевые вызовы:
Будущие направления развития
Мы находимся на ранней стадии многолетнего мегатренда в развитии ИИ. Первая волна приложений сосредоточена на чат-ботах, инструментах для программирования и внутренних корпоративных системах. Следующая волна будет связана с агентными системами и голосовыми интерфейсами.
Однако, несмотря на очевидную пользу многих приложений, создание долговременной ценности и защитных барьеров остается серьезной задачей.
Заключительный вопрос: Где появится следующее «приложение-убийца» и как компании смогут извлечь максимальную прибыль из этих миллиардных инвестиций?