Когда в октябре 2022 года США ужесточили экспортный контроль за пределы Advanced Computing ускорителей общего назначения, китайские компании столкнулись с дефицитом оборудования, которое десятилетиями считалось обязательной базой для тренировки крупномасштабных моделей. Запрет на поставки NVIDIA A100 и позднее H100 не парализовал отрасль, а стимулировал тотальную оптимизацию по всему технологическому стеку.
Алгоритмическая сторона откликнулась быстро. Архитектурные исследования в области Sparse MoE (Mixture of Experts), дистилляции знаний из больших моделей в компактные и квантизации стали приоритетными направлениями задолго до того, как эти темы попали в mainstream-западную повестку. Одновременно усилия Huawei по развитию собственного CUDA-compat layer (CANN) и аппаратного стека Ascend показали, что зависимость от одного программно-аппаратного стека воспринимается как системный риск, а не данность.
Параллельно объективно сформировался огромный внутренний рынок: более миллиарда пользователей, доминирующие платформенные игроки (Alibaba Cloud, ByteDance, Tencent Cloud, Baidu AI Cloud) с естественной потребностью в NLP, мультимодальных и кодогенерирующих моделях для своих продуктов. Это создало замкнутую экономику спроса и предложения, которая обеспечила финансирование даже небольшим исследовательским группам.
Западный путь последних лет можно описать формулой «больше параметров — выше качество». GPT-4, Claude Opus, Gemini Ultra следуют этой логике последовательно, борясь за верхние строчки каждого следующего бенчмарка. Развёртывание таких монолитов требует значительных капитальных затрат и специализированной инфраструктуры, что делает их экономически целесообразными только в виде API-сервисов централизованного провайдера.
Китайский вектор представляет собой принципиально другую точку равновесия между возможностями модели и стоимостью её содержания. Открытие весов семейства Qwen (серия Qwen2.5, включающая варианты от 0,5 до 72 млрд параметров), публикация DeepSeek-R1 с полной документацией процесса предобучения и RLHF, выпуск GLM-130B от Zhipu AI — всё это демонстрирует приоритет доступности и повторяемости над гонкой за единичным рекордом.
Практический результат: инженер команды в Шанхае может взять 70B модель с открытыми весами, запустить её на кластере из восьми A800 (доступных на внутреннем рынке), получить производительность уровня GPT-3.5 Turbo на большинстве задач и существенно снизить стоимость инференса по сравнению с коммерческими API-схемами. Эта структура себестоимости объясняет, почему китайские команды непропорционально много вносят вклад в opensource-хабы — модель вознаграждения идеально совпадает с воспроизводимой наукой.
Важно понимать: речь не идёт о том, что китайские модели однозначно лучше. На отдельных бенчмарках MMLU, HumanEval или MATH они достигли паритета с закрытыми топовыми решениями в пределах статистической погрешности (±2–3 процентных пунктов), однако их сильные стороны лежат в плоскости соотношения цена/производительность, глубины работы с китайским языком и культурным контекстом Восточной Азии, а также гибкости развёртывания без vendor lock-in.
Четыре технологических гиганта формируют материальную основу всей китайской LLM-экосистемы. Каждый из них располагает собственным облачным клаудом, массивом пользовательских данных и прямым интересом к внедрению ИИ в свои продукты.
| Компания | Ключевая модель | Фокус | Инвестиции в ИИ (2024) | Стратегия |
|---|---|---|---|---|
| Alibaba | Qwen | Open weights, e-commerce, cloud API | ≈$4,5 млрд | Полная опенсорс-платформа; массовое adoption через HuggingFace |
| Tencent | Hunyuan | Gaming, social, WeChat integration | ≈$3,2 млрд | Вертикальная интеграция в мессенджер и gaming-экосистему |
| Baidu | ERNIE Bot | Search, autonomous driving, enterprise SaaS | ≈$2,8 млрд | B2B-ориентация; лидерство в китайском enterprise |
| ByteDance | Doubao | Short video, recommendation systems, TikTok/Douyin | ≈$2,1 млрд | Мультимодальность плюс персонализация рекомендаций |
Alibaba занимает уникальную позицию: Qwen стал де-факто стандартом open-source среди китайских моделей благодаря щедрой политике весов и активному хакингу сообщества на Hugging Face. Tencent использует Hunyuan прежде всего как внутренний инструмент автоматизации контент-модерации и NPC-диалогов в играх. Baidu исторически первой получила разрешение на публичный запуск ChatGPT-подобного сервиса (ERNIE Bot, март 2023), но сейчас испытывает давление более молодых участников. ByteDance с Doubao активно расширяет присутствие за пределы короткого видео: модель глубоко вплетена в Feishu (аналог Slack) и образовательные продукты.
Между корпорациями и лабораториями возник слой быстрорастущих стартапов, каждый из которых сфокусирован на узкой нише и привлекает средства международных венчурных фондов.
| Компания | Основатель(и) | Финансирование | Ключевые инвесторы |
|---|---|---|---|
| Zhipu AI | Tang Jie, Zhang Yimin (выпускники Tsinghua) | Series B, ≈$340 млн | Sequoia China, Meituan |
| MiniMax | Luo Junliang | Series B, ≈$250 млн | Shanghai AI Lab, Hillhouse |
| Moonshot AI | Yang Zhilin (ex-ByteDance recsys) | Series A/B, ≈$135 млн | Alibaba, Xiaomi |
| Baichuan AI | Wang Xiaochuan ( ex-SOGOU ) | Series A, ≈$95 млн | Sinovation Ventures |
| 01.AI | Li Yiqun (лаборатория Kai-Fu Lee) | Seed/A, ≈$110 млн | Shenzhen gov. fund, Azure China |
| StepFun | Nie Yuanhao | Series A, ≈$85 млн | Beijing municipal fund, Xiaomi |
Характерная черта шестёрки — связь основателей с ведущими университетами (Цинхуа, Пекинский университет) или крупными технокомпаниями. Это обеспечивает доступ к compute-ресурсам и талантам даже при относительно умеренных бюджетах. Минимальный порог входа для этого списка составлял около $80–100 млн раундов финансирования по состоянию на начало 2025 года.
DeepSeek: эффективность как бизнес-модель. В отличие от других стартапов, DeepSeek принадлежит High-Flyer Capital — количественному хедж-фонду из Ханчжоу. Это определяет три ключевых отличия:
Модели DeepSeek — V3 (dense/MoE), R1 (reasoning) и Janus-Pro (multimodal) — стабильно держат top-позиции на HuggingFace trending и стали эталоном для community fine-tuning.
SenseTime и Computer Vision. SenseTime, несмотря на IPO в Гонконге ($750 млн, декабрь 2021), остаётся специализированным игроком в CV/perception. Серия SenseNova включает мультимодальные возможности, но компания не позиционируется как general-purpose LLM-провайдер. Её клиенты — государственный сектор, безопасность, smart city projects.
iFlytek и речевые технологии. iFlytek — традиционный лидер ASR/TTS-рынка в Китае. Модель Spark получила заметный вирусный эффект после презентации 2023 года, однако по качеству диалога она уступает специализированным LLM. Сильная сторона — глубоко интегрированный речевой синтез и адаптация под диалекты.
Финансирование китайской LLM-отрасли имеет многослойную структуру, где пересекаются корпоративные интересы, институциональные фонды и государственная политика.
Корпоративные стратеги. Alibaba и Tencent выступают одновременно как разработчики собственных моделей и стратегические инвесторы в стартапы. Alibaba вложила средства в Moonshot AI и Zhipu AI; Tencent — в StepFun и MiniMax. Логика: захват влияния в перспективных командах на случай, если те станут угрозой или возможностью для облачного бизнеса.
Венчурные фонды. Sequoia Capital China, IDG Capital и Hillhouse совершили крупные ставки на ранних раундах. Hillhouse, например, был якорным инвестором в Series B Zhipu AI. Эти фонды частично опираются на глобальную LP-базу, что создаёт напряжение с геополитическими ограничениями.
Суверенные фонды. Mubadala (ОАЭ) и PIF (Саудовская Аравия) активно ищут exposure к китайскому ИИ через co-investment vehicles. Saudi Aramco's Prosperity7 и Abu Dhabi's G42 вели переговоры о партнёрствах с несколькими LLM-стартапами в 2024 году. Это один из наиболее чувствительных с точки зрения экспортного контроля каналов.
Государственные программы. Пекинский муниципальный фонд, Shenzhen AI Industry Fund и национальная программа «Нового строительства инфраструктуры» («新基建», синь-цзицзянь) обеспечивают гранты и субсидированный compute для одобренных лабораторий. Доступ к этим ресурсам часто связан с соответствием требованиям фильтрации контента (Compliance with Generative AI Regulations, effective August 2023).
Давление экспортного контроля на чипы NVIDIA создаёт парадокс: государственное субсидирование компенсирует часть дефицита, но одновременно стимулирует дублирование усилий вместо координации. Результат — крайне фрагментированная экосистема, где одновременно существуют сотни моделей, многие из которых являются форками друг друга.
Прежде чем сопоставлять модели по таблице, обозначим четыре системных принципа, без которых числовые характеристики вводят в заблуждение.
Параметры не равны качеству. Mixture-of-Experts архитектуры декларируют огромные номинальные размеры — сотни миллиардов параметров, — хотя реальная вычислительная нагрузка задействует лишь малую долю. Так, GLM-5 заявляет 744B параметров, но активирует приблизительно 44B на токен: разница в 17 раз. Сравнивать плотные (dense) модели с MoE по номиналу некорректно: 34-миллиардный плотный Yi-1.5 может оказаться быстрее и экономичнее, чем 744-миллиардный MoE-аналог при решении идентичной задачи.
Размер контекстного окна критичнее, чем принято думать. Длинный контекст (от 256K токенов) требуется далеко не только для анализа объёмных документов. Он напрямую влияет на способность модели удерживать цепочку рассуждений внутри одного запроса. Однако сверхдлинный контекст (1M токенов, как у Qwen3.6 Plus) почти всегда означает API-only доставку: полный профиль Rotary Position Embedding для таких окон физически не помещается в видеопамять рядовых GPU.
Архитектурные различия имеют вещественные последствия.
Лицензии определяют правовые границы. Большинство open-weight моделей в этом разделе распространяются либо под Apache 2.0 (практически без ограничений), либо под проприетарной лицензией с нюансами коммерческого использования. Перед деплоем в продакшен обязательно проверьте действующую редакцию соглашения — условия могут меняться между релизами даже одной модели.
Для калибровки — краткая точка отсчёта по трём топовым западным моделям:
| Модель | Разработчик | Approx. BenchLM |
|---|---|---|
| GPT-5.4 | OpenAI | 94 |
| Gemini 3.1 Pro | Google DeepMind | 92 |
| Claude Opus 4.6 | Anthropic | 91 |
Уровень 90+ предполагает близкую к современному максимуму производительность в области агентных задач, программирования и рассуждений на длинном контексте. Ни одна китайская модель пока не достигла этой отметки в сводном рейтинге BenchLM. Однако gap в 10–15 баллов уже позволяет закрыть большинство производственных сценариев, особенно в китайскоязычных предметных областях.
К этому ярусу относятся модели высшего эшелона, допускающие self-hosting. Они составляют основной выбор для организаций, которым требуется прозрачность, возможность аудита весов и отсутствие зависимости от внешнего API.
Архитектура: 744B параметров / 44B активных (MoE); Diffusion Switch Attention (DSA); 78 слоёв трансформера.
Контекст: 204.8K токенов; режим extended thinking включается промптом — модель возвращает структурированную цепочку рассуждений перед финальным ответом.
Особенности: Автономный агент AutoGLM интегрирован в стороне inference. Пользователь описывает цель — система самостоятельно планирует последовательность действий и обращения к инструментам. Модуль можно использовать отдельно от базовой модели.
Лицензия: Apache 2.0 / MIT. Веса публично доступны: zai-org/GLM-5; воспроизводимое руководство по fine-tuning от команды Zhipu.
Практический смысл: Если нужен open-weight топового уровня с сильным reasoning и агентным движком — GLM-5 ближайший кандидат. При наличии двух и более H100 скорость инференса достаточна для интерактивного использования; на меньшем кластере ожидание исчисляется секундами на токен.
Ветка 5.1 содержит три ключевых изменения относительно GLM-5:
Компромисс: на сложных многоходовых задачах рассуждений, требующих полную глубину всех слоёв, GLM-5.1 немного уступает базовой пятёрке. Выбор зависит от профиля нагрузки — интерактивные чат-боты выигрывают от 5.1, исследовательские пайплайны — от GLM-5.
Доступность: ✅ Открытые веса: zai-org/GLM-5.1 (MIT).
Архитектура: 397B параметров / 17B активных (MoE); гибридное внимание (стандартное Multi-Head + sliding window variant); блок предсказания нескольких токенов третьей версии (MTP-3); кастомный токенизатор со словарём ~151K токенов.
Контекст: 128K токенов; Extended Thinking Mode реализован через отдельный reward-сигнал на этапе посттренировки.
Особенности: Фирменный Qwen-Agent SDK предоставляет готовые паттерны tool use, code interpreter и retrieval-augmented generation. Модель показала выдающиеся результаты на бенчмарках по программированию (HumanEval+, MBPP+, APPS) благодаря специализированному претрейнинг-корпусу.
Лицензия: Tongyi Qianwen License. Два практических нюанса:
Доступность: ✅ Открытые веса: Qwen/Qwen3.5-397B-A17B.
Практический смысл: Qwen3.5-397B — самая популярная open-weight модель китайского происхождения по числу скачиваний на HuggingFace. Она хороша универсально, но для ресурсоёмкой работы с длинным контекстом учитывайте потолок в 128K токенов и особенности коммерческой лицензии.
Здесь собраны модели, которые жертвуют широтой ради глубины в конкретных сценариях — мультимодальность, ультрадлинный контекст или глубокая интеграция в продукты.
Архитектура: приблизительно 1.1T параметров / 32B активных (MoE); Multi-head Latent Attention (MLA); визуальный энкодер — проприетарный MoonViT.
Контекст: 256K токенов; нативная мультимодальность с пониманием изображений и видео без адаптерного слоя.
Особенности: Agent Swarm — концепция слабо связанных автономных агентов, координирующихся через разделяемое контекстное окно без централизованного контроллера. Каждый агент владеет специализированным поддоменом и передаёт управление соседу по мере продвижения задачи.
Доступность: ✅ Открытые веса: moonshotai/Kimi-K2.5 (Modified MIT License).
Практический смысл: Kimi K2.5 лидирует в мультимодальной категории (MMMU-Pro, MathVista) среди китайских моделей. Agent Swarm — экспериментальная парадигма, требующая отдельных инженерных инвестиций; применяйте её осознанно.
Главная характеристика — контекст 1M токенов, что эквивалентно примерно 750 тысячам символов китайского текста. Это позволяет подавать на вход целые книги, кодовые базы или месячные архивы переписок без построения стратегии разбиения на фрагменты — чанкинга (chunking).
Причина API-only: Полный профиль позиционного кодирования для окна 1M требует расширенной частоты RoPE Base, которую невозможно корректно интерполировать стандартными инференс-ядрами без специальной подготовки. Alibaba поддерживает этот профиль только в собственном облаке.
Доступность: ❌ API only; корпоративное ценообразование; действуют rate limits. Открытых весов на HuggingFace нет на апрель 2026. Есть версии более ранних версий Qwen.
Если сценарий требует обработки очень длинных документов и нет желания или возможности реализовывать chunking плюс retrieval, Qwen3.6 Plus закрывает эту потребность в формате plug-and-play.
Архитектура: 229B параметров / 10B активных (MoE); self-evolving training pipeline (automated curriculum learning + red teaming feedback loop).
Контекст: 204.8K токенов.
Особенности:
Доступность: ✅ Открытые веса: MiniMaxAI/MiniMax-M2.7/
Практический смысл: MiniMax-M2.7 спроектирован для предприятий, которые хотят минимизировать затраты на проектирование промптов. Из коробки он закрывает вертикали, где другим моделям требуются дорогостоящие сессии fine-tuning.
ByteDance строит Doubao вокруг sync между голосовой и текстовой модальностями — редкое направление для общецелевых моделей.
Архитектура: приблизительно 400B параметров (MoE); слой Speech-Text Fusion поверх универсального трансформерного бэкбона; pooling кросс-модального внимания.
Особенности:
Доступность: ❌ API only; эксклюзивно на платформе ByteDance Cloud / Volcano Engine. Открытых весов на момент проверки нет.
Практический смысл: Doubao 1.5 Pro незаменим для продуктов экосистемы ByteDance или сценариев голосовой коллаборации в реальном времени. Для generic text processing он не даёт преимуществ над моделями второго уровня.
Нижний условный «флагманский» ярус — это модели, сознательно ограниченные по масштабу ради скорости, экономичности или предметной специализации. Часто именно они становятся рабочей лошадкой в продакшен-развёртываниях.
Архитектура: 685B параметров / 37B активных (MoE); MLA attention; Auxiliary-loss-free load balancing; Mixed Precision FP8 training.
Training Cost: приблизительно $5,58 млн эквивалента операций FP16 — цифра, ставшая одним из самых цитируемых аргументов против тезиса «больше — значит лучше».
Контекст: 128K токенов; сильная специализация на математике и программировании (GSM8K, MATH-500, HumanEval+).
Лицензия: MIT. Полные веса: deepseek-ai/DeepSeek-V3.2.
Соотношение цены и качества: На AWS g6e instance (одиночная A100) throughput составляет около 45 токенов/с для BF16; себестоимость генерации существенно ниже конкурентов сопоставимого качества. Это делает DeepSeek-V3.2 оптимальным выбором для высокообъёмных текстовых пайплайнов в условиях ограниченного бюджета.
Архитектура: 34.4B dense трансформер; Grouped Query Attention (GQA) с 8 группами; функция активации SwiGLU; RoPE-позиционное кодирование.
Контекст: 32K токенов (200K заявлялся для Yi-1.5-9B с интерполяцией, но 34B-версия официально поддерживает до 32K).
Лицензия: Apache 2.0. Открытые веса: 01-ai/Yi-1.5-34B.
Практическое преимущество: Работает на одной RTX 4090 (24 ГБ VRAM) с квантованием Q4_K_M, обеспечивая около 28 токенов/с — редкий случай для модели данного класса качества. Целевые пользователи: независимые разработчики, исследователи и стартапы без корпоративного GPU-бюджета.
Качество: Не уступает плотным моделям вдвое большего размера на задачах понимания китайского языка благодаря курируемому корпусу претрейнинга с акцентом на китайское содержание.
Domain-adapted MoE-модель, сфокусированная на трёх китайско-нативных вертикалях:
Архитектура: приблизительно 130B параметров / ~13B активных; доменная адаптация выполнена через продолжаемый претрейнинг на курируемых вертикальных датасетах (не LoRA-адаптер — полная перетренировка целевых слоёв).
Доступность: ❌ API only; корпоративная модель подписки. На HuggingFace представлены более ранние версии (Baichuan2, Baichuan-M2/M3), но Baichuan4-Pro как отдельный репозиторий с весами отсутствует.
Оптимальный use case: Приложения, требующие высокоточного китайскоязычного вывода в регулируемых отраслях, где качество на уровне GPT-4 важнее широкой универсальности.
Архитектура: 199B параметров / ~11B активных (MoE); Sliding Window Attention (SWA) с шагом 3:1; голова MTP-3 для предсказания нескольких токенов вперёд.
Скорость генерации: 100–300 токенов/с на H100 (batch=1) — рекордный показатель среди рассмотренных моделей. Достигается за счёт SWA и редуцированного перевычисления активаций.
RL-фреймворк: Agentic Reinforcement Learning framework с петлёй предпочтений на реальных трассах вызовов инструментов; модель итеративно улучшает политику выбора инструментов после первичного supervised fine-tuning.
Контекст: 256K токенов (не 128K — это уточнено в официальной документации).
Доступность: ✅ Открытые веса: stepfun-ai/Step-3.5-Flash (Apache 2.0).
Практически: Выбирайте Step-3.5 Flash при построении автономных агентов с частыми вызовами инструментов — его RL-настроенная политика стабильно превосходит статистические prompting-стратегии на метрике Terminal-Bench 2.0.
| Модель | Открытые веса на HF | Ссылка на репозиторий | Лицензия |
|---|---|---|---|
| GLM-5 | ✅ | zai-org/GLM-5 | Apache 2.0 |
| GLM-5.1 | ✅ | zai-org/GLM-5.1 | MIT |
| Qwen3.5-397B-A17B | ✅ | Qwen/Qwen3.5-397B-A17B | Tongyi Qianwen |
| Qwen3.6-Plus | ❌ | — | API only |
| Kimi K2.5 | ✅ | moonshotai/Kimi-K2.5 | Modified MIT |
| MiniMax-M2.7 | ✅ | MiniMaxAI/MiniMax-M2.7 | Проприетарная (см. LICENSE) |
| Doubao-1.5-Pro | ❌ | — | API only |
| DeepSeek-V3.2 | ✅ | deepseek-ai/DeepSeek-V3.2 | MIT |
| Yi-1.5-34B | ✅ | 01-ai/Yi-1.5-34B | Apache 2.0 |
| Baichuan4-Pro | ❌ | — | API only |
| Step-3.5-Flash | ✅ | stepfun-ai/Step-3.5-Flash | Apache 2.0 |
Примечание: Наличие открытых весов не означает автоматическую готовность к production-развёртыванию. Всегда проверяйте: (1) требования к VRAM, (2) совместимость с вашим инференс-фреймворком, (3) условия лицензии для коммерческого использования.
| Tier | Модель | BenchLM* | Цена (API) | Self-hosting | Context | Multimodal | Встр. агенты | Китайский домен** |
|---|---|---|---|---|---|---|---|---|
| 1 | GPT-4.5 (референс) | ? | \($\)$ | ✗ | 128K | ✓ | ✓ | ◐ |
| 1 | Gemini 1.5 Pro (референс) | ? | \($\)$ | ✗ | 1–2M | ✓ | ✓ | ◐ |
| 2 | GLM-5.1 | ? | $$ / HF (MIT) | ★★★☆☆ | 204.8K | ◐ | ✓ AutoGLM | ⭐⭐⭐⭐ |
| 2 | Qwen3.5-397B-A17B | ? | $$ / HF | ★★☆☆☆ | 32K–128K | ✓ | ✓ Qwen-Agent | ⭐⭐⭐⭐ |
| 2 | Qwen3.6-Plus | ? | \($\)–\($\)$ | ✗ | 1M | ✓ | ✓ Enterprise | ⭐⭐⭐ |
| 3 | Kimi K2.5 | ? | \($\) / HF (MIT) | ★★☆☆☆ | 256K | ✓ img+vid | ✓ Agent Swarm | ⭐⭐⭐ |
| 3 | MiniMax-M2.7 | ? | \($\) | ✗ | ? | ◐ | ✓ 50+ skills | ⭐⭐⭐⭐ |
| 3 | Doubao-1.5-Pro | ? | \($\) | ✗ | 32K–256K† | ✓ img+text | ✓ collab suite | ⭐⭐⭐ |
| 4 | DeepSeek-V3.2 | ? | $ / HF (MIT) | ★★☆☆☆ | 128K | ✗ | ◐ | ⭐⭐⭐ |
| 4 | Yi-1.5-34B | ? | $ / HF | ★★★☆☆ | 16K / 32K | ✗ | ✗ | ⭐⭐⭐ |
| 4 | Baichuan 4 | ? | \($\) | ✗ | ? | ◐ | ◐ domain | ⭐⭐⭐⭐‡ |
| 4 | Step-3.5 Flash | ? | $$ / HF | ★★☆☆☆ | 256K | ✗ | ✓ agentic RL | ⭐⭐⭐ |
Легенда столбцов:
$ = бесплатно/<\(10/мес; `\)\(` =\)0,001–0,01/1K токенов; $$$ = ~\(0,05+/1K токенов; `\)\($\)` = корпоративное предложение. Открытые веса ≠ бесплатный API.* BenchLM: конкретные числовые оценки не верифицируются публично; рекомендуется сверяться с benchlm.ai напрямую.
† Doubao-1.5-Pro имеет несколько вариантов контекста в зависимости от deployment-конфигурации.
‡ Специализация Baichuan 4 на legal/medical заявлена в маркетинговых материалах; публичных бенчмарков недостаточно для объективной верификации.
Особенности (обновлено):
BenchLM — это попытка создать воспроизводимую, прозрачную и защищаемую систему оценки, свободную от маркетинговых искажений отдельных вендоров. В отличие от большинства публичныхleaderboard, где каждая модель поставляет результаты самостоятельно, BenchLM проводит оценку на приватном наборе задач, недоступном для contamination. Это существенно затрудняет натаскивание на бенчмарк.
Авторы публикуют методологию, код eval-пайплайна и статистику inter-annotatoragreement. Любой исследователь может воспроизвести результаты для произвольной модели при наличии API-доступа или весов.
benchlm организует оценку в восемь кластеров, каждый из которых отражает distinct facet модели:
| Категория | Вес | Representative tasks |
|---|---|---|
| 🤖 Agentic | 22 % | SWE-bench Verified, Terminal-Bench 2.0, WebArena |
| 💻 Coding | 20 % | HumanEval+, MBPP+, APPS-Distance |
| 🧮 Reasoning | 17 % | ARC-Challenge, LogiQA, BigBench Hard subset |
| 🌏 Multilingual | 7 % | XTREME bench, Flores-200, Belebele |
| 🖼️ Multimodal | 12 % | MMMU-Pro, MathVista, ChartQA |
| 📚 Knowledge | 12 % | PopQA, Natural Questions, MedMCQA |
| 🎯 Instruction Following | 5 % | IFEval, AlpacaEval 3.0, MT-Bench |
| 🔢 Math | 5 % | AIME 2025, GPQA Diamond, Minerva Math |
Weighted score — это взвешенная сумма нормализованных результатов. Display-only категории служат для контекста и косвенно влияют на финальный балл через агрегированные компоненты.
SWE-bench Verified — набор реальных задач из GitHub-issue/PR, где модель должна не просто предложить patch, а сделать это так, чтобы unit-тесты прошли. Процент passing tests — primary metric. Один из самых сложных и приближённых к боевому коду.
Terminal-Bench 2.0 — оценка способности модели ориентироваться в средах Unix Shell, interpret error messages, и compose multi-step command pipelines. Особенно релевантен для DevOps-, SRE- и Data Engineering-use cases.
MMMU-Pro — Massive Multidisciplinary Multimodal Understanding. Около 15K вопросов из college-level exams по STEM, социальным наукам и искусству. Требует simultaneous understanding текста, диаграмм, фотографий и equation rendering.
AIME 2025 — American Invitational Mathematics Examination. Олимпиадные задачи повышенной сложности. Модели уровня 60+ обычно решают менее половины; level-1 models стабильно превышают 80%.
Score = Σ(w_i × norm(score_i)) / Σw_i
где norm(x) — z-score normalisation по cohort протестированных моделей; outlier clipping на ±3σ; временной decay factor для older submissions (−0.5 pp/year). Итоговый балл округляется до integer.
Безопасность и выравнивание (safety & alignment) не оцениваются. BenchLM измеряет функциональные возможности (capability), но ничего не говорит об устойчивости к состязательным промптам (adversarial prompts), сопротивляемости к джейлбрейкам (jailbreak resistance) или калибровке уверенности модели.
Задержки и ценообразование вне рамок (out of scope). Позиция в лидерборде никак не отражает time-to-first-token или стоимость за токен. Модель с более низким баллом может быть драматически быстрее и дешевле в эксплуатации.
Культурный дисбаланс (cultural bias). Китайские модели закономерно показывают лучшие результаты на китайскоязычных задачах; западные модели — на англоязычных. Взвешенный агрегированный показатель частично компенсирует этот перекос, но не устраняет его полностью.
Ручное тестирование (hands-on) всё ещё необходимо.
Синтетические бенчмарки не покрывают субъективные качества: естественность диалога, адаптацию тона под бренд-голос (brand voice), обработку неоднозначных запросов. Прежде чем выбирать модель для продукта, ориентированного на конечного пользователя (customer-facing), проведите слепую оценку (blind evaluation) на репрезентативной выборке вашей целевой нагрузки.
| Сценарий | Рекомендуемые модели | Ключевой критерий |
|---|---|---|
| RAG-пайплайн с корпоративной базой знаний | GLM-5, Qwen3.5-397B | Balance цены и длины контекста |
| Coding agent (CI/CD-integrated) | DeepSeek-V3.2, Step-3.5 Flash | Throughput + tool use stability |
| Edge deployment (consumer GPU) | Yi-1.5-34B | VRAM footprint, Q4 quantisation quality |
| Китайскоязычное enterprise app | Baichuan4-Pro, MiniMax-M2.7 | Domain accuracy, built-in skills |
| Ultra-long document ingestion | Qwen3.6 Plus | 1M token context без chunking overhead |
| Real-time voice interaction | Doubao 1.5 Pro | Round-trip latency voice→text→voice |
| Лицензия | Модели | Ключевые ограничения |
|---|---|---|
| Apache 2.0 | GLM-5, GLM-5.1, Yi-1.5-34B, DeepSeek-V3.2 | Практически без ограничений. Можно использовать коммерчески. Patent grant included. |
| MIT/Permissive | DeepSeek Janus-Pro | Nearly unrestricted commercial use. Attribution appreciated. |
| Tongyi Qianwen | Qwen3.5-397B, Qwen3.6 Plus | Free for research/non-commercial. Commercial use >threshold users requires Alibaba approval. Terms не public. |
| Proprietary/EULA | Kimi K2.5, MiniMax-M2.7, Doubao 1.5 Pro, Baichuan4-Pro | API-only; no redistribution of weights; enterprise agreements individually negotiated. |
# === Llama.cpp: запуск квантованной Yi-1.5-34B ===
./llama-cli \
-m ./yi-1.5-34b.Q4_K_M.gguf \
-ctx 8192 \
-ngl 33 \
-t 16 \
--temp 0.7 \
-p "[INST] <<SYS>> Ты — помощник. <</SYS>>
Напиши функцию быстрой сортировки на Python. [/INST]"
# === vLLM: деплой Qwen3.5-397B с tensor parallelism ===
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-72B-Instruct \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.92 \
--max-model-len 131072 \
--port 8080
# === Ollama: быстрый старт для прототипирования ===
ollama pull glm:9b
ollama run glm:9b "Объясни разницу между MoE и dense моделями."
Tool calling, shared memory и multi-step planning — три building blocks агентного пайплайна. Библиотеки Qwen-Agent и LangChain поддерживают обе модели из коробки:
# === Qwen-Agent: tool calling c GLM-5 ===
from qwen_agent.tools import Wikipedia, Calculator
from qwen_agent.agents import Assistant
bot = Assistant(
llm={'model': 'THUDM/glm-5-9b-chat'},
function_map={'wikipedia': Wikipedia(), 'calc': Calculator()}
)
response = bot.run([
{'role':'user','content':
'Если население Москвы ~13 млн, '
'а Пекина ~21 млн, во сколько раз Москва меньше?'}]
)
print(response[-1]['content'])
# => Население Москвы примерно в 1.62 раза меньше населения Пекина.
# === Step-3.5 Flash: agentic RL loop pattern ===
# Петля предпочтений: после каждого episode сохраняем
# (state, action, reward) triplet в replay buffer;
# периодически запускаемDPO/PPO update на буферизованных трассах.
# Чем чаще реальные пользователи вызывают конкретный tool sequence,
# тем вероятнее модель воспроизведёт его вfuture episodes.
Consumer GPUs (RTX 3090/4090, AMD Radeon RX 7900 XT):
--nmul-mat-split или ExLlamaV2 для partial offload на RAM.Корпоративный уровень (кластеры A100/H100, от 4 узлов):
Разрыв между open-weight и proprietary моделями по функциональности стремительно сокращается. Qwen-Agent SDK, AutoGLM от Zhipu и Agentic RL Frameworks теперь доступны и для self-hosted моделей. Ожидаем, что к середине 2026 года большинство enterprise-grade фич (monitoring, finetuning pipelines, RBAC для апишек (RBAC (Role-Based Access Control) для API — это модель контроля доступа, где разрешения на вызов эндпоинтов выдаются не пользователям напрямую, а ролям, которые этим пользователям назначаются.)) будут порты для open-weight моделей в коммерческих решениях.
Вот профессионально отредактированный фрагмент, адаптированный под стиль технической аналитики. Устранён код-свитчинг, исправлены синтаксические ошибки, терминология приведена к стандартам русскоязычной ИТ-публицистики.
Agent Swarm (Moonshot), AutoGLM (Zhipu) и Qwen-Agent — все крупные игроки теперь смещают фокус не только на развитие базовых моделей, но и на создание программной экосистемы вокруг них. В отрасли закрепляется динамика «победитель получает большую часть рынка»: наличие плагинов, документации, обучающих материалов и активного сообщества становится куда более надёжным конкурентным преимуществом, чем маржинальный прирост баллов в бенчмарках. По своей структуре эта гонка напоминает экосистемную борьбу вокруг Kubernetes на заре его развития.
«Временные меры по управлению услугами генеративного искусственного интеллекта» (август 2023 г.) обязывают провайдеров внедрять системы модерации контента, обеспечивать локализацию данных и проходить периодические оценки безопасности. Правоприменение носит выборочный характер: крупнейшие платформы (Baidu, Alibaba, ByteDance) проходят регулярные аудиты, тогда как игроки среднего и малого звена получают большую регуляторную гибкость. Для международных компаний, работающих на китайском рынке, это означает, что выбор вендора должен напрямую учитывать его соответствие локальным нормативным требованиям.
Экспортный контроль на полупроводниковое оборудование продолжит ужесточаться. В ответ ожидается углубление вертикальной интеграции (ускоренное развитие экосистемы Huawei Ascend), дальнейшие инвестиции в алгоритмическую эффективность и постепенный переход к распределённым архитектурам обучения, что позволит снизить критическую зависимость от отдельных типов аппаратных ускорителей.
Пример DeepSeek наглядно подтверждает гипотезу о том, что оптимизация процессов обучения значительно эффективнее стратегии «грубого масштабирования» (brute-force scaling). Этот вывод уже воспроизведён несколькими независимыми исследовательскими группами. Ситуация кардинально меняет расклад сил для стартапов и академических институтов по всему миру: для проведения исследований мирового уровня больше не требуются кластеры стоимостью в сотни миллионов и миллиарды долларов, достаточно десятков миллионов. Как следствие, происходит демократизация разработки передовых моделей, ускорение доменной специализации и массовое появление узконастроенных, оптимизированных под конкретные задачи вариантов.
Китай оказался в исключительно выгодном положении в рамках этой новой парадигмы: инженерная культура, сфокусированная на эффективности, сильная математическая школа и отлаженная инфраструктура для распределённого обучения. Станет ли это преимуществом устойчивым лидерством или лишь инструментом для более быстрого сокращения технологического отставания, во многом будет зависеть от текущей динамики доступа к передовым полупроводникам.
Три ключевых совета для разработчика:
Начните с DeepSeek-V3.2 или Yi-1.5-34B. Первая — лучшее соотношение цены и качества при использовании; вторая — хороший вариант для consumer-GPU (бытовых видеокарт).
Оценивайте китайские модели по их сильным сторонам. Не пытайтесь соревноваться с GPT-5.4 в абстрактном логическом мышлении. Однако для рабочих процессов, для автоматизации написания кода с ограниченным бюджетом, а также в ситуациях, где обязательным требованием является самостоятельный хостинг (self-hosting), китайский стек технологий сейчас предлагает убедительные альтернативы.
Тщательно отслеживайте изменения в лицензировании. Лицензия Tongyi и проприетарные конечные пользовательские лицензионные соглашения (EULA) постоянно развиваются. То, что было разрешено шесть месяцев назад, завтра может потребовать пересмотра условий. Создание уровня абстракции между логикой вашего приложения и конкретным провайдером уже сейчас позволит избежать болезненных миграций в будущем.
Когда смотреть на китайские модели, а когда — на западные?
| Критерий | Китайские модели | Западные модели |
|---|---|---|
| Требуется самостоятельный хостинг (self-hosting) | ✅ Сильная сторона | Ограниченная доступность |
| Ограниченный бюджет | ✅ Отличное соотношение $/производительность | Только премиум-уровень |
| Передовые возможности (>90 баллов в LM-бенчмарках) | Пока отстают | Явное лидерство |
| Контент на китайском языке | ✅ Превосходное качество | Достаточное качество |
| Готовые к продакшену инструменты для агентов | Стадия созревания | Более зрелые экосистемы |
| Предсказуемость регуляторной среды | Сложная/меняющаяся цель | Стабильные правовые рамки |
References:
| Термин | Описание |
|---|---|
| MoE (Mixture of Experts / Смесь экспертов) | Архитектура нейронной сети, в которой для каждого токена активируется лишь часть параметров; позволяет достигать огромного количества параметров при контролируемом бюджете операций (FLOP) |
| Dense model (Плотная модель) | Традиционный трансформер, в котором все параметры участвуют в каждом прямом проходе (forward pass) |
| KV Cache (Кэш ключей-значений) | Тензоры Key-Value, сохраняемые для предыдущих токенов, чтобы избежать повторных вычислений; основной потребитель памяти при авторегрессионной декодировке |
| RoPE (Rotary Position Embedding / Вращаемое позиционное кодирование) | Метод позиционного кодирования, позволяющий экстраполяцию за пределы длины контекста, использованной при обучении |
| MLA (Multi-head Latent Attention / Многоголовое латентное внимание) | Техника низкоранговой компрессии KV, уменьшающая размер KV-кэша; запатентована DeepSeek |
| MTP (Multi-Token Prediction / Предсказание нескольких токенов) | Одновременное предсказание нескольких следующих токенов; повышает пропускную способность ценой увеличения потребления VRAM |
| AWQ / GGUF | Форматы квантования только весов; AWQ — для канал-по-каналу квантования с учётом активаций, GGUF — для оффлоадинга между CPU/GPU |
| Continuous Batching (Непрерывный батчинг) | Динамическая упаковка последовательностей переменной длины в батчи фиксированного размера; максимизирует утилизацию GPU |
| Speculative Decoding (Спекулятивное декодирование) | Использование небольшой черновой модели для предсказания нескольких токенов вперёд; более крупная модель-верификатор принимает/отклоняет результаты параллельно |
| LoRA / QLoRA | Дообучение с помощью низкоранговых адаптеров; обучает крошечные аддитивные матрицы вместо полных весов модели |
| Fine-tuning (Дообучение) | Продолжение предобучения на предметно-ориентированном корпусе данных для специализации поведения модели |
| RAG (Retrieval-Augmented Generation / Генерация с дополнением извлечением) | Обогащение контекста LLM извлечёнными документами на этапе инференса |
| Model Family | Repo / Page |
|---|---|
| Qwen | huggingface.co/Qwen |
| DeepSeek | github.com/deepseek-ai |
| GLM / ChatGLM | huggingface.co/THUDM |
| Yi | huggingface.co/01-ai |
| MiniMax | minimaxi.com |
| Moonshot (Kimi) | platform.moonshot.cn |
| Baichuan | baichuan-ai.com |
| StepFun | stepfun.com |
| Doubao | volcengine.com/product/doubao |
{
"licenses": [
{"model_family": "GLM-5", "license": "Apache-2.0",
"commercial_use": true, "redistribution": true, "modifications": true},
{"model_family": "Qwen3.5-397B", "license": "Tongyi-Qianwen",
"commercial_use": "requires_approval", "redistribution": false,
"modifications": "allowed_with_attribution"},
{"model_family": "DeepSeek-V3.2", "license": "MIT",
"commercial_use": true, "redistribution": true, "modifications": true},
{"model_family": "Yi-1.5-34B", "license": "Apache-2.0",
"commercial_use": true, "redistribution": true, "modifications": true},
{"model_family": "Baichuan4-Pro", "license": "proprietary",
"commercial_use": "enterprise_contract_required", "redistribution": false,
"modifications": false},
{"model_family": "Step-3.5 Flash", "license": "custom",
"commercial_use": "negotiated_case_by_case", "redistribution": false,
"modifications": false}
]
}