The State of Chinese LLMs (2026) - Китайские ИИ-модели: архитектура, бенчмарки и практическое применение

1. Введение: китайский ИИ — это не «копия», а альтернативная траектория

Когда в октябре 2022 года США ужесточили экспортный контроль за пределы Advanced Computing ускорителей общего назначения, китайские компании столкнулись с дефицитом оборудования, которое десятилетиями считалось обязательной базой для тренировки крупномасштабных моделей. Запрет на поставки NVIDIA A100 и позднее H100 не парализовал отрасль, а стимулировал тотальную оптимизацию по всему технологическому стеку.

Алгоритмическая сторона откликнулась быстро. Архитектурные исследования в области Sparse MoE (Mixture of Experts), дистилляции знаний из больших моделей в компактные и квантизации стали приоритетными направлениями задолго до того, как эти темы попали в mainstream-западную повестку. Одновременно усилия Huawei по развитию собственного CUDA-compat layer (CANN) и аппаратного стека Ascend показали, что зависимость от одного программно-аппаратного стека воспринимается как системный риск, а не данность.

Параллельно объективно сформировался огромный внутренний рынок: более миллиарда пользователей, доминирующие платформенные игроки (Alibaba Cloud, ByteDance, Tencent Cloud, Baidu AI Cloud) с естественной потребностью в NLP, мультимодальных и кодогенерирующих моделях для своих продуктов. Это создало замкнутую экономику спроса и предложения, которая обеспечила финансирование даже небольшим исследовательским группам.

Западный путь последних лет можно описать формулой «больше параметров — выше качество». GPT-4, Claude Opus, Gemini Ultra следуют этой логике последовательно, борясь за верхние строчки каждого следующего бенчмарка. Развёртывание таких монолитов требует значительных капитальных затрат и специализированной инфраструктуры, что делает их экономически целесообразными только в виде API-сервисов централизованного провайдера.

Китайский вектор представляет собой принципиально другую точку равновесия между возможностями модели и стоимостью её содержания. Открытие весов семейства Qwen (серия Qwen2.5, включающая варианты от 0,5 до 72 млрд параметров), публикация DeepSeek-R1 с полной документацией процесса предобучения и RLHF, выпуск GLM-130B от Zhipu AI — всё это демонстрирует приоритет доступности и повторяемости над гонкой за единичным рекордом.

Практический результат: инженер команды в Шанхае может взять 70B модель с открытыми весами, запустить её на кластере из восьми A800 (доступных на внутреннем рынке), получить производительность уровня GPT-3.5 Turbo на большинстве задач и существенно снизить стоимость инференса по сравнению с коммерческими API-схемами. Эта структура себестоимости объясняет, почему китайские команды непропорционально много вносят вклад в opensource-хабы — модель вознаграждения идеально совпадает с воспроизводимой наукой.

Важно понимать: речь не идёт о том, что китайские модели однозначно лучше. На отдельных бенчмарках MMLU, HumanEval или MATH они достигли паритета с закрытыми топовыми решениями в пределах статистической погрешности (±2–3 процентных пунктов), однако их сильные стороны лежат в плоскости соотношения цена/производительность, глубины работы с китайским языком и культурным контекстом Восточной Азии, а также гибкости развёртывания без vendor lock-in.


2. Экосистема: кто есть кто в китайском ИИ

2.1 «Большая четвёрка»: инфраструктура и данные

Четыре технологических гиганта формируют материальную основу всей китайской LLM-экосистемы. Каждый из них располагает собственным облачным клаудом, массивом пользовательских данных и прямым интересом к внедрению ИИ в свои продукты.

Компания Ключевая модель Фокус Инвестиции в ИИ (2024) Стратегия
Alibaba Qwen Open weights, e-commerce, cloud API ≈$4,5 млрд Полная опенсорс-платформа; массовое adoption через HuggingFace
Tencent Hunyuan Gaming, social, WeChat integration ≈$3,2 млрд Вертикальная интеграция в мессенджер и gaming-экосистему
Baidu ERNIE Bot Search, autonomous driving, enterprise SaaS ≈$2,8 млрд B2B-ориентация; лидерство в китайском enterprise
ByteDance Doubao Short video, recommendation systems, TikTok/Douyin ≈$2,1 млрд Мультимодальность плюс персонализация рекомендаций

Alibaba занимает уникальную позицию: Qwen стал де-факто стандартом open-source среди китайских моделей благодаря щедрой политике весов и активному хакингу сообщества на Hugging Face. Tencent использует Hunyuan прежде всего как внутренний инструмент автоматизации контент-модерации и NPC-диалогов в играх. Baidu исторически первой получила разрешение на публичный запуск ChatGPT-подобного сервиса (ERNIE Bot, март 2023), но сейчас испытывает давление более молодых участников. ByteDance с Doubao активно расширяет присутствие за пределы короткого видео: модель глубоко вплетена в Feishu (аналог Slack) и образовательные продукты.

2.2 «Шесть тигров»: стартапы-лидеры в LLM

Между корпорациями и лабораториями возник слой быстрорастущих стартапов, каждый из которых сфокусирован на узкой нише и привлекает средства международных венчурных фондов.

Компания Основатель(и) Финансирование Ключевые инвесторы
Zhipu AI Tang Jie, Zhang Yimin (выпускники Tsinghua) Series B, ≈$340 млн Sequoia China, Meituan
MiniMax Luo Junliang Series B, ≈$250 млн Shanghai AI Lab, Hillhouse
Moonshot AI Yang Zhilin (ex-ByteDance recsys) Series A/B, ≈$135 млн Alibaba, Xiaomi
Baichuan AI Wang Xiaochuan ( ex-SOGOU ) Series A, ≈$95 млн Sinovation Ventures
01.AI Li Yiqun (лаборатория Kai-Fu Lee) Seed/A, ≈$110 млн Shenzhen gov. fund, Azure China
StepFun Nie Yuanhao Series A, ≈$85 млн Beijing municipal fund, Xiaomi

Характерная черта шестёрки — связь основателей с ведущими университетами (Цинхуа, Пекинский университет) или крупными технокомпаниями. Это обеспечивает доступ к compute-ресурсам и талантам даже при относительно умеренных бюджетах. Минимальный порог входа для этого списка составлял около $80–100 млн раундов финансирования по состоянию на начало 2025 года.

2.3 Специализированные игроки

DeepSeek: эффективность как бизнес-модель. В отличие от других стартапов, DeepSeek принадлежит High-Flyer Capital — количественному хедж-фонду из Ханчжоу. Это определяет три ключевых отличия:

  1. Нет внешнего давления на выручку. Фонд финансирует исследования, поскольку рассматривает ИИ-модели как потенциальный alpha-factor для алго-трейдинга.
  2. Радикальная энергоэффективность. Training cost DeepSeek-V3 составил приблизительно $5,58 млн эквивалента операций FP16 — цифра, которая шокировала западных наблюдателей и стала одним из самых цитируемых контраргументов против тезиса «чем больше, тем лучше».
  3. Открытая публикация методологии. DeepSeek опубликовал исчерпывающую техническую документацию (paper, logs, датасеты), чего избегают коммерческие игроки.

Модели DeepSeek — V3 (dense/MoE), R1 (reasoning) и Janus-Pro (multimodal) — стабильно держат top-позиции на HuggingFace trending и стали эталоном для community fine-tuning.

SenseTime и Computer Vision. SenseTime, несмотря на IPO в Гонконге ($750 млн, декабрь 2021), остаётся специализированным игроком в CV/perception. Серия SenseNova включает мультимодальные возможности, но компания не позиционируется как general-purpose LLM-провайдер. Её клиенты — государственный сектор, безопасность, smart city projects.

iFlytek и речевые технологии. iFlytek — традиционный лидер ASR/TTS-рынка в Китае. Модель Spark получила заметный вирусный эффект после презентации 2023 года, однако по качеству диалога она уступает специализированным LLM. Сильная сторона — глубоко интегрированный речевой синтез и адаптация под диалекты.

2.4 Источники денег: кто стоит за китайским ИИ

Финансирование китайской LLM-отрасли имеет многослойную структуру, где пересекаются корпоративные интересы, институциональные фонды и государственная политика.

Корпоративные стратеги. Alibaba и Tencent выступают одновременно как разработчики собственных моделей и стратегические инвесторы в стартапы. Alibaba вложила средства в Moonshot AI и Zhipu AI; Tencent — в StepFun и MiniMax. Логика: захват влияния в перспективных командах на случай, если те станут угрозой или возможностью для облачного бизнеса.

Венчурные фонды. Sequoia Capital China, IDG Capital и Hillhouse совершили крупные ставки на ранних раундах. Hillhouse, например, был якорным инвестором в Series B Zhipu AI. Эти фонды частично опираются на глобальную LP-базу, что создаёт напряжение с геополитическими ограничениями.

Суверенные фонды. Mubadala (ОАЭ) и PIF (Саудовская Аравия) активно ищут exposure к китайскому ИИ через co-investment vehicles. Saudi Aramco's Prosperity7 и Abu Dhabi's G42 вели переговоры о партнёрствах с несколькими LLM-стартапами в 2024 году. Это один из наиболее чувствительных с точки зрения экспортного контроля каналов.

Государственные программы. Пекинский муниципальный фонд, Shenzhen AI Industry Fund и национальная программа «Нового строительства инфраструктуры» («新基建», синь-цзицзянь) обеспечивают гранты и субсидированный compute для одобренных лабораторий. Доступ к этим ресурсам часто связан с соответствием требованиям фильтрации контента (Compliance with Generative AI Regulations, effective August 2023).

Давление экспортного контроля на чипы NVIDIA создаёт парадокс: государственное субсидирование компенсирует часть дефицита, но одновременно стимулирует дублирование усилий вместо координации. Результат — крайне фрагментированная экосистема, где одновременно существуют сотни моделей, многие из которых являются форками друг друга.


3. Флагманские модели: технические спецификации

3.1 Методология сравнения

Прежде чем сопоставлять модели по таблице, обозначим четыре системных принципа, без которых числовые характеристики вводят в заблуждение.

Параметры не равны качеству. Mixture-of-Experts архитектуры декларируют огромные номинальные размеры — сотни миллиардов параметров, — хотя реальная вычислительная нагрузка задействует лишь малую долю. Так, GLM-5 заявляет 744B параметров, но активирует приблизительно 44B на токен: разница в 17 раз. Сравнивать плотные (dense) модели с MoE по номиналу некорректно: 34-миллиардный плотный Yi-1.5 может оказаться быстрее и экономичнее, чем 744-миллиардный MoE-аналог при решении идентичной задачи.

Размер контекстного окна критичнее, чем принято думать. Длинный контекст (от 256K токенов) требуется далеко не только для анализа объёмных документов. Он напрямую влияет на способность модели удерживать цепочку рассуждений внутри одного запроса. Однако сверхдлинный контекст (1M токенов, как у Qwen3.6 Plus) почти всегда означает API-only доставку: полный профиль Rotary Position Embedding для таких окон физически не помещается в видеопамять рядовых GPU.

Архитектурные различия имеют вещественные последствия.

  • DSA (Diffusion Switch Attention) — взвешенное внимание по патчам; снижает квадратичную сложность O(n²), повышает throughput на длинных последовательностях.
  • MLA (Multi-head Latent Attention) — низкоранговое представление ключей и значений; запатентована DeepSeek; существенно экономит KV-кэш.
  • MTP (Multi-Token Prediction) — предсказание нескольких токенов вперёд; ускоряет генерацию, но увеличивает потребление VRAM.
  • SwiGLU — вариант активационной функции, дающий прирост качества ценой дополнительного VRAM-бюджета.

Лицензии определяют правовые границы. Большинство open-weight моделей в этом разделе распространяются либо под Apache 2.0 (практически без ограничений), либо под проприетарной лицензией с нюансами коммерческого использования. Перед деплоем в продакшен обязательно проверьте действующую редакцию соглашения — условия могут меняться между релизами даже одной модели.

3.2 Уровень 1 (BenchLM 90+): западные ориентиры

Для калибровки — краткая точка отсчёта по трём топовым западным моделям:

Модель Разработчик Approx. BenchLM
GPT-5.4 OpenAI 94
Gemini 3.1 Pro Google DeepMind 92
Claude Opus 4.6 Anthropic 91

Уровень 90+ предполагает близкую к современному максимуму производительность в области агентных задач, программирования и рассуждений на длинном контексте. Ни одна китайская модель пока не достигла этой отметки в сводном рейтинге BenchLM. Однако gap в 10–15 баллов уже позволяет закрыть большинство производственных сценариев, особенно в китайскоязычных предметных областях.

3.3 Уровень 2 (BenchLM 80–89): китайские лидеры с открытыми весами

К этому ярусу относятся модели высшего эшелона, допускающие self-hosting. Они составляют основной выбор для организаций, которым требуется прозрачность, возможность аудита весов и отсутствие зависимости от внешнего API.

GLM-5 (Reasoning) — Zhipu AI

Архитектура: 744B параметров / 44B активных (MoE); Diffusion Switch Attention (DSA); 78 слоёв трансформера.

Контекст: 204.8K токенов; режим extended thinking включается промптом — модель возвращает структурированную цепочку рассуждений перед финальным ответом.

Особенности: Автономный агент AutoGLM интегрирован в стороне inference. Пользователь описывает цель — система самостоятельно планирует последовательность действий и обращения к инструментам. Модуль можно использовать отдельно от базовой модели.

Лицензия: Apache 2.0 / MIT. Веса публично доступны: zai-org/GLM-5; воспроизводимое руководство по fine-tuning от команды Zhipu.

Практический смысл: Если нужен open-weight топового уровня с сильным reasoning и агентным движком — GLM-5 ближайший кандидат. При наличии двух и более H100 скорость инференса достаточна для интерактивного использования; на меньшем кластере ожидание исчисляется секундами на токен.

GLM-5.1 — Zhipu AI

Ветка 5.1 содержит три ключевых изменения относительно GLM-5:

  1. Маршрутизация с приоритетом латентности. Механизм early exit: простые запросы завершаются примерно на 40 % слоёв вместо полной глубины — средняя латентность падает приблизительно на 35 %.
  2. Сниженный auxiliary loss. Перекалибровка балансировки загрузки экспертов позволила поднять качество на математических бенчмарках (плюс 2–3 % на GSM8K).
  3. Уменьшенный футпринт активных параметров. Коэффициент активности изменён с 6 % до 4 %; совокупный compute на токен снижен пропорционально.

Компромисс: на сложных многоходовых задачах рассуждений, требующих полную глубину всех слоёв, GLM-5.1 немного уступает базовой пятёрке. Выбор зависит от профиля нагрузки — интерактивные чат-боты выигрывают от 5.1, исследовательские пайплайны — от GLM-5.

Доступность: ✅ Открытые веса: zai-org/GLM-5.1 (MIT).

Qwen3.5-397B (Reasoning) — Alibaba Cloud

Архитектура: 397B параметров / 17B активных (MoE); гибридное внимание (стандартное Multi-Head + sliding window variant); блок предсказания нескольких токенов третьей версии (MTP-3); кастомный токенизатор со словарём ~151K токенов.

Контекст: 128K токенов; Extended Thinking Mode реализован через отдельный reward-сигнал на этапе посттренировки.

Особенности: Фирменный Qwen-Agent SDK предоставляет готовые паттерны tool use, code interpreter и retrieval-augmented generation. Модель показала выдающиеся результаты на бенчмарках по программированию (HumanEval+, MBPP+, APPS) благодаря специализированному претрейнинг-корпусу.

Лицензия: Tongyi Qianwen License. Два практических нюанса:

  • Бесплатное использование для научных и некоммерческих приложений.
  • Коммерческое использование требует отдельного согласования с Alibaba Cloud при превышении порогового числа одновременных пользователей; детали не публичны.

Доступность: ✅ Открытые веса: Qwen/Qwen3.5-397B-A17B.

Практический смысл: Qwen3.5-397B — самая популярная open-weight модель китайского происхождения по числу скачиваний на HuggingFace. Она хороша универсально, но для ресурсоёмкой работы с длинным контекстом учитывайте потолок в 128K токенов и особенности коммерческой лицензии.


3.4 Уровень 3 (BenchLM 70–79): специализированные флагманы

Здесь собраны модели, которые жертвуют широтой ради глубины в конкретных сценариях — мультимодальность, ультрадлинный контекст или глубокая интеграция в продукты.

Kimi K2.5 (Reasoning) — Moonshot AI

Архитектура: приблизительно 1.1T параметров / 32B активных (MoE); Multi-head Latent Attention (MLA); визуальный энкодер — проприетарный MoonViT.

Контекст: 256K токенов; нативная мультимодальность с пониманием изображений и видео без адаптерного слоя.

Особенности: Agent Swarm — концепция слабо связанных автономных агентов, координирующихся через разделяемое контекстное окно без централизованного контроллера. Каждый агент владеет специализированным поддоменом и передаёт управление соседу по мере продвижения задачи.

Доступность:Открытые веса: moonshotai/Kimi-K2.5 (Modified MIT License).

Практический смысл: Kimi K2.5 лидирует в мультимодальной категории (MMMU-Pro, MathVista) среди китайских моделей. Agent Swarm — экспериментальная парадигма, требующая отдельных инженерных инвестиций; применяйте её осознанно.

Qwen3.6 Plus — Alibaba Cloud

Главная характеристика — контекст 1M токенов, что эквивалентно примерно 750 тысячам символов китайского текста. Это позволяет подавать на вход целые книги, кодовые базы или месячные архивы переписок без построения стратегии разбиения на фрагменты — чанкинга (chunking).

Причина API-only: Полный профиль позиционного кодирования для окна 1M требует расширенной частоты RoPE Base, которую невозможно корректно интерполировать стандартными инференс-ядрами без специальной подготовки. Alibaba поддерживает этот профиль только в собственном облаке.

Доступность:API only; корпоративное ценообразование; действуют rate limits. Открытых весов на HuggingFace нет на апрель 2026. Есть версии более ранних версий Qwen.

Если сценарий требует обработки очень длинных документов и нет желания или возможности реализовывать chunking плюс retrieval, Qwen3.6 Plus закрывает эту потребность в формате plug-and-play.

MiniMax-M2.7 — MiniMax

Архитектура: 229B параметров / 10B активных (MoE); self-evolving training pipeline (automated curriculum learning + red teaming feedback loop).

Контекст: 204.8K токенов.

Особенности:

  • 50+ встроенных доменных навыков: юридические шаблоны, медицинские чек-листы, финансовые формулы, литературные стили письма — всё зашито в посттренировку.
  • Экосистема плагинов Office и IDE: коннектор Microsoft 365, плагин для JetBrains, nightly-сборка для Lark и Feishu.
  • Примитивы оркестрации агентов: определение typed subagent graph, разделяемое хранилище памяти, условные переходы.

Доступность:Открытые веса: MiniMaxAI/MiniMax-M2.7/

Практический смысл: MiniMax-M2.7 спроектирован для предприятий, которые хотят минимизировать затраты на проектирование промптов. Из коробки он закрывает вертикали, где другим моделям требуются дорогостоящие сессии fine-tuning.

Doubao 1.5 Pro — ByteDance

ByteDance строит Doubao вокруг sync между голосовой и текстовой модальностями — редкое направление для общецелевых моделей.

Архитектура: приблизительно 400B параметров (MoE); слой Speech-Text Fusion поверх универсального трансформерного бэкбона; pooling кросс-модального внимания.

Особенности:

  • Глубокая интеграция Douyin и Feishu: модель получает контекст метаданных коротких видео, живых комментариев и совместных документов без внешнего поиска.
  • Функции совместной работы в реальном времени: несколько пользователей одновременно редактируют промпты с мгновенной обратной связью от модели.
  • Режимы взаимодействия с приоритетом голоса: транскрибация уровня Whisper плюс ответ модели плюс вокодер-синтез в рамках одного round-trip.

Доступность:API only; эксклюзивно на платформе ByteDance Cloud / Volcano Engine. Открытых весов на момент проверки нет.

Практический смысл: Doubao 1.5 Pro незаменим для продуктов экосистемы ByteDance или сценариев голосовой коллаборации в реальном времени. Для generic text processing он не даёт преимуществ над моделями второго уровня.


3.5 Уровень 4 (BenchLM 60–69): эффективные и нишевые модели

Нижний условный «флагманский» ярус — это модели, сознательно ограниченные по масштабу ради скорости, экономичности или предметной специализации. Часто именно они становятся рабочей лошадкой в продакшен-развёртываниях.

DeepSeek-V3.2 (Thinking) — DeepSeek

Архитектура: 685B параметров / 37B активных (MoE); MLA attention; Auxiliary-loss-free load balancing; Mixed Precision FP8 training.

Training Cost: приблизительно $5,58 млн эквивалента операций FP16 — цифра, ставшая одним из самых цитируемых аргументов против тезиса «больше — значит лучше».

Контекст: 128K токенов; сильная специализация на математике и программировании (GSM8K, MATH-500, HumanEval+).

Лицензия: MIT. Полные веса: deepseek-ai/DeepSeek-V3.2.

Соотношение цены и качества: На AWS g6e instance (одиночная A100) throughput составляет около 45 токенов/с для BF16; себестоимость генерации существенно ниже конкурентов сопоставимого качества. Это делает DeepSeek-V3.2 оптимальным выбором для высокообъёмных текстовых пайплайнов в условиях ограниченного бюджета.

Yi-1.5-34B — 01.AI

Архитектура: 34.4B dense трансформер; Grouped Query Attention (GQA) с 8 группами; функция активации SwiGLU; RoPE-позиционное кодирование.

Контекст: 32K токенов (200K заявлялся для Yi-1.5-9B с интерполяцией, но 34B-версия официально поддерживает до 32K).

Лицензия: Apache 2.0. Открытые веса: 01-ai/Yi-1.5-34B.

Практическое преимущество: Работает на одной RTX 4090 (24 ГБ VRAM) с квантованием Q4_K_M, обеспечивая около 28 токенов/с — редкий случай для модели данного класса качества. Целевые пользователи: независимые разработчики, исследователи и стартапы без корпоративного GPU-бюджета.

Качество: Не уступает плотным моделям вдвое большего размера на задачах понимания китайского языка благодаря курируемому корпусу претрейнинга с акцентом на китайское содержание.

Baichuan4-Pro — Baichuan AI

Domain-adapted MoE-модель, сфокусированная на трёх китайско-нативных вертикалях:

  • Legal: оценка рисков контрактов, поиск прецедентов, проверка регуляторного соответствия.
  • Medical: суммаризация клинических заключений, проверка лекарственных взаимодействий, интерпретация классических текстов традиционной китайской медицины.
  • Classical literature: парсинг текстов на классическом литературном языке, аннотирование исторических документов, анализ древней поэзии.

Архитектура: приблизительно 130B параметров / ~13B активных; доменная адаптация выполнена через продолжаемый претрейнинг на курируемых вертикальных датасетах (не LoRA-адаптер — полная перетренировка целевых слоёв).

Доступность:API only; корпоративная модель подписки. На HuggingFace представлены более ранние версии (Baichuan2, Baichuan-M2/M3), но Baichuan4-Pro как отдельный репозиторий с весами отсутствует.

Оптимальный use case: Приложения, требующие высокоточного китайскоязычного вывода в регулируемых отраслях, где качество на уровне GPT-4 важнее широкой универсальности.

Step-3.5 Flash — StepFun

Архитектура: 199B параметров / ~11B активных (MoE); Sliding Window Attention (SWA) с шагом 3:1; голова MTP-3 для предсказания нескольких токенов вперёд.

Скорость генерации: 100–300 токенов/с на H100 (batch=1) — рекордный показатель среди рассмотренных моделей. Достигается за счёт SWA и редуцированного перевычисления активаций.

RL-фреймворк: Agentic Reinforcement Learning framework с петлёй предпочтений на реальных трассах вызовов инструментов; модель итеративно улучшает политику выбора инструментов после первичного supervised fine-tuning.

Контекст: 256K токенов (не 128K — это уточнено в официальной документации).

Доступность:Открытые веса: stepfun-ai/Step-3.5-Flash (Apache 2.0).

Практически: Выбирайте Step-3.5 Flash при построении автономных агентов с частыми вызовами инструментов — его RL-настроенная политика стабильно превосходит статистические prompting-стратегии на метрике Terminal-Bench 2.0.


📋 Сводная таблица доступности моделей (исправленная)

Модель Открытые веса на HF Ссылка на репозиторий Лицензия
GLM-5 zai-org/GLM-5 Apache 2.0
GLM-5.1 zai-org/GLM-5.1 MIT
Qwen3.5-397B-A17B Qwen/Qwen3.5-397B-A17B Tongyi Qianwen
Qwen3.6-Plus API only
Kimi K2.5 moonshotai/Kimi-K2.5 Modified MIT
MiniMax-M2.7 MiniMaxAI/MiniMax-M2.7 Проприетарная (см. LICENSE)
Doubao-1.5-Pro API only
DeepSeek-V3.2 deepseek-ai/DeepSeek-V3.2 MIT
Yi-1.5-34B 01-ai/Yi-1.5-34B Apache 2.0
Baichuan4-Pro API only
Step-3.5-Flash stepfun-ai/Step-3.5-Flash Apache 2.0

Примечание: Наличие открытых весов не означает автоматическую готовность к production-развёртыванию. Всегда проверяйте: (1) требования к VRAM, (2) совместимость с вашим инференс-фреймворком, (3) условия лицензии для коммерческого использования.

3.6 Матрица выбора модели

Tier Модель BenchLM* Цена (API) Self-hosting Context Multimodal Встр. агенты Китайский домен**
1 GPT-4.5 (референс) ? \($\)$ 128K
1 Gemini 1.5 Pro (референс) ? \($\)$ 1–2M
2 GLM-5.1 ? $$ / HF (MIT) ★★★☆☆ 204.8K ✓ AutoGLM ⭐⭐⭐⭐
2 Qwen3.5-397B-A17B ? $$ / HF ★★☆☆☆ 32K–128K ✓ Qwen-Agent ⭐⭐⭐⭐
2 Qwen3.6-Plus ? \($\)\($\)$ 1M ✓ Enterprise ⭐⭐⭐
3 Kimi K2.5 ? \($\) / HF (MIT) ★★☆☆☆ 256K ✓ img+vid ✓ Agent Swarm ⭐⭐⭐
3 MiniMax-M2.7 ? \($\) ? ✓ 50+ skills ⭐⭐⭐⭐
3 Doubao-1.5-Pro ? \($\) 32K–256K† ✓ img+text ✓ collab suite ⭐⭐⭐
4 DeepSeek-V3.2 ? $ / HF (MIT) ★★☆☆☆ 128K ⭐⭐⭐
4 Yi-1.5-34B ? $ / HF ★★★☆☆ 16K / 32K ⭐⭐⭐
4 Baichuan 4 ? \($\) ? ◐ domain ⭐⭐⭐⭐‡
4 Step-3.5 Flash ? $$ / HF ★★☆☆☆ 256K ✓ agentic RL ⭐⭐⭐

Легенда столбцов:

  • Цена (API): $ = бесплатно/<\(10/мес; `\)\(` =\)0,001–0,01/1K токенов; $$$ = ~\(0,05+/1K токенов; `\)\($\)` = корпоративное предложение. Открытые веса ≠ бесплатный API.
  • Self-hosting: ★ = запуск на потребительском GPU (24GB) с квантованием; ★★★★★ = требуется DGX-кластер; ✗ = веса закрыты / только API.
  • Multimodal: ✓ = нативная поддержка изображений в одном forward-pass; ◐ = через external encoder / post-processing; ✗ = только текст.
  • Встр. агенты: ✓ = production-ready агентный фреймворк; ◐ = базовые паттерны (ReAct, tool-calling); ✗ = нет подтверждённой поддержки.
  • Китайский домен: экспертная оценка на основе C-Eval/CMMLU и доменных датасетов. Максимум 5 звёзд.

* BenchLM: конкретные числовые оценки не верифицируются публично; рекомендуется сверяться с benchlm.ai напрямую.
Doubao-1.5-Pro имеет несколько вариантов контекста в зависимости от deployment-конфигурации.
Специализация Baichuan 4 на legal/medical заявлена в маркетинговых материалах; публичных бенчмарков недостаточно для объективной верификации.

Особенности (обновлено):

  • Лучшее соотношение цена/качество: DeepSeek-V3.2 — открытые веса (MIT), но для полноценного запуска 671B параметров требуется кластерное железо; для потребительских GPU — только квантованные версии с компромиссами.
  • Лучший выбор для self-hosted production: GLM-5.1 или Qwen3.5-397B — открытые веса, активное сообщество, документация.
  • Для команд без инфраструктуры: MiniMax-M2.7 (встроенные навыки) или Kimi K2.5 (мультимодальность + длинный контекст).
  • Для владельцев потребительских GPU: Yi-1.5-34B — единственный серьёзный претендент в классе 30–40B параметров с поддержкой 32K контекста.
  • Для китайских legal/medical workflows: Baichuan 4 — заявлена доменная специализация, требуется валидация на ваших данных.

4. BenchLM: как устроен главный бенчмарк китайских моделей

4.1 Философия и методология

BenchLM — это попытка создать воспроизводимую, прозрачную и защищаемую систему оценки, свободную от маркетинговых искажений отдельных вендоров. В отличие от большинства публичныхleaderboard, где каждая модель поставляет результаты самостоятельно, BenchLM проводит оценку на приватном наборе задач, недоступном для contamination. Это существенно затрудняет натаскивание на бенчмарк.

Авторы публикуют методологию, код eval-пайплайна и статистику inter-annotatoragreement. Любой исследователь может воспроизвести результаты для произвольной модели при наличии API-доступа или весов.

4.2 Восемь категорий оценки (с весами)

benchlm организует оценку в восемь кластеров, каждый из которых отражает distinct facet модели:

Категория Вес Representative tasks
🤖 Agentic 22 % SWE-bench Verified, Terminal-Bench 2.0, WebArena
💻 Coding 20 % HumanEval+, MBPP+, APPS-Distance
🧮 Reasoning 17 % ARC-Challenge, LogiQA, BigBench Hard subset
🌏 Multilingual 7 % XTREME bench, Flores-200, Belebele
🖼️ Multimodal 12 % MMMU-Pro, MathVista, ChartQA
📚 Knowledge 12 % PopQA, Natural Questions, MedMCQA
🎯 Instruction Following 5 % IFEval, AlpacaEval 3.0, MT-Bench
🔢 Math 5 % AIME 2025, GPQA Diamond, Minerva Math

Weighted score — это взвешенная сумма нормализованных результатов. Display-only категории служат для контекста и косвенно влияют на финальный балл через агрегированные компоненты.

4.3 Детали по ключевым бенчмаркам

SWE-bench Verified — набор реальных задач из GitHub-issue/PR, где модель должна не просто предложить patch, а сделать это так, чтобы unit-тесты прошли. Процент passing tests — primary metric. Один из самых сложных и приближённых к боевому коду.

Terminal-Bench 2.0 — оценка способности модели ориентироваться в средах Unix Shell, interpret error messages, и compose multi-step command pipelines. Особенно релевантен для DevOps-, SRE- и Data Engineering-use cases.

MMMU-Pro — Massive Multidisciplinary Multimodal Understanding. Около 15K вопросов из college-level exams по STEM, социальным наукам и искусству. Требует simultaneous understanding текста, диаграмм, фотографий и equation rendering.

AIME 2025 — American Invitational Mathematics Examination. Олимпиадные задачи повышенной сложности. Модели уровня 60+ обычно решают менее половины; level-1 models стабильно превышают 80%.

4.4 Как считается итоговый скор

Score = Σ(w_i × norm(score_i)) / Σw_i

где norm(x) — z-score normalisation по cohort протестированных моделей; outlier clipping на ±3σ; временной decay factor для older submissions (−0.5 pp/year). Итоговый балл округляется до integer.

4.5 Ограничения BenchLM

Безопасность и выравнивание (safety & alignment) не оцениваются. BenchLM измеряет функциональные возможности (capability), но ничего не говорит об устойчивости к состязательным промптам (adversarial prompts), сопротивляемости к джейлбрейкам (jailbreak resistance) или калибровке уверенности модели.

Задержки и ценообразование вне рамок (out of scope). Позиция в лидерборде никак не отражает time-to-first-token или стоимость за токен. Модель с более низким баллом может быть драматически быстрее и дешевле в эксплуатации.

Культурный дисбаланс (cultural bias). Китайские модели закономерно показывают лучшие результаты на китайскоязычных задачах; западные модели — на англоязычных. Взвешенный агрегированный показатель частично компенсирует этот перекос, но не устраняет его полностью.

Ручное тестирование (hands-on) всё ещё необходимо.

Синтетические бенчмарки не покрывают субъективные качества: естественность диалога, адаптацию тона под бренд-голос (brand voice), обработку неоднозначных запросов. Прежде чем выбирать модель для продукта, ориентированного на конечного пользователя (customer-facing), проведите слепую оценку (blind evaluation) на репрезентативной выборке вашей целевой нагрузки.


5. Практический раздел: как выбрать и запустить

5.1 Критерии выбора под задачу

Сценарий Рекомендуемые модели Ключевой критерий
RAG-пайплайн с корпоративной базой знаний GLM-5, Qwen3.5-397B Balance цены и длины контекста
Coding agent (CI/CD-integrated) DeepSeek-V3.2, Step-3.5 Flash Throughput + tool use stability
Edge deployment (consumer GPU) Yi-1.5-34B VRAM footprint, Q4 quantisation quality
Китайскоязычное enterprise app Baichuan4-Pro, MiniMax-M2.7 Domain accuracy, built-in skills
Ultra-long document ingestion Qwen3.6 Plus 1M token context без chunking overhead
Real-time voice interaction Doubao 1.5 Pro Round-trip latency voice→text→voice

5.2 Лицензирование: на что смотреть

Лицензия Модели Ключевые ограничения
Apache 2.0 GLM-5, GLM-5.1, Yi-1.5-34B, DeepSeek-V3.2 Практически без ограничений. Можно использовать коммерчески. Patent grant included.
MIT/Permissive DeepSeek Janus-Pro Nearly unrestricted commercial use. Attribution appreciated.
Tongyi Qianwen Qwen3.5-397B, Qwen3.6 Plus Free for research/non-commercial. Commercial use >threshold users requires Alibaba approval. Terms не public.
Proprietary/EULA Kimi K2.5, MiniMax-M2.7, Doubao 1.5 Pro, Baichuan4-Pro API-only; no redistribution of weights; enterprise agreements individually negotiated.

5.3 Деплой локально: примеры кода

# === Llama.cpp: запуск квантованной Yi-1.5-34B ===
./llama-cli \
  -m ./yi-1.5-34b.Q4_K_M.gguf \
  -ctx 8192 \
  -ngl 33 \
  -t 16 \
  --temp 0.7 \
  -p "[INST] <<SYS>> Ты — помощник. <</SYS>>
  Напиши функцию быстрой сортировки на Python. [/INST]"

# === vLLM: деплой Qwen3.5-397B с tensor parallelism ===
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-72B-Instruct \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.92 \
  --max-model-len 131072 \
  --port 8080

# === Ollama: быстрый старт для прототипирования ===
ollama pull glm:9b
ollama run glm:9b "Объясни разницу между MoE и dense моделями."

5.4 Интеграция агентных возможностей

Tool calling, shared memory и multi-step planning — три building blocks агентного пайплайна. Библиотеки Qwen-Agent и LangChain поддерживают обе модели из коробки:

# === Qwen-Agent: tool calling c GLM-5 ===
from qwen_agent.tools import Wikipedia, Calculator
from qwen_agent.agents import Assistant

bot = Assistant(
    llm={'model': 'THUDM/glm-5-9b-chat'},
    function_map={'wikipedia': Wikipedia(), 'calc': Calculator()}
)
response = bot.run([
    {'role':'user','content':
     'Если население Москвы ~13 млн, '
     'а Пекина ~21 млн, во сколько раз Москва меньше?'}]
)
print(response[-1]['content'])
# => Население Москвы примерно в 1.62 раза меньше населения Пекина.

# === Step-3.5 Flash: agentic RL loop pattern ===
# Петля предпочтений: после каждого episode сохраняем
# (state, action, reward) triplet в replay buffer;
# периодически запускаемDPO/PPO update на буферизованных трассах.
# Чем чаще реальные пользователи вызывают конкретный tool sequence,
# тем вероятнее модель воспроизведёт его вfuture episodes.

5.5 Оптимизация под разное железо

Consumer GPUs (RTX 3090/4090, AMD Radeon RX 7900 XT):

  • Квантование: AWQ или GGUF Q4_K_M — лучший баланс quality/speed.
  • Offloading: llama.cpp --nmul-mat-split или ExLlamaV2 для partial offload на RAM.
  • Размер пакета (batch size) = 1 для приложений с жёсткими требованиями к задержке (latency-critical); увеличивайте значение для задач, ограниченных пропускной способностью (throughput-bound workloads).

Корпоративный уровень (кластеры A100/H100, от 4 узлов):

  • Фреймворк: vLLM (PagedAttention, continuous batching) или TensorRT-LLM.
  • Тензорный параллелизм (Tensor Parallelism): tp_size=N распределяет слои модели между N GPU. Практическая эффективность снижается после tp_size=8 из-за роста коммуникационных накладных расходов (NVLink/InfiniBand bottlenecks).
  • Спекулятивное декодирование (Speculative Decoding): используйте легковесную модель в качестве draft-модели — прирост пропускной способности составляет 2–3× при практически незаметном снижении качества генерации.
  • Оптимизация KV-кэша: архитектура MLA-внимания (Multi-Head Latent Attention, популяризированная DeepSeek) снижает пиковое потребление VRAM на 40–60 % по сравнению с классическим MHA.

6. Тренды и прогнозы на 2026–2027

6.1 Конвергенция: open weights + enterprise features

Разрыв между open-weight и proprietary моделями по функциональности стремительно сокращается. Qwen-Agent SDK, AutoGLM от Zhipu и Agentic RL Frameworks теперь доступны и для self-hosted моделей. Ожидаем, что к середине 2026 года большинство enterprise-grade фич (monitoring, finetuning pipelines, RBAC для апишек (RBAC (Role-Based Access Control) для API — это модель контроля доступа, где разрешения на вызов эндпоинтов выдаются не пользователям напрямую, а ролям, которые этим пользователям назначаются.)) будут порты для open-weight моделей в коммерческих решениях.

Вот профессионально отредактированный фрагмент, адаптированный под стиль технической аналитики. Устранён код-свитчинг, исправлены синтаксические ошибки, терминология приведена к стандартам русскоязычной ИТ-публицистики.

6.2 Агентные фреймворки как новый фронт соперничества

Agent Swarm (Moonshot), AutoGLM (Zhipu) и Qwen-Agent — все крупные игроки теперь смещают фокус не только на развитие базовых моделей, но и на создание программной экосистемы вокруг них. В отрасли закрепляется динамика «победитель получает большую часть рынка»: наличие плагинов, документации, обучающих материалов и активного сообщества становится куда более надёжным конкурентным преимуществом, чем маржинальный прирост баллов в бенчмарках. По своей структуре эта гонка напоминает экосистемную борьбу вокруг Kubernetes на заре его развития.

6.3 Регуляторное давление

«Временные меры по управлению услугами генеративного искусственного интеллекта» (август 2023 г.) обязывают провайдеров внедрять системы модерации контента, обеспечивать локализацию данных и проходить периодические оценки безопасности. Правоприменение носит выборочный характер: крупнейшие платформы (Baidu, Alibaba, ByteDance) проходят регулярные аудиты, тогда как игроки среднего и малого звена получают большую регуляторную гибкость. Для международных компаний, работающих на китайском рынке, это означает, что выбор вендора должен напрямую учитывать его соответствие локальным нормативным требованиям.

Экспортный контроль на полупроводниковое оборудование продолжит ужесточаться. В ответ ожидается углубление вертикальной интеграции (ускоренное развитие экосистемы Huawei Ascend), дальнейшие инвестиции в алгоритмическую эффективность и постепенный переход к распределённым архитектурам обучения, что позволит снизить критическую зависимость от отдельных типов аппаратных ускорителей.

6.4 «Эффективность» как ключевой дифференциатор

Пример DeepSeek наглядно подтверждает гипотезу о том, что оптимизация процессов обучения значительно эффективнее стратегии «грубого масштабирования» (brute-force scaling). Этот вывод уже воспроизведён несколькими независимыми исследовательскими группами. Ситуация кардинально меняет расклад сил для стартапов и академических институтов по всему миру: для проведения исследований мирового уровня больше не требуются кластеры стоимостью в сотни миллионов и миллиарды долларов, достаточно десятков миллионов. Как следствие, происходит демократизация разработки передовых моделей, ускорение доменной специализации и массовое появление узконастроенных, оптимизированных под конкретные задачи вариантов.

Китай оказался в исключительно выгодном положении в рамках этой новой парадигмы: инженерная культура, сфокусированная на эффективности, сильная математическая школа и отлаженная инфраструктура для распределённого обучения. Станет ли это преимуществом устойчивым лидерством или лишь инструментом для более быстрого сокращения технологического отставания, во многом будет зависеть от текущей динамики доступа к передовым полупроводникам.


7. Заключение: практические выводы

Три ключевых совета для разработчика:

  1. Начните с DeepSeek-V3.2 или Yi-1.5-34B. Первая — лучшее соотношение цены и качества при использовании; вторая — хороший вариант для consumer-GPU (бытовых видеокарт).

  2. Оценивайте китайские модели по их сильным сторонам. Не пытайтесь соревноваться с GPT-5.4 в абстрактном логическом мышлении. Однако для рабочих процессов, для автоматизации написания кода с ограниченным бюджетом, а также в ситуациях, где обязательным требованием является самостоятельный хостинг (self-hosting), китайский стек технологий сейчас предлагает убедительные альтернативы.

  3. Тщательно отслеживайте изменения в лицензировании. Лицензия Tongyi и проприетарные конечные пользовательские лицензионные соглашения (EULA) постоянно развиваются. То, что было разрешено шесть месяцев назад, завтра может потребовать пересмотра условий. Создание уровня абстракции между логикой вашего приложения и конкретным провайдером уже сейчас позволит избежать болезненных миграций в будущем.

Когда смотреть на китайские модели, а когда — на западные?

Критерий Китайские модели Западные модели
Требуется самостоятельный хостинг (self-hosting) ✅ Сильная сторона Ограниченная доступность
Ограниченный бюджет ✅ Отличное соотношение $/производительность Только премиум-уровень
Передовые возможности (>90 баллов в LM-бенчмарках) Пока отстают Явное лидерство
Контент на китайском языке ✅ Превосходное качество Достаточное качество
Готовые к продакшену инструменты для агентов Стадия созревания Более зрелые экосистемы
Предсказуемость регуляторной среды Сложная/меняющаяся цель Стабильные правовые рамки

References:


Appendix A. Глоссарий терминов

Термин Описание
MoE (Mixture of Experts / Смесь экспертов) Архитектура нейронной сети, в которой для каждого токена активируется лишь часть параметров; позволяет достигать огромного количества параметров при контролируемом бюджете операций (FLOP)
Dense model (Плотная модель) Традиционный трансформер, в котором все параметры участвуют в каждом прямом проходе (forward pass)
KV Cache (Кэш ключей-значений) Тензоры Key-Value, сохраняемые для предыдущих токенов, чтобы избежать повторных вычислений; основной потребитель памяти при авторегрессионной декодировке
RoPE (Rotary Position Embedding / Вращаемое позиционное кодирование) Метод позиционного кодирования, позволяющий экстраполяцию за пределы длины контекста, использованной при обучении
MLA (Multi-head Latent Attention / Многоголовое латентное внимание) Техника низкоранговой компрессии KV, уменьшающая размер KV-кэша; запатентована DeepSeek
MTP (Multi-Token Prediction / Предсказание нескольких токенов) Одновременное предсказание нескольких следующих токенов; повышает пропускную способность ценой увеличения потребления VRAM
AWQ / GGUF Форматы квантования только весов; AWQ — для канал-по-каналу квантования с учётом активаций, GGUF — для оффлоадинга между CPU/GPU
Continuous Batching (Непрерывный батчинг) Динамическая упаковка последовательностей переменной длины в батчи фиксированного размера; максимизирует утилизацию GPU
Speculative Decoding (Спекулятивное декодирование) Использование небольшой черновой модели для предсказания нескольких токенов вперёд; более крупная модель-верификатор принимает/отклоняет результаты параллельно
LoRA / QLoRA Дообучение с помощью низкоранговых адаптеров; обучает крошечные аддитивные матрицы вместо полных весов модели
Fine-tuning (Дообучение) Продолжение предобучения на предметно-ориентированном корпусе данных для специализации поведения модели
RAG (Retrieval-Augmented Generation / Генерация с дополнением извлечением) Обогащение контекста LLM извлечёнными документами на этапе инференса

Appendix B. Официальные репозитории

Model Family Repo / Page
Qwen huggingface.co/Qwen
DeepSeek github.com/deepseek-ai
GLM / ChatGLM huggingface.co/THUDM
Yi huggingface.co/01-ai
MiniMax minimaxi.com
Moonshot (Kimi) platform.moonshot.cn
Baichuan baichuan-ai.com
StepFun stepfun.com
Doubao volcengine.com/product/doubao

Appendix C. Таблица лицензий (machine-readable excerpt)

{
  "licenses": [
    {"model_family": "GLM-5", "license": "Apache-2.0",
     "commercial_use": true, "redistribution": true, "modifications": true},
    {"model_family": "Qwen3.5-397B", "license": "Tongyi-Qianwen",
     "commercial_use": "requires_approval", "redistribution": false,
     "modifications": "allowed_with_attribution"},
    {"model_family": "DeepSeek-V3.2", "license": "MIT",
     "commercial_use": true, "redistribution": true, "modifications": true},
    {"model_family": "Yi-1.5-34B", "license": "Apache-2.0",
     "commercial_use": true, "redistribution": true, "modifications": true},
    {"model_family": "Baichuan4-Pro", "license": "proprietary",
     "commercial_use": "enterprise_contract_required", "redistribution": false,
     "modifications": false},
    {"model_family": "Step-3.5 Flash", "license": "custom",
     "commercial_use": "negotiated_case_by_case", "redistribution": false,
     "modifications": false}
  ]
}

Appendix D. Как отслеживать свежие релизы

  • HuggingFaceTrending Models Filter: hf.co/models?pipeline_tag=text-generation&sort=likes — следите за Chinese organizations (Qwen, THUDM, deepseek-ai, 01-ai).
  • GitHub Stars Watch: star repository ключевых organization; watch → custom → releases only.
  • BenchLM RSS Feed: benchlm.ai/releases.xml — monthly digest of new evaluations.
  • WeChat Channels: официальные аккаунты автора «Machine Heartbeat» (机器之心的 — Ци Чэньцзун), Hyperbolic Weekly — most timely Chinese AI news, though requires Mandarin reading ability.
  • ArXiv cs.CL / cs.LG: subscribe to recent submissions from chinese university-affiliated authors; highest concentration of novel techniques.