Мы с профессором в НИИ исповедуем ИИ

Блог практикующих ML и DS инженеров с уклоном в NLP. От простого до сложного.

Введение в квантование LLM. Уменьшение размера больших языковых моделей с помощью 8-битного квантования

Крупные языковые модели (Large Language Models, LLMs) известны своими значительными вычислительными требованиями. Обычно размер модели рассчитывается путём умножения количества параметров (разм...

Формат GGUF: структура, использование и виды квантования

Стандартные методы сохранения моделей часто не справляются с требованиями квантизированных моделей, такими как хранение низкоразрядных весов вместе с соответствующими масштабными коэффициентами и нулевыми точками. Формат GGUF (Georgi Gerga...

llama.cpp и GGUF - как использовать llama.cpp для локального запуска моделей LLaMA

Открытые большие языковые модели (LLM), такие как LLaMA от Meta, произвели революцию в области обработки естественного языка. Не все хотят зависеть от облачных API для их запуска. Здесь на помощь приходит llama.cpp...

4-битное квантование с использованием GPTQ - Generalized Post-Training Quantization

https://arxiv.org/abs/2210.17323 - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

https://huggingface.co/docs/transformers/main/en/quantization/gptq

Недавние достижения в обл...

AWQ (Activation-Aware Weight Quantization) и его отличия от GPTQ квантования LLM

Основные принципы работы

GPTQ (Gradient-based Post-Training Quantization) представляет собой метод пошаговой оптимизации слоев для минимизации ошибки квантования, использующий информацию о градиентах и гессиане для...

Как устроен кодинг ИИ агент на примере Claude Code

Системный промпт и описания инструментов (tools) ИИ агента приведены в конце статьи.

SWE-bench - Могут ли языковые модели решить реальные проблемы GitHub?

Перевод на основе https://arxiv.org/abs/2310.06770 от 11 ноября 2024.

Развитие языковых моделей опережает нашу способность эффективно их оценивать, но для их дальнейшего прогресса крайне важно изучать границы их возможностей...

Анализ API v1/responses в OpenAI и VLLM - как генрировать ответы, вызывать функции, работать с Responses API

Responses API представляет собой новое поколение stateful-интерфейса от OpenAI, объединяющее лучшие возможности Chat Completions и Assistants API в единую унифицированную систему. Этот API...

Что такое Model Context Protocol (MCP) и зачем он нужен?

MCP (Model Context Protocol) — это открытый стандарт и протокол для подключения ИИ-приложений к внешним системам. С помощью MCP ИИ-приложения, такие как Claude или ChatGPT, могут подключаться к источникам данных (например, локальным файлам,...

Нейронные сети для редактирования изображений: удаление объектов и замена фона

Открытые модели и решения

FLUX.1 Kontext — текущий лидер

FLUX.1 Kontext представляет собой передовую модель редактирования изображений на основе инструкций. Эта модель демонстрирует высочайшую точность при редактиро...

Какие модели поддерживает для запуска VLLM

Перевод на основе страницы документации https://docs.vllm.ai/en/latest/models/supported_models.html#writing-custom-models_1 на 1.09.25.

Страницы документации VLLM могут быть не доступны с Российский IP адресов.

Github проекта VLLM с информацией htt...

Qwen2.5-Coder - обзор стратегии обучения

Архитектура Qwen2.5-Coder основана на архитектуре Qwen2.5. В таблице 1 представлены гиперпараметры архитектуры модели Qwen2.5-Coder для шести различных размеров: 0.5B, 1.5B, 3B, 7B, 14B и 32B параметров.

Хотя все модели имеют одинаковый размер голов (head...

Что такое Langgrapg и как им пользоваться. Видеоурок на 50 минут

Записал видеоурок про LangGraph - введение в графы рассуждений для ИИ-агентов

В мире искусственного интеллекта и генеративных моделей (LLM) всё чаще встаёт вопрос: как сделать ИИ не просто ответчиком на запросы, а умным агентом,...

Что такое VLM - visual language models (Модели языка и зрения)

Модели языка и зрения (VLM) — это мультимодальные генеративные модели искусственного интеллекта, способные понимать и обрабатывать видео, изображения и текст.

Модели языка и зрения — это мультимодальные системы искусственного интелле...

Пример работы с VLM qwen2.5-vl-72b-instruct через сервис OpenRouter

Посмотрим как LLM может анализировать изображения, распознавать текст со сканов даже плохого качества.

В современном мире обработка изображений с помощью искусственного интеллекта становится всё более востребованной — от автомат...

На пути к большим моделям рассуждений: обзор Reinforced Reasoning with Large Language Models

На основе https://arxiv.org/html/2501.09686v3 Перевод обзора от 01.2025 (до выхода DeepSeek)

Язык давно рассматривается как важный инструмент для человеческого мышления. Прорыв в области больших языков...

Reinforcement Learning в обучении LLM - PPO, DPO, GRPO - что это?

RL - или обучение с подкреплением способ обучать различные модели, в нашем случае мы говорим об LLM. Для LLM это в первую очередь способ отвязаться от ручной подготовки и верификации инструктивных датасетов и перейти в океан синтети...

Зачем от LayerNorm перешли к RMSNorm

На основе https://arxiv.org/abs/1910.07467

Как эффективно обучать глубокие нейронные сети — это давняя задача. Для ускорения сходимости модели Ба и др. предложили нормализацию слоя (LayerNorm), которая стабилизирует обучение глубоких нейронных сетей, регулир...

DeepSeek-R1: стимулирование способности к рассуждению у LLM с помощью обучения с подкреплением

На основе https://arxiv.org/abs/2501.12948

25 января 2025 года

Исследователи представили свои модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, модель, обученная с использо...

DeepSeek-V3 Technical Report

Общий обзор

На основе https://arxiv.org/html/2412.19437v2

Компания DeepSeek-AI в феврале 2025 опубликовала веса и представила технический отчет о своей LLM DeepSeek-V3. DeepSeek-V3 это мощная язковая модель на основе архитектуры смеси экспертов (Mixture-of-Experts...

Основы Mixture-of-Experts (MoE)

Модели Mixture of Experts (MoE) — это класс трансформерных моделей. В отличие от традиционных плотных моделей, MoE использует "разреженный" подход, при котором для каждого входа (токена) используется только подмножество компонентов модели ("экспертов"). Это позволяе...

Разбираемся с Rotary Positional Encoding - вращательным позиционным кодированием

Rotary Positional Embeddings — это современная техника позиционного кодирования для обработки естественного языка (NLP). Многие популярные большие языковые модели, такие как Llama, Llama2, PaLM и CodeGen, уже использ...

BLEU, ROUGE, BERT-score - блеу, руж, берт-скор - метрики качества перевода и перефразировок в NLP

Как померить близость текстов? Такое часто встречается если у вас задача сравнить эталонный перевод с полученным, перефразировку или суммаризацию, сделанную LLM или другим алгоритмом с эталонной.

Во...

Stanford Alpaca и Self-instruct - генерация синтетических текстовых инструкций

Исходный код генерации обучающего датасета и обучения модели Alpaca находится по ссылке https://github.com/tatsu-lab/stanford_alpaca/

Все началось с затравок в количестве 175 штук. Это примеры инструктивных задач, г...

Medprompt - Могут ли универсальные базовые модели превзойти специализированные только за счет промптинга? На примере медицины

Краткий ответ:

  • да могут
  • few-shot на основе векторной близости входящего вопроса и примеров с ответами из базы
  • примеры во few-shot с цепочками рассуждений
  • синт...