Блог практикующих ML и DS инженеров с уклоном в NLP. От простого до сложного.
Введение в квантование LLM. Уменьшение размера больших языковых моделей с помощью 8-битного квантования
Крупные языковые модели (Large Language Models, LLMs) известны своими значительными вычислительными требованиями. Обычно размер модели рассчитывается путём умножения количества параметров (разм...
Формат GGUF: структура, использование и виды квантования
Стандартные методы сохранения моделей часто не справляются с требованиями квантизированных моделей, такими как хранение низкоразрядных весов вместе с соответствующими масштабными коэффициентами и нулевыми точками. Формат GGUF (Georgi Gerga...
llama.cpp и GGUF - как использовать llama.cpp для локального запуска моделей LLaMA
Открытые большие языковые модели (LLM), такие как LLaMA от Meta, произвели революцию в области обработки естественного языка. Не все хотят зависеть от облачных API для их запуска. Здесь на помощь приходит llama.cpp...
4-битное квантование с использованием GPTQ - Generalized Post-Training Quantization
https://arxiv.org/abs/2210.17323 - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
https://huggingface.co/docs/transformers/main/en/quantization/gptq
Недавние достижения в обл...
AWQ (Activation-Aware Weight Quantization) и его отличия от GPTQ квантования LLM
Основные принципы работы
GPTQ (Gradient-based Post-Training Quantization) представляет собой метод пошаговой оптимизации слоев для минимизации ошибки квантования, использующий информацию о градиентах и гессиане для...
Как устроен кодинг ИИ агент на примере Claude Code
Системный промпт и описания инструментов (tools) ИИ агента приведены в конце статьи.
SWE-bench - Могут ли языковые модели решить реальные проблемы GitHub?
Перевод на основе https://arxiv.org/abs/2310.06770 от 11 ноября 2024.
Развитие языковых моделей опережает нашу способность эффективно их оценивать, но для их дальнейшего прогресса крайне важно изучать границы их возможностей...
Анализ API v1/responses в OpenAI и VLLM - как генрировать ответы, вызывать функции, работать с Responses API
Responses API представляет собой новое поколение stateful-интерфейса от OpenAI, объединяющее лучшие возможности Chat Completions и Assistants API в единую унифицированную систему. Этот API...
Что такое Model Context Protocol (MCP) и зачем он нужен?
MCP (Model Context Protocol) — это открытый стандарт и протокол для подключения ИИ-приложений к внешним системам. С помощью MCP ИИ-приложения, такие как Claude или ChatGPT, могут подключаться к источникам данных (например, локальным файлам,...
Нейронные сети для редактирования изображений: удаление объектов и замена фона
Открытые модели и решения
FLUX.1 Kontext — текущий лидер
FLUX.1 Kontext представляет собой передовую модель редактирования изображений на основе инструкций. Эта модель демонстрирует высочайшую точность при редактиро...
Какие модели поддерживает для запуска VLLM
Перевод на основе страницы документации https://docs.vllm.ai/en/latest/models/supported_models.html#writing-custom-models_1 на 1.09.25.
Страницы документации VLLM могут быть не доступны с Российский IP адресов.
Github проекта VLLM с информацией htt...
Qwen2.5-Coder - обзор стратегии обучения
Архитектура Qwen2.5-Coder основана на архитектуре Qwen2.5. В таблице 1 представлены гиперпараметры архитектуры модели Qwen2.5-Coder для шести различных размеров: 0.5B, 1.5B, 3B, 7B, 14B и 32B параметров.
Хотя все модели имеют одинаковый размер голов (head...
Что такое Langgrapg и как им пользоваться. Видеоурок на 50 минут
Записал видеоурок про LangGraph - введение в графы рассуждений для ИИ-агентов
В мире искусственного интеллекта и генеративных моделей (LLM) всё чаще встаёт вопрос: как сделать ИИ не просто ответчиком на запросы, а умным агентом,...
Что такое VLM - visual language models (Модели языка и зрения)
Модели языка и зрения (VLM) — это мультимодальные генеративные модели искусственного интеллекта, способные понимать и обрабатывать видео, изображения и текст.
Модели языка и зрения — это мультимодальные системы искусственного интелле...
Пример работы с VLM qwen2.5-vl-72b-instruct через сервис OpenRouter
Посмотрим как LLM может анализировать изображения, распознавать текст со сканов даже плохого качества.
В современном мире обработка изображений с помощью искусственного интеллекта становится всё более востребованной — от автомат...
На пути к большим моделям рассуждений: обзор Reinforced Reasoning with Large Language Models
На основе https://arxiv.org/html/2501.09686v3 Перевод обзора от 01.2025 (до выхода DeepSeek)
Язык давно рассматривается как важный инструмент для человеческого мышления. Прорыв в области больших языков...
Reinforcement Learning в обучении LLM - PPO, DPO, GRPO - что это?
RL - или обучение с подкреплением способ обучать различные модели, в нашем случае мы говорим об LLM. Для LLM это в первую очередь способ отвязаться от ручной подготовки и верификации инструктивных датасетов и перейти в океан синтети...
Зачем от LayerNorm перешли к RMSNorm
На основе https://arxiv.org/abs/1910.07467
Как эффективно обучать глубокие нейронные сети — это давняя задача. Для ускорения сходимости модели Ба и др. предложили нормализацию слоя (LayerNorm), которая стабилизирует обучение глубоких нейронных сетей, регулир...
DeepSeek-R1: стимулирование способности к рассуждению у LLM с помощью обучения с подкреплением
На основе https://arxiv.org/abs/2501.12948
25 января 2025 года
Исследователи представили свои модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, модель, обученная с использо...
DeepSeek-V3 Technical Report
Общий обзор
На основе https://arxiv.org/html/2412.19437v2
Компания DeepSeek-AI в феврале 2025 опубликовала веса и представила технический отчет о своей LLM DeepSeek-V3. DeepSeek-V3 это мощная язковая модель на основе архитектуры смеси экспертов (Mixture-of-Experts...
Основы Mixture-of-Experts (MoE)
Модели Mixture of Experts (MoE) — это класс трансформерных моделей. В отличие от традиционных плотных моделей, MoE использует "разреженный" подход, при котором для каждого входа (токена) используется только подмножество компонентов модели ("экспертов"). Это позволяе...
Разбираемся с Rotary Positional Encoding - вращательным позиционным кодированием
Rotary Positional Embeddings — это современная техника позиционного кодирования для обработки естественного языка (NLP). Многие популярные большие языковые модели, такие как Llama, Llama2, PaLM и CodeGen, уже использ...
BLEU, ROUGE, BERT-score - блеу, руж, берт-скор - метрики качества перевода и перефразировок в NLP
Как померить близость текстов? Такое часто встречается если у вас задача сравнить эталонный перевод с полученным, перефразировку или суммаризацию, сделанную LLM или другим алгоритмом с эталонной.
Во...
Stanford Alpaca и Self-instruct - генерация синтетических текстовых инструкций
Исходный код генерации обучающего датасета и обучения модели Alpaca находится по ссылке https://github.com/tatsu-lab/stanford_alpaca/
Все началось с затравок в количестве 175 штук. Это примеры инструктивных задач, г...
Medprompt - Могут ли универсальные базовые модели превзойти специализированные только за счет промптинга? На примере медицины
Краткий ответ:
- да могут
- few-shot на основе векторной близости входящего вопроса и примеров с ответами из базы
- примеры во few-shot с цепочками рассуждений
- синт...