Блог практикующих ML и DS инженеров с уклоном в NLP. От простого до сложного.
Формат GGUF: структура, использование и виды квантования
Стандартные методы сохранения моделей часто не справляются с требованиями квантизированных моделей, такими как хранение низкоразрядных весов вместе с соответствующими масштабными коэффициентами и нулевыми точками. Формат GGUF (Georgi Gerga...
llama.cpp и GGUF - как использовать llama.cpp для локального запуска моделей LLaMA
Открытые большие языковые модели (LLM), такие как LLaMA от Meta, произвели революцию в области обработки естественного языка. Не все хотят зависеть от облачных API для их запуска. Здесь на помощь приходит llama.cpp...
Введение в квантование LLM. Уменьшение размера больших языковых моделей с помощью 8-битного квантования
Крупные языковые модели (Large Language Models, LLMs) известны своими значительными вычислительными требованиями. Обычно размер модели рассчитывается путём умножения количества параметров (разм...
AWQ (Activation-Aware Weight Quantization) и его отличия от GPTQ квантования LLM
Основные принципы работы
GPTQ (Gradient-based Post-Training Quantization) представляет собой метод пошаговой оптимизации слоев для минимизации ошибки квантования, использующий информацию о градиентах и гессиане для...
4-битное квантование с использованием GPTQ - Generalized Post-Training Quantization
https://arxiv.org/abs/2210.17323 - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
https://huggingface.co/docs/transformers/main/en/quantization/gptq
Недавние достижения в обл...
Как устроен кодинг ИИ агент на примере Claude Code
Системный промпт и описания инструментов (tools) ИИ агента приведены в конце статьи.
SWE-bench - Могут ли языковые модели решить реальные проблемы GitHub?
Перевод на основе https://arxiv.org/abs/2310.06770 от 11 ноября 2024.
Развитие языковых моделей опережает нашу способность эффективно их оценивать, но для их дальнейшего прогресса крайне важно изучать границы их возможностей...
Что такое Model Context Protocol (MCP) и зачем он нужен?
MCP (Model Context Protocol) — это открытый стандарт и протокол для подключения ИИ-приложений к внешним системам. С помощью MCP ИИ-приложения, такие как Claude или ChatGPT, могут подключаться к источникам данных (например, локальным файлам,...
Анализ API v1/responses в OpenAI и VLLM - как генрировать ответы, вызывать функции, работать с Responses API
Responses API представляет собой новое поколение stateful-интерфейса от OpenAI, объединяющее лучшие возможности Chat Completions и Assistants API в единую унифицированную систему. Этот API...
Нейронные сети для редактирования изображений: удаление объектов и замена фона
Открытые модели и решения
FLUX.1 Kontext — текущий лидер
FLUX.1 Kontext представляет собой передовую модель редактирования изображений на основе инструкций. Эта модель демонстрирует высочайшую точность при редактиро...
Какие модели поддерживает для запуска VLLM
Перевод на основе страницы документации https://docs.vllm.ai/en/latest/models/supported_models.html#writing-custom-models_1 на 1.09.25.
Страницы документации VLLM могут быть не доступны с Российский IP адресов.
Github проекта VLLM с информацией htt...
Qwen2.5-Coder - обзор стратегии обучения
Архитектура Qwen2.5-Coder основана на архитектуре Qwen2.5. В таблице 1 представлены гиперпараметры архитектуры модели Qwen2.5-Coder для шести различных размеров: 0.5B, 1.5B, 3B, 7B, 14B и 32B параметров.
Хотя все модели имеют одинаковый размер голов (head...
Что такое Langgrapg и как им пользоваться. Видеоурок на 50 минут
Записал видеоурок про LangGraph - введение в графы рассуждений для ИИ-агентов
В мире искусственного интеллекта и генеративных моделей (LLM) всё чаще встаёт вопрос: как сделать ИИ не просто ответчиком на запросы, а умным агентом,...
Что такое VLM - visual language models (Модели языка и зрения)
Модели языка и зрения (VLM) — это мультимодальные генеративные модели искусственного интеллекта, способные понимать и обрабатывать видео, изображения и текст.
Модели языка и зрения — это мультимодальные системы искусственного интелле...
Пример работы с VLM qwen2.5-vl-72b-instruct через сервис OpenRouter
Посмотрим как LLM может анализировать изображения, распознавать текст со сканов даже плохого качества.
В современном мире обработка изображений с помощью искусственного интеллекта становится всё более востребованной — от автомат...
На пути к большим моделям рассуждений: обзор Reinforced Reasoning with Large Language Models
На основе https://arxiv.org/html/2501.09686v3 Перевод обзора от 01.2025 (до выхода DeepSeek)
Язык давно рассматривается как важный инструмент для человеческого мышления. Прорыв в области больших языков...
Reinforcement Learning в обучении LLM - PPO, DPO, GRPO - что это?
RL - или обучение с подкреплением способ обучать различные модели, в нашем случае мы говорим об LLM. Для LLM это в первую очередь способ отвязаться от ручной подготовки и верификации инструктивных датасетов и перейти в океан синтети...
DeepSeek-V3 Technical Report
Общий обзор
На основе https://arxiv.org/html/2412.19437v2
Компания DeepSeek-AI в феврале 2025 опубликовала веса и представила технический отчет о своей LLM DeepSeek-V3. DeepSeek-V3 это мощная язковая модель на основе архитектуры смеси экспертов (Mixture-of-Experts...
DeepSeek-R1: стимулирование способности к рассуждению у LLM с помощью обучения с подкреплением
На основе https://arxiv.org/abs/2501.12948
25 января 2025 года
Исследователи представили свои модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, модель, обученная с использо...
Зачем от LayerNorm перешли к RMSNorm
На основе https://arxiv.org/abs/1910.07467
Как эффективно обучать глубокие нейронные сети — это давняя задача. Для ускорения сходимости модели Ба и др. предложили нормализацию слоя (LayerNorm), которая стабилизирует обучение глубоких нейронных сетей, регулир...
Разбираемся с Rotary Positional Encoding - вращательным позиционным кодированием
Rotary Positional Embeddings — это современная техника позиционного кодирования для обработки естественного языка (NLP). Многие популярные большие языковые модели, такие как Llama, Llama2, PaLM и CodeGen, уже использ...
Основы Mixture-of-Experts (MoE)
Модели Mixture of Experts (MoE) — это класс трансформерных моделей. В отличие от традиционных плотных моделей, MoE использует "разреженный" подход, при котором для каждого входа (токена) используется только подмножество компонентов модели ("экспертов"). Это позволяе...
BLEU, ROUGE, BERT-score - блеу, руж, берт-скор - метрики качества перевода и перефразировок в NLP
Как померить близость текстов? Такое часто встречается если у вас задача сравнить эталонный перевод с полученным, перефразировку или суммаризацию, сделанную LLM или другим алгоритмом с эталонной.
Во...
Методические рекомендации по созданию ТЗ на разметку данных
Оглавление статьи
LM Studio (lmstudio)
Это настольное приложение для разработки и экспериментов с LLM (большими языковыми моделями) на вашем компьютере, разработанное lmstudio.ai
Основные функции: