Мы с профессором в НИИ исповедуем ИИ

Блог практикующих ML и DS инженеров с уклоном в NLP. От простого до сложного.

Формат GGUF: структура, использование и виды квантования

Стандартные методы сохранения моделей часто не справляются с требованиями квантизированных моделей, такими как хранение низкоразрядных весов вместе с соответствующими масштабными коэффициентами и нулевыми точками. Формат GGUF (Georgi Gerga...

llama.cpp и GGUF - как использовать llama.cpp для локального запуска моделей LLaMA

Открытые большие языковые модели (LLM), такие как LLaMA от Meta, произвели революцию в области обработки естественного языка. Не все хотят зависеть от облачных API для их запуска. Здесь на помощь приходит llama.cpp...

Введение в квантование LLM. Уменьшение размера больших языковых моделей с помощью 8-битного квантования

Крупные языковые модели (Large Language Models, LLMs) известны своими значительными вычислительными требованиями. Обычно размер модели рассчитывается путём умножения количества параметров (разм...

AWQ (Activation-Aware Weight Quantization) и его отличия от GPTQ квантования LLM

Основные принципы работы

GPTQ (Gradient-based Post-Training Quantization) представляет собой метод пошаговой оптимизации слоев для минимизации ошибки квантования, использующий информацию о градиентах и гессиане для...

4-битное квантование с использованием GPTQ - Generalized Post-Training Quantization

https://arxiv.org/abs/2210.17323 - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

https://huggingface.co/docs/transformers/main/en/quantization/gptq

Недавние достижения в обл...

Как устроен кодинг ИИ агент на примере Claude Code

Системный промпт и описания инструментов (tools) ИИ агента приведены в конце статьи.

SWE-bench - Могут ли языковые модели решить реальные проблемы GitHub?

Перевод на основе https://arxiv.org/abs/2310.06770 от 11 ноября 2024.

Развитие языковых моделей опережает нашу способность эффективно их оценивать, но для их дальнейшего прогресса крайне важно изучать границы их возможностей...

Что такое Model Context Protocol (MCP) и зачем он нужен?

MCP (Model Context Protocol) — это открытый стандарт и протокол для подключения ИИ-приложений к внешним системам. С помощью MCP ИИ-приложения, такие как Claude или ChatGPT, могут подключаться к источникам данных (например, локальным файлам,...

Анализ API v1/responses в OpenAI и VLLM - как генрировать ответы, вызывать функции, работать с Responses API

Responses API представляет собой новое поколение stateful-интерфейса от OpenAI, объединяющее лучшие возможности Chat Completions и Assistants API в единую унифицированную систему. Этот API...

Нейронные сети для редактирования изображений: удаление объектов и замена фона

Открытые модели и решения

FLUX.1 Kontext — текущий лидер

FLUX.1 Kontext представляет собой передовую модель редактирования изображений на основе инструкций. Эта модель демонстрирует высочайшую точность при редактиро...

Какие модели поддерживает для запуска VLLM

Перевод на основе страницы документации https://docs.vllm.ai/en/latest/models/supported_models.html#writing-custom-models_1 на 1.09.25.

Страницы документации VLLM могут быть не доступны с Российский IP адресов.

Github проекта VLLM с информацией htt...

Qwen2.5-Coder - обзор стратегии обучения

Архитектура Qwen2.5-Coder основана на архитектуре Qwen2.5. В таблице 1 представлены гиперпараметры архитектуры модели Qwen2.5-Coder для шести различных размеров: 0.5B, 1.5B, 3B, 7B, 14B и 32B параметров.

Хотя все модели имеют одинаковый размер голов (head...

Что такое Langgrapg и как им пользоваться. Видеоурок на 50 минут

Записал видеоурок про LangGraph - введение в графы рассуждений для ИИ-агентов

В мире искусственного интеллекта и генеративных моделей (LLM) всё чаще встаёт вопрос: как сделать ИИ не просто ответчиком на запросы, а умным агентом,...

Что такое VLM - visual language models (Модели языка и зрения)

Модели языка и зрения (VLM) — это мультимодальные генеративные модели искусственного интеллекта, способные понимать и обрабатывать видео, изображения и текст.

Модели языка и зрения — это мультимодальные системы искусственного интелле...

Пример работы с VLM qwen2.5-vl-72b-instruct через сервис OpenRouter

Посмотрим как LLM может анализировать изображения, распознавать текст со сканов даже плохого качества.

В современном мире обработка изображений с помощью искусственного интеллекта становится всё более востребованной — от автомат...

На пути к большим моделям рассуждений: обзор Reinforced Reasoning with Large Language Models

На основе https://arxiv.org/html/2501.09686v3 Перевод обзора от 01.2025 (до выхода DeepSeek)

Язык давно рассматривается как важный инструмент для человеческого мышления. Прорыв в области больших языков...

Reinforcement Learning в обучении LLM - PPO, DPO, GRPO - что это?

RL - или обучение с подкреплением способ обучать различные модели, в нашем случае мы говорим об LLM. Для LLM это в первую очередь способ отвязаться от ручной подготовки и верификации инструктивных датасетов и перейти в океан синтети...

DeepSeek-V3 Technical Report

Общий обзор

На основе https://arxiv.org/html/2412.19437v2

Компания DeepSeek-AI в феврале 2025 опубликовала веса и представила технический отчет о своей LLM DeepSeek-V3. DeepSeek-V3 это мощная язковая модель на основе архитектуры смеси экспертов (Mixture-of-Experts...

DeepSeek-R1: стимулирование способности к рассуждению у LLM с помощью обучения с подкреплением

На основе https://arxiv.org/abs/2501.12948

25 января 2025 года

Исследователи представили свои модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, модель, обученная с использо...

Зачем от LayerNorm перешли к RMSNorm

На основе https://arxiv.org/abs/1910.07467

Как эффективно обучать глубокие нейронные сети — это давняя задача. Для ускорения сходимости модели Ба и др. предложили нормализацию слоя (LayerNorm), которая стабилизирует обучение глубоких нейронных сетей, регулир...

Разбираемся с Rotary Positional Encoding - вращательным позиционным кодированием

Rotary Positional Embeddings — это современная техника позиционного кодирования для обработки естественного языка (NLP). Многие популярные большие языковые модели, такие как Llama, Llama2, PaLM и CodeGen, уже использ...

Основы Mixture-of-Experts (MoE)

Модели Mixture of Experts (MoE) — это класс трансформерных моделей. В отличие от традиционных плотных моделей, MoE использует "разреженный" подход, при котором для каждого входа (токена) используется только подмножество компонентов модели ("экспертов"). Это позволяе...

BLEU, ROUGE, BERT-score - блеу, руж, берт-скор - метрики качества перевода и перефразировок в NLP

Как померить близость текстов? Такое часто встречается если у вас задача сравнить эталонный перевод с полученным, перефразировку или суммаризацию, сделанную LLM или другим алгоритмом с эталонной.

Во...

LM Studio (lmstudio)

Это настольное приложение для разработки и экспериментов с LLM (большими языковыми моделями) на вашем компьютере, разработанное lmstudio.ai

Основные функции:

  • Настольное приложение для работы с локальными LLM.
  • Привычный интерфейс чата.
  • Функции поиска и загрузки моделе...