Кейсы, внедрения и полезные материалы о LLM и ИИ - блог LLM Studio | LLM Studio - применение Искусственного Интеллекта в бизнесе

14-10-25 19:46

Введение в квантование LLM. Уменьшение размера больших языковых моделей с помощью 8-битного квантования

Крупные языковые модели (Large Language Models, LLMs) известны своими значительными вычислительными требованиями. Обычно размер модели рассчитывается путём умножения количества параметров (разм...

prof

14-10-25 19:46

Формат GGUF: структура, использование и виды квантования

Стандартные методы сохранения моделей часто не справляются с требованиями квантизированных моделей, такими как хранение низкоразрядных весов вместе с соответствующими масштабными коэффициентами и нулевыми точками. Формат GGUF (Georgi Gerga...

prof

14-10-25 19:46

llama.cpp и квантование - как использовать llama.cpp для локального запуска моделей LLaMA

llama.cpp и GGUF - как использовать llama.cpp для локального запуска моделей LLaMA

Открытые большие языковые модели (LLM), такие как LLaMA от Meta, произвели революцию в области обработки естественного языка. Не все хотят зависеть от облачных API для их запуска. Здесь на помощь приходит llama.cpp...

prof

14-10-25 19:46

4-битное квантование с использованием GPTQ - Generalized Post-Training Quantization

https://arxiv.org/abs/2210.17323 - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

https://huggingface.co/docs/transformers/main/en/quantization/gptq

Недавние достижения в обл...

prof

14-10-25 19:46

AWQ (Activation-Aware Weight Quantization) и его отличия от GPTQ квантования LLM

Основные принципы работы

GPTQ (Gradient-based Post-Training Quantization) представляет собой метод пошаговой оптимизации слоев для минимизации ошибки квантования, использующий информацию о градиентах и гессиане для...

prof

22-09-25 13:21

Как устроен кодинг ИИ агент на примере Claude Code

Системный промпт и описания инструментов (tools) ИИ агента приведены в конце статьи.

Основные принципы
Работа с субагентами
Архитектура Claude Code
Основной системный промпт на английском
Основной системный промпт на русском (перевод)

prof

18-09-25 13:59

SWE-bench - бенчмарк проверки, могут ли языковые модели решить реальные проблемы GitHub?

SWE-bench - Могут ли языковые модели решить реальные проблемы GitHub?

Перевод на основе https://arxiv.org/abs/2310.06770 от 11 ноября 2024.

Развитие языковых моделей опережает нашу способность эффективно их оценивать, но для их дальнейшего прогресса крайне важно изучать границы их возможностей...

prof

12-09-25 21:43

Анализ API v1/responses в OpenAI и VLLM - как генрировать ответы, вызывать функции, работать с Responses API

Responses API представляет собой новое поколение stateful-интерфейса от OpenAI, объединяющее лучшие возможности Chat Completions и Assistants API в единую унифицированную систему. Этот API...

prof

12-09-25 21:43

Что такое Model Context Protocol (MCP) и зачем он нужен?

MCP (Model Context Protocol) — это открытый стандарт и протокол для подключения ИИ-приложений к внешним системам. С помощью MCP ИИ-приложения, такие как Claude или ChatGPT, могут подключаться к источникам данных (например, локальным файлам,...

prof

04-09-25 22:11

Нейронные сети для редактирования изображений: удаление объектов и замена фона

Открытые модели и решения

FLUX.1 Kontext — текущий лидер

FLUX.1 Kontext представляет собой передовую модель редактирования изображений на основе инструкций. Эта модель демонстрирует высочайшую точность при редактиро...

prof

04-09-25 13:44

Какие модели поддерживает для запуска VLLM

Перевод на основе страницы документации https://docs.vllm.ai/en/latest/models/supported_models.html#writing-custom-models_1 на 1.09.25.

Страницы документации VLLM могут быть не доступны с Российский IP адресов.

Github проекта VLLM с информацией htt...

prof

04-09-25 13:44

Qwen2.5-Coder - обзор стратегии обучения

Архитектура Qwen2.5-Coder основана на архитектуре Qwen2.5. В таблице 1 представлены гиперпараметры архитектуры модели Qwen2.5-Coder для шести различных размеров: 0.5B, 1.5B, 3B, 7B, 14B и 32B параметров.

Хотя все модели имеют одинаковый размер голов (head...

prof

01-08-25 12:01

Что такое LangGraph и как им пользоваться. Видеоурок на 50 минут

Что такое Langgrapg и как им пользоваться. Видеоурок на 50 минут

Записал видеоурок про LangGraph - введение в графы рассуждений для ИИ-агентов

В мире искусственного интеллекта и генеративных моделей (LLM) всё чаще встаёт вопрос: как сделать ИИ не просто ответчиком на запросы, а умным агентом,...

prof

01-08-25 12:01

Что такое VLM - visual language models (Модели языка и зрения)

Модели языка и зрения (VLM) — это мультимодальные генеративные модели искусственного интеллекта, способные понимать и обрабатывать видео, изображения и текст.

Модели языка и зрения — это мультимодальные системы искусственного интелле...

prof

01-08-25 12:01

Пример работы с VLM qwen2.5-vl-72b-instruct через сервис OpenRouter

Посмотрим как LLM может анализировать изображения, распознавать текст со сканов даже плохого качества.

В современном мире обработка изображений с помощью искусственного интеллекта становится всё более востребованной — от автомат...

prof

05-06-25 13:09

На пути к большим моделям рассуждений: обзор Reinforced Reasoning with Large Language Models

На основе https://arxiv.org/html/2501.09686v3 Перевод обзора от 01.2025 (до выхода DeepSeek)

Язык давно рассматривается как важный инструмент для человеческого мышления. Прорыв в области больших языков...

prof

05-06-25 13:09

Reinforcement Learning в обучении LLM - PPO, DPO, GRPO - что это и как работает?

Reinforcement Learning в обучении LLM - PPO, DPO, GRPO - что это?

RL - или обучение с подкреплением способ обучать различные модели, в нашем случае мы говорим об LLM. Для LLM это в первую очередь способ отвязаться от ручной подготовки и верификации инструктивных датасетов и перейти в океан синтети...

prof

02-06-25 17:12

Зачем от LayerNorm перешли к RMSNorm

На основе https://arxiv.org/abs/1910.07467

Как эффективно обучать глубокие нейронные сети — это давняя задача. Для ускорения сходимости модели Ба и др. предложили нормализацию слоя (LayerNorm), которая стабилизирует обучение глубоких нейронных сетей, регулир...

prof

02-06-25 17:12

DeepSeek-R1: стимулирование способности к рассуждению у LLM с помощью обучения с подкреплением

На основе https://arxiv.org/abs/2501.12948

25 января 2025 года

Исследователи представили свои модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, модель, обученная с использо...

prof

02-06-25 17:12

DeepSeek-V3 Technical Report - перевод на Русский и разбор архитектуры

DeepSeek-V3 Technical Report

Общий обзор

На основе https://arxiv.org/html/2412.19437v2

Компания DeepSeek-AI в феврале 2025 опубликовала веса и представила технический отчет о своей LLM DeepSeek-V3. DeepSeek-V3 это мощная язковая модель на основе архитектуры смеси экспертов (Mixture-of-Experts...

prof

02-06-25 0:16

Основы Mixture-of-Experts (MoE) - что это такое и как устроен

Основы Mixture-of-Experts (MoE)

Модели Mixture of Experts (MoE) — это класс трансформерных моделей. В отличие от традиционных плотных моделей, MoE использует "разреженный" подход, при котором для каждого входа (токена) используется только подмножество компонентов модели ("экспертов"). Это позволяе...

prof

02-06-25 0:16

Разбираемся с RoPE - Rotary Positional Encoding - вращательным позиционным кодированием

Разбираемся с Rotary Positional Encoding - вращательным позиционным кодированием

Rotary Positional Embeddings — это современная техника позиционного кодирования для обработки естественного языка (NLP). Многие популярные большие языковые модели, такие как Llama, Llama2, PaLM и CodeGen, уже использ...

prof

05-05-25 14:34

BLEU, ROUGE, BERT-score - блеу, руж, берт-скор - метрики качества перевода и перефразировок в NLP

Как померить близость текстов? Такое часто встречается если у вас задача сравнить эталонный перевод с полученным, перефразировку или суммаризацию, сделанную LLM или другим алгоритмом с эталонной.

Во...

prof

12-02-25 13:06

Генерация синтетических текстовых инструкций на примере Alpaca и Self-instruct

Stanford Alpaca и Self-instruct - генерация синтетических текстовых инструкций

Исходный код генерации обучающего датасета и обучения модели Alpaca находится по ссылке https://github.com/tatsu-lab/stanford_alpaca/

Все началось с затравок в количестве 175 штук. Это примеры инструктивных задач, г...

prof

07-02-25 20:24

Medprompt - Могут ли универсальные базовые модели превзойти специализированные только за счет промптинга?

Medprompt - Могут ли универсальные базовые модели превзойти специализированные только за счет промптинга? На примере медицины

Краткий ответ:

да могут

few-shot на основе векторной близости входящего вопроса и примеров с ответами из базы

примеры во few-shot с цепочками рассуждений

синт...

prof

Мы с профессором в НИИ исповедуем ИИ