Мы с профессором в НИИ исповедуем ИИ

Блог практикующих ML и DS инженеров с уклоном в NLP. От простого до сложного.

Что такое VLM - visual language models (Модели языка и зрения)

Модели языка и зрения (VLM) — это мультимодальные генеративные модели искусственного интеллекта, способные понимать и обрабатывать видео, изображения и текст.

Модели языка и зрения — это мультимодальные системы искусственного интелле...

Пример работы с VLM qwen2.5-vl-72b-instruct через сервис OpenRouter

Посмотрим как LLM может анализировать изображения, распознавать текст со сканов даже плохого качества.

В современном мире обработка изображений с помощью искусственного интеллекта становится всё более востребованной — от автомат...

Что такое Langgrapg и как им пользоваться. Видеоурок на 50 минут

Записал видеоурок про LangGraph - введение в графы рассуждений для ИИ-агентов

В мире искусственного интеллекта и генеративных моделей (LLM) всё чаще встаёт вопрос: как сделать ИИ не просто ответчиком на запросы, а умным агентом,...

Reinforcement Learning в обучении LLM - PPO, DPO, GRPO - что это?

RL - или обучение с подкреплением способ обучать различные модели, в нашем случае мы говорим об LLM. Для LLM это в первую очередь способ отвязаться от ручной подготовки и верификации инструктивных датасетов и перейти в океан синтети...

На пути к большим моделям рассуждений: обзор Reinforced Reasoning with Large Language Models

На основе https://arxiv.org/html/2501.09686v3 Перевод обзора от 01.2025 (до выхода DeepSeek)

Язык давно рассматривается как важный инструмент для человеческого мышления. Прорыв в области больших языков...

Зачем от LayerNorm перешли к RMSNorm

На основе https://arxiv.org/abs/1910.07467

Как эффективно обучать глубокие нейронные сети — это давняя задача. Для ускорения сходимости модели Ба и др. предложили нормализацию слоя (LayerNorm), которая стабилизирует обучение глубоких нейронных сетей, регулир...

DeepSeek-R1: стимулирование способности к рассуждению у LLM с помощью обучения с подкреплением

На основе https://arxiv.org/abs/2501.12948

25 января 2025 года

Исследователи представили свои модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, модель, обученная с использо...

DeepSeek-V3 Technical Report

Общий обзор

На основе https://arxiv.org/html/2412.19437v2

Компания DeepSeek-AI в феврале 2025 опубликовала веса и представила технический отчет о своей LLM DeepSeek-V3. DeepSeek-V3 это мощная язковая модель на основе архитектуры смеси экспертов (Mixture-of-Experts...

Разбираемся с Rotary Positional Encoding - вращательным позиционным кодированием

Rotary Positional Embeddings — это современная техника позиционного кодирования для обработки естественного языка (NLP). Многие популярные большие языковые модели, такие как Llama, Llama2, PaLM и CodeGen, уже использ...

Основы Mixture-of-Experts (MoE)

Модели Mixture of Experts (MoE) — это класс трансформерных моделей. В отличие от традиционных плотных моделей, MoE использует "разреженный" подход, при котором для каждого входа (токена) используется только подмножество компонентов модели ("экспертов"). Это позволяе...

BLEU, ROUGE, BERT-score - блеу, руж, берт-скор - метрики качества перевода и перефразировок в NLP

Как померить близость текстов? Такое часто встречается если у вас задача сравнить эталонный перевод с полученным, перефразировку или суммаризацию, сделанную LLM или другим алгоритмом с эталонной.

Во...

Stanford Alpaca и Self-instruct - генерация синтетических текстовых инструкций

Исходный код генерации обучающего датасета и обучения модели Alpaca находится по ссылке https://github.com/tatsu-lab/stanford_alpaca/

Все началось с затравок в количестве 175 штук. Это примеры инструктивных задач, г...

Medprompt - Могут ли универсальные базовые модели превзойти специализированные только за счет промптинга? На примере медицины

Краткий ответ:

  • да могут
  • few-shot на основе векторной близости входящего вопроса и примеров с ответами из базы
  • примеры во few-shot с цепочками рассуждений
  • синт...

Instruction tuning LLM - инструктивное обучение больших языковых моделей

Модели, следующие инструкциям, - это уровень искусственного интеллекта конца 2023 года. Первой такой широко нашумевшей моделью стала GPT-3.5, и далее ChatGPT, Claude, Bing Chat и др.

Сейчас в модели стали добавлять разные д...

Lamini Memory Tuning - Mixture of Memory Experts (MoME)

В отдельных кейсах Lamini Memory Tuning дает 95% точности ответов LLM, снижая количество галлюцинаций модели в 10 раз, по заявлениям команды продукта Lamini.

Кратко:

  • Lamini Memory Tuning — это новый метод интеграции фактов в языковые...

SeerAttention - динамические разреженное внимание для LLM

Внимание является краеугольным камнем современных крупных языковых моделей (LLM). Однако его квадратичная сложность ограничивает эффективность и масштабируемость LLM, особенно для моделей с длинным контекстом. Перспективный подход, решающий...