Блог практикующих ML и DS инженеров с уклоном в NLP. От простого до сложного.
Разбираемся с Rotary Positional Encoding - вращательным позиционным кодированием
Rotary Positional Embeddings — это современная техника позиционного кодирования для обработки естественного языка (NLP). Многие популярные большие языковые модели, такие как Llama, Llama2, PaLM и CodeGen, уже использ...
Основы Mixture-of-Experts (MoE)
Модели Mixture of Experts (MoE) — это класс трансформерных моделей. В отличие от традиционных плотных моделей, MoE использует "разреженный" подход, при котором для каждого входа (токена) используется только подмножество компонентов модели ("экспертов"). Это позволяе...
DeepSeek-V3 Technical Report
Общий обзор
На основе https://arxiv.org/html/2412.19437v2
Компания DeepSeek-AI в феврале 2025 опубликовала веса и представила технический отчет о своей LLM DeepSeek-V3. DeepSeek-V3 это мощная язковая модель на основе архитектуры смеси экспертов (Mixture-of-Experts...
BLEU, ROUGE, BERT-score - блеу, руж, берт-скор - метрики качества перевода и перефразировок в NLP
Как померить близость текстов? Такое часто встречается если у вас задача сравнить эталонный перевод с полученным, перефразировку или суммаризацию, сделанную LLM или другим алгоритмом с эталонной.
Во...
Stanford Alpaca и Self-instruct - генерация синтетических текстовых инструкций
Исходный код генерации обучающего датасета и обучения модели Alpaca находится по ссылке https://github.com/tatsu-lab/stanford_alpaca/
Все началось с затравок в количестве 175 штук. Это примеры инструктивных задач, г...
Medprompt - Могут ли универсальные базовые модели превзойти специализированные только за счет промптинга? На примере медицины
Краткий ответ:
- да могут
- few-shot на основе векторной близости входящего вопроса и примеров с ответами из базы
- примеры во few-shot с цепочками рассуждений
- синт...
Instruction tuning LLM - инструктивное обучение больших языковых моделей
Модели, следующие инструкциям, - это уровень искусственного интеллекта конца 2023 года. Первой такой широко нашумевшей моделью стала GPT-3.5, и далее ChatGPT, Claude, Bing Chat и др.
Сейчас в модели стали добавлять разные д...
Lamini Memory Tuning - Mixture of Memory Experts (MoME)
В отдельных кейсах Lamini Memory Tuning дает 95% точности ответов LLM, снижая количество галлюцинаций модели в 10 раз, по заявлениям команды продукта Lamini.
Кратко:
Lamini Memory Tuning — это новый метод интеграции фактов в языковые...
SeerAttention - динамические разреженное внимание для LLM
Внимание является краеугольным камнем современных крупных языковых моделей (LLM). Однако его квадратичная сложность ограничивает эффективность и масштабируемость LLM, особенно для моделей с длинным контекстом. Перспективный подход, решающий...