Большие языковые модели - Large Language Models, LLM - что это?

Краткий вводный гайд без математики и программирования - если вы впервые слышите про это.

Бесплатно попробовать мощь искусственного интеллекта в России можно тут

А вообще - не надо говорить, надо пробовать.

Чат Гпт на официальном сайте

  • Если вы умеете ставить у себя VPN и имеете корпоративный ящик почты не в домене ru, то можно получить бесплатную учетку прямо тут https://chatgpt.com
  • Если у вас есть только VPN то купить бесплатную учетку к chatgpt.com за рубли русской картой можно например тут https://plati.market/games/chatgpt/1267/ или в любом другом сервисе продажи учеток - они легко ищутся и в яндексе и в гугле по запросу "купить учетку чат гпт". И затем пользоваться на официальном сайте со всеми возможностями и преимуществами

Чат Гпт через всевозможных Телеграм ботов

Подобных ботов разной степени платности в телеграме огромное количество. От условно бесплатных до платных. Найти их в поиске не сложно. Конкретные ссылки приводить не буду. Но помните, владелец любого бота видит и скорее всего сохраняет все что вы спршиваете и какие данные передаете. Не доверяйте сомнительным сервисам.

Гигачат

Достойная альтернатива от Сбера, к котрой причастен и автор этих строк.

Ссылки действительны на момент написания статьи. Если в момент чтения что-то не работает, то вы всегда можете это нагуглить.

Открытые модели

Если вы айтишник или около - то можете поставить себе LLM локально - прямо на компьютер или телефон. Есть веса моделей в свободном доступе в России, есть бесплатные приложения для запуска. Но это уже условно продвинутый уровень и оставим его для другой статьи. Будут отдельные статьи про то, как запускать локальные модели и работать с ними.

Яндекс GPT

  • https://ya.ru/ai/gpt-4 Доступна в сервисах яндекса. Ссылка может меняться, но нагуглить всегда сможете.

В целом все приведенные модели достаточно сильные. Можете пользоваться любой из них. Важно понимать что модели улучшаются. Условно каждый квартал-полгода у каждой из моделей выходит новая версия быстрее-выше-сильнее предшественницы.

Поэтому если сегодня какая-то из моделей лажает на вашем кейсе, вполне вероятно, что через полгода все поменяется.

Что такое текстовые нейросети LLM и почему они GPT?

Здесь мы будем говорить только о текстовых нейросетях - больших языковых моделях - LLM (Large Language Models). И рассмотрим мы только основные техники, которые позволят вам успешно решать свои задачи.

К таким текстовым нейросетям относятся:

  • Chat GPT (Американская мультиязычная)
  • Clode (Американская мультиязычная)
  • GigaChat (Российская мультиязычная с преимуществом русского языка)
  • YandexGPT (Российская)
  • LLAMA (Американская мультиязычная, опенсорс, можно скачать веса и запускать локально)
  • Mistral (Европейская мультиязычная, опенсорс, можно скачать веса и запускать локально)
  • Qwen (Китайская мультиязычная, опенсорс, можно скачать веса и запускать локально)

Пока это основные нейросети LLM с которыми вы скорее всего столкнетесь в доступе в России. Также могут быть их модификации делаемые крупными компаниями типа МТС, Т-Технологии и др. Есть и другие нишевые модели, но эти на конец 2024 года основные.

Большие языковые модели (LLM, от англ. Large Language Models) — это сложные алгоритмы, обученные на огромных массивах текстовых данных. Но суть этих алгоритмов проста.

  • на вход алгоритму подается текст
  • алгоритм предсказывает следующее слово текста (на самом деле часть слова - токен, обычно длина токена 3-4 символа, но могут быть токены и в 1 символ и в 5-6 символов. Модель сама решает какой токен ей выбрать в каждом случае)
  • затем мы добавляем предсказанное слово или часть слова к входному тексту и предсказываем следующее слово или токен
  • и так далее, либо пока нам не надоест и мы не прекратим генерацию
  • либо пока мы не встретим специальное "стоп-слово". Например спец-токен '<|end_of_text|>' (у каждой модели свой набор спец-токенов начала и конца фразы и других)
  • все что мы надобавляли к изначальному входному тексту - называется генерация
  • все что мы дали на вход алгоритму в самом начале - называется промпт.

Итого в сухом остатке: текст на входе - текст на выходе

И это называется языковой моделью - этот алгоритм моделирует язык в его письменной форме. Вы скармливаете алгоритму текст, а он способен наиболее вероятным и правдоподобным способом продолжать текст.

Промптинг - это навык и набор техник, как давать на вход алгоритму такой текст, чтобы полученная генерация решала вашу задачу.

Почему это GPT?

GPT - global pretrained transformer (глобальный предобученный трансформер).

Почему глобальный?

  1. Потому что очень большой. Вычислительный алгоритм, который используется чтобы по входному тексту предсказать следующее слово использует внутри себя простые математические вычисления - сложения, вычитания, умножения, деления, возведения в степень - довольно простые операции с разными коэффициентами. Эти коэффициенты называются весами. И этих весов ооочень много.

    Например в более менее "разумных моделях" этих весов от 7 до 100 миллиардов. Это очень много чисел, которые нужно перемножить и сложить, чтобы предсказать следующее слово.

  2. Потому что обучен предсказывать слова на ооочень большом корпусе текстов. Обучающее количество текстов превышает количество весов модели.

Разные модели имеют разный состав обучающих корпусов текстов. Но общий принцип такой:

  • Базовая модель - все модели проходят этап предобучения. Берем условную википедию, научные статьи и т.д. Нарезаем на смысловые части и для каждой части учим алгоритм предсказывать следующее слово - на выходе полуаем базовую модель. Тут размер обучающей выборки десятки миллионов качественных текстов и более (миллиарды и триллионы токенов). На этапе базового обучения модель приобретае знание о языке и знание фактов.
  • Инструктивная модель - базовая модель проходит этап инструктивного файн-тюнинга (тонкой настройки). Тут ее учат не просто предсказывать седующее слово в тексте, а отвечать на вопросы, следовать инструкциям, генерировать код вызова инструментов и др. - на выходе получаем инструктивную модель. Тут размер обучающей выборки несколько сотен тысяч - несколько миллионов хорошо написанных людьми примеров
  • Выровненная модель - инструктивную модель учат давать развернутые и красиво оформленные ответы, отучают ругаться, генерировать токсичный и потенциально-опасный контент - на выходе получаем "выровненную модель" - aligned model

Про то как модель делают инструктивной и в чем магия системных промптов мы писали в статье Системные промпты, что такое system prompt

Почему трансформер?

Архитектура всех современных языковых моделей примерно одинакова и называется трансформер. Технический разбор данной архитектуры с картинками, схемами и программным кодом можно легко нагуглить и я в этой статье приводить его не буду.

Но очень упрощенно архитектуру модели трансформер можно понимать следующим образом:

  • мы трансформируем текст в слова, а слова в токены (части слов). Количество токенов было предопределено на этапе предобучения модели. Например для LLAMA3 8B их 128 тысяч). Те любое слово может быть собрано из этих токенов. Известные слова и сами могут быть токенами, редкие могут состоять из нескоьких токенов, т.к. токены в виде отдельных букв и цифр у нас всегда есть в наборе.
  • полученные токены трансформируем в фиксированные векторы (наборы чисел, например каждый токен последовательности заменяется на набор из 4096 числел как в LLAMA3 8B). Векторы токенов для нас заранее заданы, они были получены на этапе предобучения модели.
  • далее мы превратили наш текст из 1000 слов условно в 300 токенов, а 300 токенов в 300 векторов начального уровня.
  • дальше мы начинем эти векторы проводить через слои модели. Обычно в модели несколько слоев - от 8 до 32 или более. Каждый слой модели это условная комната. В комнату заходят векторы строем, в комнате на них смотрят на всех вместе в их послеовательности и порядке и изменяют каждый вектор так, чтобы учесть его связи с остальными векторами.
  • те на выходе каждого слоя мы получаем снова 300 векторов по 4096 чисел в каждом. Но эти числа немного поменялись. Каждый вектор стал лучше отражать смысл соответствующего токена именно в этом тексте.
  • и так пройдя через 32 комнаты (если в модели например 32 слоя), мы получим 300 векторов, где каждый наиболее полно отражает смысл слова в предложении и контекст предложения и текста в целом.
  • за этот процесс послойной трансформации модели и получили название "трансформер"
  • а далее, если нам нужно генерировать следующий токен, то мы берем вектор самого последнего известного нам токена с самого последнего слоя трансформера - он накопил в себе максимально смысл последнего слова в предложении и предложения в целом - и подаем его в небольшую вычислительную модель, самой простой архитектуры и предсказываем 128 тыс вероятностей (по числу токенов в нашем словаре токенов).
  • И самый вероятный предсказанный токен, или например любой из 5-ти самых вероятных токенов, на основе их вероятностей - берем и добавляем к нашей последовательности.
  • получаем 301-й токен, а для него 301-й вектор на входе в первый слой модели.
  • далее этот 301-й вектор мы снова прогоняем через 32 слоя трансформера, где на кажом слое на этот вектор будет надеватья все больше и больше смысла текста в целом и связей с другими словами и понятиями текста.
  • на выходе из последнего слоя трансформера мы получаем снова вектор по-прежнему размерности 4096, но накопивший в себе смысл как последнего слова в предложении, так и текста в целом, что позволит нам предсказать 302-й токен и т.д.

И этот механизм трансормации, если его учить на хороших примерах, обладают впечатляющей способностью генерировать тексты, отвечать на вопросы и "продолжать ваши мысли". Сейчас на этом можно строить самые разные применения: от создания контента до автоматизации поддержки клиентов и программирования.

В сухом остатке

  • LLM работают на основе архитектуры, называемой "трансформеры", и используют метод токенизации для преобразования текста в понятный для модели формат.
  • Для обычных, не иероглифических языков, можно думать о токенах как о кусочках слов - приставках, корнях, суффиксах.
  • В среднем длина одного токена у модели 3-4 буквы.
  • Цифры и различные спец-символы чаще всего токенизируются по символьно: один символ = один токен.
  • Основной принцип работы больших языковых моделей - предсказание следующего токена в тексте.
  • Если упростить, то получив какой-то текст на вход, они начинают генерировать его по словам, каждый раз "глядя" что получилось и предсказывая следующее слово.
  • Базовые модели - могут продолжать текст.
  • Instruct-модели - обучены на ответах на конкретные вопросы и способны отвечать на вопросы и следовать инструкциям
  • Aligned-модели - доработаны с учетом этических норм и правил поведения

Промптинг: Искусство взаимодействия с LLM

Промптинг — это процесс составления запросов (промптов), которые передаются модели для получения желаемого результата. Успех зависит от четкости, структуры и информативности запроса.

Если вы не работаете с этим глубоко и вам не надо вникать в продвинутые техники промптинга, типа:

  • Few shot
  • Chain of Thughts
  • Tree of Thoughts
  • Self Consustency
  • Structured Output
  • Fucntion Calling
  • RAG
  • ReAct
  • и другие...

То вам достаточно следущих принципов.

Основные элементы промпта:

Инструкция — конкретная задача, которую нужно выполнить.
Контекст — дополнительная информация, которая помогает модели.
Входные данные — текст, фактура или вопросы для анализа.
Индикатор вывода — ожидаемый формат ответа.

Например, чтобы создать статью, промпт может выглядеть так:

Напиши статью на тему "Искусство промптинга".

Промптинг — это процесс составления запросов (промптов), передаваемых  языковой модели для получения желаемого результата. 
Успех зависит от четкости, структуры и информативности запроса. 
Основные элементы промпта включают инструкцию, контекст, входные данные и индикатор вывода.

Статья должна быть структурированная и информативная, включающая введение, основные разделы с подробным изложением темы и заключение. 
Приводи в статье примеры конкретных задач и промптов, которые эти задачи решают. 
Не менее 10 примеров.

А вот что получилось у GPT4o-mini на основе этого промпта с минимальной ручной правкой:

Искусство промптинга

Введение

В последние годы искусственный интеллект (ИИ) и машинное обучение (МО) достигли значительных успехов, благодаря чему языковые модели, такие как GPT-3, стали мощным инструментом для решения разнообразных задач. Однако, чтобы получать от этих моделей желаемые ответы, необходимо правильно формулировать запросы, или промпты. Искусство промптинга заключается в умении составлять четкие, структурированные и информативные запросы, которые направляют модель к нужному результату. В этой статье мы рассмотрим основные элементы промпта, а также приведем примеры промптов для решения конкретных задач.

Основные элементы промпта

Инструкция

Инструкция указывает модели, что именно от нее требуется. Это может быть конкретная задача, которую необходимо выполнить, или формат ответа. Например, "Напиши короткое эссе о климатических изменениях" или "Переведи следующий текст на испанский язык".

Контекст

Контекст помогает модели лучше понять задачу, предоставляя дополнительную информацию. Например, если нужно перевести текст, контекст может включать примеры переводов.

Входные данные

Входные данные - это конкретная информация, с которой модель будет работать. Это может быть текст, числовые данные или любые другие исходные материалы.

Индикатор вывода

Индикатор вывода указывает модели, в каком виде, формате, последовательности или логике выдавать результат.

Не все элементы промпта обязательны, но правило простое чем точнее и лучше попросили - тем точнее и лучше получили.

Примеры конкретных задач и промптов

1. Написание эссе

Задача: Написать эссе о роли технологий в современном обществе. И нагнать жути и страху по этому поводу.

Промпт:

Напиши эссе о роли технологий в современном обществе.
Укажи важность социальной ответственности технологий и их риски.
Добавь побольше технопессимизма.
Закончи тезисом, что искусственный интеллект несет большую угрозу человечеству как виду.
Используй несколько раз мысль, что нужны регуляции применения технологий со стороным правительства

2. Перевод текста

Задача: Перевести следующие предложения на французский язык.

Промпт:

Переведи следующие предложения на французский язык:
1. Привет, как дела?
2. Сегодня замечательная погода.
3. Я люблю читать книги.

3. Решение математических задач

Задача: Решить уравнения. (Будьте осторожны, модели плохо умеют в математику! Они не калькулятор, лучше попросите их сгенерировать программный код на языке python для решения уравнения)

Промпт:

Реши следующие уравнение
x^2 - 4x + 4 = 0

распиши все шаги подробно

4. Генерация идей

Задача: Предложить идеи для вечеринки на Хэллоуин.

Промпт:

Предложи идеи для вечеринки на Хэллоуин. Варианты могут включать: темы костюмов, игры и угощения.

5. Создание резюме

Задача: Создать резюме для позиции на основе входных данных

Промпт:

Создай структурированное резюме на английском языке на 1 страницу для позиции Data Scientist в компанию Google. 
Включи разделы: образование, опыт работы, навыки и контакты. 
Если у меня в информации не хватает данных для качественного резюме, задай мне вопросы, ответы на которые нужно добавить в информацию для более качественного резюме.
Вот информация обо мне:
Саша Иванов, 42 года владею технологиями ...

6. Написание стихотворения

Задача: Написать стихотворение о зиме.

Промпт:

Напиши короткое стихотворение о зиме в стиле Бродского.
Отрази тяжелые мысли и депрессивное настроение
Начни с образа тревоги 

7. Объяснение концептов

Задача: Объяснить концепт квантовой физики простыми словами.

Промпт:

Объясни концепт квантовой физики простыми словами.
Ты специалист в области квантовой физики и умеешь объяснять сложные понятия простыми словами.
Не делай упрощений, но все сложные вещи объясняй наглядно и понятно.
Не приводи сложных формул, объясняй их смысл.

8. Разработка рецепта

Задача: Написать рецепт шоколадного торта.

Промпт:

Напиши рецепт шоколадного торта. Включи ингредиенты и инструкции по приготовлению.

9. Описание персонажа

Задача: Описать вымышленного персонажа.

Промпт:

Опиши вымышленного персонажа Эльфа. 
Укажи его имя, внешний вид, характер и историю жизни. 
Он великий лекарь и разбирается в травах.
Он был на службе кородя Элронда, но был изгнан за проступок.
Длина описания - 1 страница.

10. Создание рекламного объявления

Задача: Создать рекламное объявление для нового смартфона.

Промпт:

Создай рекламное объявление для нового смартфона. 
Включи основные преимущества, цену и контактную информацию.
Размер объявления 200 символов.
Выбирай самое существенное из информации.
Вот информация о смартфоне:
... (технические характеристики)

Заключение

Искусство промптинга требует умения четко формулировать задачи, чтобы получить от языковых моделей наиболее релевантные и качественные ответы. Важно учитывать, что каждый элемент промпта играет свою роль: инструкция задает направление, контекст добавляет ясность, входные данные предоставляют необходимую информацию, а индикатор вывода определяет вид и формат результата. Освоение этих принципов позволяет максимально эффективно использовать возможности ИИ.

Кажется получилось неплохо. Такую вставку с примерами промптов я бы писал без чата гпт не 20 минут, а пару часов.

Не только чат и болталка

На самом деле большие языковые модели это не толко наш компаньон для чата, написания текстов и генерации идей.

Это способ автоматизировать различные бизнес-задачи.

Основная сила здесь - генерация рассуждений. Буквально на днях вышла модель O3 от Open-AI. Это языковая модель, вся генерация которой построена на воспроизведение человеческих рассуждений. И эта штука настолько хорошо рассуждает, что уже ворвалась в ТОП рейтинга мировых программистов - вошла в ТОП-200 рейтинга codeforces по решению задач спортивного программирования.

Кроме навыков чата во все большие языковые модели на этапе обучения с помощью всех трех этапов обучения закладывают навыки:

  • рассуждения
  • программирования и генерации кода (python, sql и др.)
  • вывода структурированных данных, например в форматах XML и JSON
  • генерации вызова рассуждений
  • ответа на основе приложенного контекста (те не из весов и "собственной памяти" моделей, а на основе предложенных в контексте текстов)
  • суммаризации текстов (выделение из длинного текста основных мыслей и краткой выжимки)
  • извлечения сущностей (извлекать из текста имена, адреса, действующих лиц, и др.)
  • понимать что от модели хотят по инструкции или по 1 или 2-5 примерам как надо.

С помощью этих навыков можно автомаизировать:

  • классификацию входящих текстов
  • выделение из текстов нужной информации
  • автоматическое заполнение различных форм, карточек на основе документов, расщифровок разговоров и др.
  • отвечать клиентам где их заказ в чате поддержки
  • отвечать на основе вашей базы знаний
  • и многое другое

Это собственно и делает большие языковые модели такими крутыми. Если раньше чтобы обучить модель искусственного ителлекта решать конкретную задачу, вам надо было собрать несколько тысяч и десятков тысяч примеров, а затем обучать небольшую модель на эту конкретную задачу.

Теперь мир изменился, вам не надо собирать тысячи обучающих примеров, достаточно написать понятную инструкцию, показать 1-3-5 примеров как надо и LLM начнет решать вашу задачу.

Но бесплатных завтраков не бывает... И такие модели имеют минусы. Прямо сейчас этих минусов в основном 3.

  • Это очень дорого. Сейчас вы можете использовать эти модели бесплатно, потому что кто-то (большие биг-тех компании) за это платят. Но если вы захотите это использовать в своем бизнесе - вам придется за это платить самим.
  • Это относительно долго. Иногда чтобы решить вашу задачу вам надо сделать не 1 вызов LLM на генерацию, а например 10 или 100 вызовов на каждую задачу. А это уже может занять 5 или 10 минут времени. А если таких задач надо решить 1000 за день, то это уже 5000 минут времени вычислений. И для этого биг техи строят большие датацентры и уже ведутся разговоры запускать для этих датацентров атомные электростанции. Т.к. пока вычисления очень энергозатратны. Может быть придет время и вычисляения станут дешевле или придумают новую архитектуру моделей, чтобы вычислений требовалось меньше...
  • Модели врут. Это называется галлюцинации. Внутри модели сидит алгоритм предсказания следующего слова на освное вероятностей. Это просто очень крутой Т9. И его обучали выдавать правдоподобные тексты с достоверно выглядящими рассуждениями, которые нравятся людям. И он это делает. Исследователи стараются подбирать обучающие данные так, чтобы это случалось пореже. Но условно в 5-15% случаев модель вам соврет. Она сгенерирует правдоподобный текст, содержащий ошибки или придуманные факты. Помните об этом. Поэтому генерацию модели лучше перепроверять. Или экспертом или моделью же. Но перепрверки моделью - это время и деньги, см. п. 1 и 2 этого списка.

Еще есть не минус, а ограничение - ограничение контекстного окна. Еще год-два назад у моделей было контекстное окно в 4 или 8 тысяч токенов. Если токен 3 символа, то это было 12000 символов или 24000 символов, что довольно много даже в таком виде - несколько страниц текста.

Сейчас модели научились работать с контекстным окном порядка 100 000 токенов или даже 1 млн токенов, что очень много. Но чем больше токенов вы используете, тем больше платить за вычисления.

Агенты на основе больших языковых моделей

Если убрать за скобки деньги и время, сейчас исследователи ведут модели к следующему прорывному использованию - Агентам.

Подробно в этой статье про агентов и агентность LLM говорить не будем. Про это будет отдельная статья. Но основную мысль покажу.

Если положиться на способность моделей генерировать рассуждения, проверять рассуждения, программный код и вызов инструментов, анализировать результаты поиска или выполненного кода, то мы можем создать программу, которорая инспектирует генерацию модели и выполняет то, что модель сказала сделать.

Тогда получаем следующий цикл.

  • Для модели делаем специальный системный промпт с описанием инструментов, которыми модель может пользоваться. Например модель может:
    • сгенерировать программный код для запуска внешней программой
    • вызвать поиск Google с каким-либо поисковым запросом
    • обратиться в базу данных за информацией или сгенерировать sql запрос для работы с базой
  • программа получает вводную задачу и передает ее в LLM
  • Большая языковая модель с этим специальным системным промптом видит задачу. Ей надо сгенерировать рассуждения - как эту задачу можно и нужно решать, какой информации не хватает. И надо решить какой шаг сделать. Модель генерирует рассуждения и шаг, например поискать в Гугле 3 запроса.
  • внешняя программа исполняет эти запросы и передает их обратно модели для анализа
  • модель анализирует полученные результаты, снова генерирует рассуждения, какие ей нужны действия, чтобы прийти к финальному результату, решающему поставленную задачу и снова генерирует вызов инструмента.
  • внешняя программа получает генерацию, исполняет все вызовы инструментов и снова передает результат модели для анализа и генерации следующих шагов.
  • и так далее пока модель не придет к финальному резултату.

Это мы описали пдход ReAct - Reasoning-Acting или Рассуждение-Действие. Пока это долго и дорого. Но в целом для многих задач приемлемо. А если вместо поиска гугла и sql прикрутить управление бовеыми дронами, получим Скайнет на минималках. Я думаю Американские военные коллеги уже что-то такое мутят.

А еще в агентах можно сделать не адного агента с Re-Act, а не несколько десятков и с разными инструментами, ролями, системными промптами, модеоями промптинга внутри цикла.

Например я видел на одной из закрытых презентаций браузерную игру, полностью написанную агентами. Точно не помню всех агентов, но в процессе работы были LLM-агента в ролях:

  • продуктолога
  • бэкенд разработчика
  • фронтент разработчика
  • тестировщика
  • веб дизайнера
  • гейм дизайнера

Модель использовалась мультимодальная, которая кроме текстов еще и картинки умеет анализировать (про такие модели также сделаю статью). И весь этот конгломерат агентов вызывал друг-друга как инструменты, анализирвал результат до тех пор, пока продуктолог не решил что игра написана и готова.

Это было по вычисления долго и дорого. Но в целом уже возможно.

Ждем научных прорывов

Раз у нас появились агенты и есть вычислительные мощности, а модели могут генерировать рассуждения и анализировать результаты, то мы можем использовать их нечелоческие возможности.

Если один живой ученый может ставить 1 эксперимент в день, то сделав LLM агента, мы можем запустить 10000 его копий на кластере и получить 10000 экспериментов в день с анализом их результатов, которые следующие 10000 агентов просмотрят выберут каждый лучший на свой взгляд или ТОП 10 направлений и поставят следующие 10000 экспериментов за следующий день.

И так за месяц мы сможем пройти научный путь, для которого обычным людям могло бы понадобиться пара столетий.

Остается тут ровно одна проблема - то что оцифровано можно так параллелить в тысячи параллельных цепочек рассуждений и экспериментов. А вот то что требует офлайн действий и экспериментов пока еще нет.

Но наука оцифровывается быстро. Так что ждем научных прорывов.

Резюме

Осваивайте эти болталки в виде чат-ботов и больших языковых моделей. Современное человечество уже научилось прикручивать к ним картинки и видео, использовать их как интеллект для генерации решений. И осталось только удешевить вычисления.

Так есть в них Интеллект? Они думают, чувствуют? Они живые? Они хотят захватить мир?

  • интеллект в них есть на уровне генерации текстов. Они создают тексты, которые выгядят как тексты созданные людьми. У них нет другого способа думания, кроме генерации текстов.
  • Они не думают, не чувствуют и не живые. Это просто алгоритм предсказывающий вероятность следующего слова в длинном тексте. А уже сгенерированные тексты люди или другие программы могут и будут использовать для своих целей.
  • Они не хотят захватить мир, но это смотря какой промпт им задать, какие инструменты дать агенту и насколько жестко делать alignment (внедрять этику и правила). Но они мощный инструмент - в руках добрых для добра и защиты, в руках злодеев для злых дел.

Я думаю, это ключевая технология ближайших пары десятилетий, вокруг которой будет много строиться и проникновение которой в нашу офлайновую жизнь будет существенно все вокруг менять.