RAG: как ИИ отвечает по вашим документам, а не выдумывает

Ваши менеджеры тратят по 3-4 часа в день на поиск ответов в документах. Клиент спрашивает про условия возврата - менеджер открывает пять папок, ищет нужный PDF, пересылает скриншот. Половина вопросов теряется, ответы задерживаются, клиенты уходят. RAG - это технология, которая заставляет ИИ отвечать только на основе ваших документов, а не выдумывать. Без программиста, за вечер.

Разберём на примере стройфирмы: у вас есть прайс на работы, типовой договор подряда, инструкции по монтажу. Клиент пишет в чат: «Сколько стоит установка окна и какой срок гарантии?» - ИИ находит ответ в ваших документах и выдаёт точную цифру. Никаких галлюцинаций. Это пример, а не реальный кейс автора.

Почему просто загрузить документы в ИИ не работает

Вы пробовали загружать PDF в ChatGPT и задавать вопросы? Иногда он отвечает верно, иногда выдумывает. Потому что модель не ищет в вашем файле - она просто вспоминает похожие тексты из своего обучения. Если в документе сказано «гарантия 2 года», а модель «помнит», что обычно дают 1 год - она может ответить неверно.

RAG решает эту проблему. Он работает как библиотекарь: сначала находит в ваших документах нужный кусок текста, а потом передаёт его ИИ для формулировки ответа. ИИ не может выдумать - он видит только то, что вы дали.

Вот три причины, почему простая загрузка документов не годится для бизнеса:

Потеря контекста. Документы большие. Если загрузить целиком договор на 50 страниц, модель запутается в деталях.
Разные форматы. У вас PDF, DOCX, Excel, сканы - модель не умеет одинаково хорошо читать всё.
Устаревшие данные. Если документ обновился, а старый остался в чате - модель может взять не ту версию.

RAG решает все три проблемы: он ищет только релевантные куски, понимает разные форматы и всегда использует свежие версии, если вы их загрузили.

Как устроен RAG: четыре шага без сложных терминов

RAG - это не магия, а последовательность из четырёх шагов. Чтобы вы понимали, как он работает, даже если никогда не писали код.

Шаг 1. Превращение текста в числа (embedding)

ИИ не понимает слова - он понимает числа. Каждый кусок вашего документа (например, абзац про гарантию) превращается в длинный список чисел - вектор. Похожие по смыслу тексты дают похожие векторы. «Гарантия 2 года» и «срок гарантии 24 месяца» будут рядом. Это делает специальная модель-энкодер - например, от OpenAI. Вам не нужно её настраивать - она уже готова.

Шаг 2. Хранение векторов в базе (векторная БД)

Вы не будете каждый раз заново превращать документы в числа. Векторная база данных (Pinecone, Chroma, pgvector) хранит эти векторы и умеет быстро искать похожие. Когда вы загружаете документы, они нарезаются на куски по 200-1000 символов, каждый кусок превращается в вектор и сохраняется. Это как библиотека, где у каждой книги есть точные координаты.

Шаг 3. Поиск нужного куска (retrieval)

Когда клиент задаёт вопрос, система делает две вещи: превращает вопрос в вектор (тем же энкодером) и идёт в базу данных с запросом: «Найди 5 кусков, которые ближе всего по смыслу». База возвращает не векторы, а исходные тексты этих кусков. Например, на вопрос «какая гарантия?» она найдёт абзац из договора про гарантийные обязательства.

Шаг 4. Генерация ответа

Теперь у ИИ есть вопрос и несколько кусков из ваших документов. Он получает инструкцию: «Ответь, используя только эти тексты. Если ответа нет - скажи, что не знаешь». Модель читает куски и формулирует ответ своими словами, но строго по фактам. Никаких выдумок.

В реальности это выглядит так: клиент пишет «Сколько стоит установка окна?» - система находит в прайсе строку «Установка окна - 5000 руб.» и отвечает: «Установка окна стоит 5000 рублей». Всё. Без RAG модель могла бы сказать «около 3000» или «зависит от региона».

RAG без кода: три инструмента для предпринимателя

Вам не нужен программист. Есть три готовых сервиса, которые делают RAG за вас. Вы просто загружаете документы и задаёте вопросы.

Notion AI - если вы уже храните документы в Notion

Notion AI умеет искать ответы по вашим страницам. Включите функцию «Answer questions» в настройках рабочего пространства - и в любой странице появится кнопка «Ask AI». Задаёте вопрос - ИИ ищет ответ в текущей странице и связанных блоках.

Практический совет: создайте страницу-каталог «База знаний», где каждый документ (прайс, договор, инструкция) размещён отдельным блоком с меткой #doc. В настройках включите «Include linked pages». Теперь любой запрос к этой странице будет искать по всем документам. Если хотите глубже - добавьте в запрос «Сравни условия гарантии в договоре от 2023 и 2024».

Perplexity Spaces - для разрозненных файлов

Perplexity Spaces превращает набор файлов в «мозговой центр». Заходите в Spaces, нажимаете «Create Space», загружаете PDF, DOCX, CSV или изображения. Система автоматически индексирует всё и создаёт поисковую базу.

Ключевая возможность: вы можете задавать вопросы в чате внутри Space, и ИИ будет отвечать только по загруженным материалам. Если нужно сравнить два документа - загрузите их в один Space и спросите «В чём различия между договором А и договором Б?». Ответ будет содержать ссылки на оригинальные фрагменты - можете проверить.

Для команды включите «Collaboration mode» - каждый участник видит общие запросы и ответы. Удобно для совместного анализа отчётов или аудита.

ChatGPT Files - для быстрых одноразовых запросов

В ChatGPT есть кнопка «Upload file». Загрузите PDF, Word, Excel или текстовый файл. После загрузки появится сообщение «File received». Теперь задавайте вопросы:

«Сделай краткое резюме этого отчёта»
«Найди все упоминания KPI в таблице»
«Переведи раздел 3 на английский»

ChatGPT умеет извлекать таблицы и даже строить графики по запросу «Построй график продаж за 2023 год». Если у вас несколько файлов - объедините их в ZIP и загрузите одним архивом. После этого задавайте вопросы, указывая имя файла внутри архива.

Что выбрать:

Notion AI - если документы уже структурированы в Notion.
Perplexity Spaces - если нужно быстро собрать разрозненные файлы в одну базу.
ChatGPT Files - для разовых запросов к конкретным документам.

Комбинируйте: храните «живую» базу в Notion, периодически выгружайте её в Perplexity для глубокой аналитики, а отдельные отчёты обрабатывайте через ChatGPT. Всё без программиста.

Low-code RAG: когда нужно больше контроля

Если готовые сервисы не дают нужной гибкости (например, нужно подключить свою CRM или настроить фильтры), используйте визуальные конструкторы. Они позволяют собрать RAG-систему без написания кода, перетаскивая блоки.

Какие платформы подходят:

Microsoft Power Platform (Power Automate + AI Builder) - если вы уже в экосистеме Microsoft.
Retool - подключает Python-модули через «Custom Code», но всё управляется визуально.
Streamlit Cloud - по сути low-code: шаблоны позволяют собрать приложение за пару часов.

Как это работает на примере стройфирмы:

Подготовка данных. Сохраните документы в облачном хранилище (OneDrive, Google Drive). Создайте таблицу метаданных: id, путь к файлу, тип документа, дата.
Индексация. В конструкторе добавьте блок «LlamaIndex - Create Index». Укажите модель эмбеддингов (например, text-embedding-ada-002 от OpenAI) и размер куска (500-800 символов - оптимально для сохранения контекста). На выходе получите индекс - его сохраните для запросов.
Запросы. Добавьте блок «LangChain - RetrievalQA». Укажите индекс из предыдущего шага, языковую модель (gpt-4o-mini или Claude 3 Haiku) и промпт:

Ты - помощник, отвечающий на вопросы по документам компании.
Используй только информацию из предоставленных фрагментов.
Вопрос: {question}

Фильтры. Если нужно искать только по договорам, добавьте фильтр metadata.type = "contract". В конструкторе это настраивается как дополнительный параметр.
Тестирование. Задайте три вопроса: простой (ответ в одном абзаце), составной (нужно соединить два факта), вопрос без ответа. Проверьте, что ответы берутся из документов, а не выдумываются.
Запуск. Экспортируйте приложение как веб-сервис. Большинство конструкторов дают публичный URL и API-ключ. Подключите к вашему чат-боту в Telegram или на сайте.
Обновление. Настройте ежедневное обновление индекса - добавьте блок «Scheduled Trigger», который повторяет загрузку и индексацию.

Всё это без единой строки кода. Вы просто перетаскиваете блоки и настраиваете параметры.

Какую векторную базу данных выбрать

Векторная база данных - это хранилище для «переведённых» в числа кусков документов. От неё зависит скорость и точность поиска. Три главных варианта для не-программиста: Pinecone, Chroma и pgvector.

Pinecone - облачный сервис «из коробки»

Вы платите подписку и ничего не настраиваете. Pinecone сам масштабируется, делает резервные копии, обновляется. Идеально, если не хотите лезть в серверные настройки. Минус - цена. На малых объёмах (до 100 тысяч векторов) Pinecone дороговат, на больших - очень дорог. Если бюджет позволяет - берите Pinecone. Если проект на старте - присмотритесь к другим.

Chroma - бесплатная локальная база

Chroma живёт на вашем компьютере или сервере. Бесплатно, open-source, ставится одной командой. Для тестов и прототипов незаменима: скачали документы, запустили - и RAG уже работает. Но есть нюанс: Chroma не умеет нормально работать 24/7 с кучей пользователей. При высоких нагрузках тормозит, при сбое можно потерять данные, если не настроили бэкапы. Итог: Chroma для изучения, домашних проектов и MVP (минимально жизнеспособного продукта). Для боевой среды - только если данных и пользователей очень мало.

pgvector - для тех, у кого уже есть PostgreSQL

pgvector - это расширение для обычной базы данных PostgreSQL. Если у вас уже есть PostgreSQL (а он есть у 90% проектов), вы просто добавляете одну строчку в настройки и получаете векторный поиск внутри знакомой базы. Не нужно заводить новый сервис, платить за него, учить новые API. pgvector медленнее Pinecone на больших объёмах (миллионы векторов), но для типичных бизнес-задач (сотни тысяч документов) его скорости хватает. Главный плюс - надёжность: PostgreSQL десятилетиями держит данные в целости. Минус - сложность настройки индексов. Но эту настройку сделает любой знакомый с базами данных специалист за 15 минут.

Как выбрать конкретно вам:

Хотите забыть про администрирование и готовы платить - Pinecone.
Делаете тест на своём ноутбуке - Chroma.
У вас уже есть PostgreSQL или вы строите серьёзный продукт с нуля - pgvector. Он даст 90% функциональности Pinecone за 10% цены.

Помните: для RAG важнее не сама база данных, а качество векторов - как вы нарезали документы и какой моделью их превратили в числа. База данных - это просто полка. Хорошая полка не спасёт плохую книгу.

Почему качество разбивки документов важнее модели

Разбивка документов на куски (чанкинг) - самый важный этап. Если сделали плохо - никакая крутая модель не спасёт.

Проблема 1. Слишком мелкие куски. Если резать по 100 символов, теряется контекст. Например, фраза «гарантия не распространяется» без предыдущего предложения может быть понята как «гарантия есть». Итог - неверный ответ.

Проблема 2. Слишком крупные куски. Если кусок размером с главу (5000 символов), модель может не найти в нём нужную деталь. Поиск станет неточным.

Проблема 3. Игнорирование структуры. Если в документе есть заголовки и подзаголовки, их нужно сохранять. Иначе модель не поймёт, что «раздел 3» относится к гарантии, а «раздел 4» - к доставке.

Как настроить разбивку без программиста:

В большинстве инструментов (Notion AI, Perplexity, конструкторы) есть параметр «chunk size» - размер куска. Для типичных бизнес-документов оптимально 500-800 символов. Если документы технические (с таблицами и списками) - попробуйте 300-500. Если это длинные статьи без структуры - 800-1000.

Также обратите внимание на перекрытие (overlap) - когда концы кусков повторяются. Это помогает не потерять смысл на стыках. Обычно ставят 10-20% от размера куска.

Простой тест за 5 минут:

Возьмите документ с чёткой структурой (например, договор). Разбейте его вручную на куски разного размера и задайте системе вопрос, ответ на который находится на стыке двух кусков. Например: «Какие штрафы за просрочку поставки, если в договоре сказано, что поставка в течение 10 дней, а штраф - 0.1% за каждый день просрочки?» Если ответ неполный - разбивка настроена плохо.

Как проверить, что RAG не врёт: простые тесты

RAG не думает - он собирает кусочки документов и склеивает их в ответ. Если сборка пошла не так, вы получаете уверенную ложь. Вот три главные проблемы и способы их обнаружить.

Проблема 1: Галлюцинации на пустом месте. Система не нашла нужной информации, но вместо честного «не знаю» придумала ответ. Как поймать: задайте вопрос, на который в ваших документах точно нет ответа. Например, спросите про дату основания компании, если в документах только технические спецификации. Если RAG выдаёт красивую дату - он врёт. Хорошая система скажет: «В предоставленных документах эта информация отсутствует».

Проблема 2: Ответ из неверного контекста. Система нашла документ, но вытащила из него не тот абзац. Пример: вы спрашиваете про условия возврата товара, а RAG отвечает цитатой из раздела про гарантию. Как поймать: всегда просите систему показывать источники. Если в ответе есть ссылка на конкретный документ и абзац, проверьте - действительно ли там написано то, что вам ответили. Если ссылка ведёт в никуда или на другой раздел - качество хромает.

Проблема 3: Перекос из-за плохой разбивки. Документы режут на куски, и если кусок слишком мал, теряется смысл. Слишком велик - система тонет в шуме. Как поймать: задайте вопрос, который требует соединения информации из двух абзацев. Например: «Какие действия нужно выполнить после получения товара, если он повреждён?» Если ответ упускает половину шагов - разбивка документов настроена плохо.

Простой тест за 5 минут. Возьмите три вопроса: простой (ответ в одном абзаце), составной (нужно соединить два факта), вопрос без ответа. Задайте их системе. Запишите, показала ли она источники, совпал ли ответ с документами, призналась ли в незнании. Повторите три раза. Если хотя бы в одном случае система уверенно врёт - нужна настройка.

Как улучшить без программирования. Первое: проверьте, какие документы загружены. Если там мусор или устаревшие версии, RAG будет врать качественно. Второе: перепишите сложные вопросы проще. Если система путается в длинном запросе, разбейте его на два. Третье: добавьте в начало каждого документа краткое резюме - что это за файл и о чём он. Это помогает системе не промахиваться с контекстом.

Главный признак вранья. Если ответ звучит слишком гладко, обобщённо и без конкретных цифр или названий из ваших документов - скорее всего, это галлюцинация. Реальный ответ RAG всегда цепляется за детали: даты, имена, артикулы. Нет деталей - нет фактов.

Реальный кейс: как RAG спас стройфирму от хаоса с документами

Разберём на примере стройфирмы (вымышленный сценарий). У компании 200 сотрудников: отдел продаж, проектировщики, монтажники, бухгалтерия. Накопилось 5000 документов: прайсы, договоры, инструкции по монтажу, акты выполненных работ, переписка с юристами. Информация разбросана по папкам, почте и корпоративному порталу. Новый менеджер тратит недели на поиск ответов. Опытные сотрудники пересылают друг другу скриншоты из старых писем.

Внедрили RAG на базе Claude через Perplexity Spaces - без программирования, загрузили файлы через веб-форму. Вот что получилось.

Ситуация 1: «Где написано про порядок согласования договоров с юристами?»

Раньше: звонок юристу, ожидание ответа, пересылка PDF. С RAG: сотрудник печатает вопрос в чат. Система находит три релевантных документа: внутренний регламент от 2022 года, памятку для отдела продаж и письмо с разъяснением от юротдела. Ответ формируется за 4 секунды. Точность - 90% на первых запросах, после дообучения на обратной связи - 97%.

Ситуация 2: «Клиент спрашивает про гарантию на оборудование, выпущенное до 2019 года»

Менеджер по продажам вводит запрос. RAG извлекает фрагменты из трёх разных документов: старый каталог продукции, архивное письмо от производителя и внутреннюю инструкцию по работе с гарантийными случаями. Система собирает ответ: «Для оборудования до 2019 года гарантия действует только при наличии акта ввода в эксплуатацию. Исключение - модели серии X, для них гарантия 5 лет с даты отгрузки». Менеджер копирует ответ клиенту. Время поиска - 10 секунд вместо 20 минут.

Ситуация 3: «Новый сотрудник не знает, как оформить заявку в IT-отдел»

Стажёр пишет вопрос. RAG находит не только инструкцию по заполнению заявки, но и шаблон в Word, и ссылку на портал. Система выдаёт пошаговый алгоритм с номерами телефонов ответственных лиц. Стажёр выполняет задачу без помощи коллег.

Результаты через месяц:

Время поиска информации сократилось с 15 минут до 15 секунд.
Количество внутренних пересылок писем с вопросами упало на 60%.
Отдел продаж стал обрабатывать на 30% больше заявок без найма новых людей.
Юристы перестали отвечать на одни и те же вопросы по 10 раз в день.

Что важно: RAG не заменяет экспертов. Он берёт на себя рутину - поиск и компиляцию фактов. Сотрудники тратят время на анализ и принятие решений, а не на раскопки в документах. Система работает на тех же документах, которые уже есть в компании. Не нужно ничего переписывать, структурировать или переводить в единый формат. Просто загрузили файлы - и готово.

Ограничение: RAG не понимает контекст, который не описан в документах. Если в компании есть неписаные правила или устные договорённости, их нужно добавить в базу знаний отдельно. Иначе система выдаст формально правильный, но практически бесполезный ответ.

Частые вопросы

RAG и fine-tuning - в чём разница?

RAG и fine-tuning - это два разных подхода. Fine-tuning - это дообучение модели на ваших данных. Он требует больших вычислительных ресурсов и специалистов. RAG - это надстройка, которая подключает к модели вашу базу знаний. RAG не требует дообучения, работает сразу после загрузки документов и легко обновляется. Для малого и среднего бизнеса RAG - единственный практичный вариант.

Сколько документов можно добавить?

Ограничения зависят от выбранного векторного хранилища. Большинство сервисов позволяют хранить от десятков тысяч до нескольких миллионов векторов. При типичном размере документа 5 КБ это соответствует от 50 000 до 2 000 000 документов. Если нужно больше - можно масштабировать, добавив дополнительные узлы.

RAG работает с русскоязычными документами?

Да. Современные модели (Claude, GPT-4) поддерживают русский язык. Вы можете загружать любые русскоязычные документы - PDF, DOCX, TXT. Ответы будут на русском без потери качества.

Нужен ли GPU для запуска RAG?

Нет, если вы используете облачные сервисы (Pinecone, Perplexity, ChatGPT). Всё вычисление происходит в облаке. GPU понадобится только если вы решите запускать собственную модель локально - тогда нужен современный ускоритель минимум с 8 ГБ видеопамяти.

Чем RAG отличается от простой загрузки файла в ChatGPT?

При простой загрузке ChatGPT видит статический текст и отвечает, опираясь на свои знания. RAG при каждом запросе динамически ищет в ваших документах релевантные фрагменты и использует их как контекст. Это обеспечивает актуальные и точные ответы, даже когда в базу добавляется новая информация.

Что делать завтра

Выберите инструмент. Если документы в Notion - включите Notion AI. Если файлы разрознены - загрузите их в Perplexity Spaces. Если нужно быстро проверить один документ - используйте ChatGPT Files.
Загрузите 3-5 ключевых документа. Не надо загружать всё сразу. Возьмите прайс, типовой договор, инструкцию. Протестируйте на трёх вопросах.
Проверьте качество. Задайте вопрос без ответа в документах - система должна сказать «не знаю». Задайте составной вопрос - ответ должен быть полным.
Внедрите в работу. Поделитесь ссылкой с менеджерами. Попросите их задавать вопросы через этот инструмент в течение недели. Собирайте обратную связь.
Масштабируйте. Добавьте остальные документы. Настройте регулярное обновление. Если нужно подключить к CRM или чат-боту - используйте low-code конструкторы (Retool, Power Automate).

Весь процесс - от загрузки первого документа до первого ответа - занимает 2-8 часов. Без программиста, без курсов, без бюджета на разработку.

AI Компас (t.me/kosmoslab_ai) - канал для предпринимателей в РФ и СНГ, которые применяют AI в своём бизнесе без программиста. Разбираем инструменты и схемы - без курсов и теории.