Время прочтения: 18 минут
Какие базы данных используются для ИИ
База данных для обучения ИИ vs база данных для RAG
Базы данных для RAG: как ИИ-агент находит и использует данные
Требования к данным и знаниям компании: что должно быть в базе, чтобы ИИ не галлюцинировал
Безопасность и развёртывание базы данных для корпоративного ИИ
Экосистема Minervasoft: база знаний + умный поиск + аудит данных
Заключение
Какие базы данных используются для ИИ
Сценарий № 1: данные для обучения модели
Сценарий № 2: данные для работы уже обученной модели
Типы хранилищ, которые используют в ИИ-сценариях
База данных для обучения ИИ vs база данных для RAG
- задача требует глубокой специализации в узкой предметной области, с нестандартной терминологией, которой нет в обучающих данных публичных моделей;
- критичны ограничения по задержке и размеру модели для локальной обработки на устройстве;
- необходим полный контроль над архитектурой и весами модели по регуляторным причинам или соображениям безопасности.
Базы данных для RAG: как ИИ-агент находит и использует данные
Пайплайн обработки запроса при RAG
- Исходные документы извлекаются из хранилища и проходят предобработку: очистку форматирования, оптическое распознавание текста для сканов, структурный разбор таблиц.
- Документы разбиваются на фрагменты. Как правило, это 256–1 024 токена с перекрытием в 10–20% для сохранения контекста на границах фрагментов.
- Каждый фрагмент преобразуется в векторное представление с помощью модели векторизации.
- Векторное представление вместе с метаданными (идентификатор документа, дата, раздел, автор, права доступа) сохраняется в векторной базе данных.
- Запрос пользователя преобразуется в векторное представление той же моделью векторизации, что использовалась при индексации.
- В векторной базе данных для ИИ выполняется поиск ближайших соседей — находятся фрагменты с максимальной смысловой близостью к запросу.
- Результаты фильтруются по метаданным: правам доступа пользователя, временному диапазону, типу документа.
- Отобранные фрагменты формируют контекст, который передаётся модели вместе с запросом и системными инструкциями.
- Большая языковая модель (LLM) формирует ответ, опираясь на предоставленный контекст.
- Ответ возвращается пользователю вместе со ссылками на исходные документы.
Требования к базе данных для RAG и корпоративного ИИ-агента
Требования к знаниям компании: что должно быть в базе, чтобы ИИ не галлюцинировал
Актуальность
Конкретика вместо общих формулировок
Понятная структура документа
Наличие контекста и связей
Машиночитаемые таблицы и изображения
- Для встроенных фрагментов страницы — описанием содержимого.
- Для таблиц — текстовой расшифровкой ключевых строк и столбцов.
- Для изображений и сканов — качественным распознаванием текста или исходным текстовым документом.
Термины и права доступа
- Готовность к применению ИИ. Анализ имеющихся данных на предмет их структурной организованности и понятности с точки зрения алгоритмов искусственного интеллекта и машинного обучения.
- Культура менеджмента знаний. Воспринимают ли сотрудники базу знаний как рабочий инструмент, насколько стабильно они обращаются к ней в ежедневной работе и какие системные проблемы мешают более широкому использованию знаний в компании.
- Качество знаний. Насколько полно знания покрывают ключевые сценарии, насколько регулярно обновляются критичные материалы и где находятся основные проблемные зоны в содержании базы.
- Пользовательский опыт работы со знаниями. Насколько легко пользователям найти нужную информацию, как устроена навигация и поиск, нет ли барьеров, связанных с интерфейсом, функционалом платформы или ограничениями доступа.
Большинство компаний, которые приходят к нам перед внедрением ИИ-ассистента, искренне убеждены, что с их данными всё в порядке. Документы есть, база знаний есть. Но когда мы начинаем аудит, выясняется, что значительная часть этих документов либо устарели, либо дублируют друг друга с расхождениями, либо существуют только в головах конкретных сотрудников и нигде не зафиксированы.
Проблема не в том, что компании не хотят порядка в знаниях. Проблема в том, что без внешнего давления — регуляторного, технологического или конкурентного — этот порядок не возникает сам по себе. Внедрение ИИ становится таким давлением: оно делает видимыми все накопленные за годы проблемы с данными и создаёт реальный стимул их решить.
Безопасность и развёртывание базы данных для корпоративного ИИ
Ролевая модель доступа и фильтрация по правам
Локальное развёртывание и закрытый контур
Как экосистема Minervasoft помогает подготовить качественного ИИ-ассистента
Заключение