Главная
AIRI
AIRI выпустила компактные модели OCC-RAG. Маленький размер, большой ум

AIRI выпустила компактные модели OCC-RAG. Маленький размер, большой ум

Автор videokarta-gigabyte.ru, 19/06/2026

Российский институт AIRI представил семейство языковых моделей OCC-RAG - компактных, но неожиданно цепких в работе с контекстом. Модели объёмом 0,6 и 1,7 миллиарда параметров обходят конкурентов, которые в два-шесть раз крупнее. Главная ставка - не энциклопедические знания, а способность думать над тем, что написано прямо перед тобой.

Против течения: зачем делать маленькое, если все делают большое

Гонка масштабов в мире языковых моделей давно стала нормой. Каждое новое поколение тяжелее предыдущего - больше параметров, больше «запомненных» фактов. Команда Optimal Cognitive Core пошла в другую сторону. Их логика проста: огромный пласт реальных задач не требует ходячей энциклопедии. Нужен аналитик, который разберётся в документе, лежащем прямо перед ним. Эквадор - Германия 3 тур

Именно эту нишу закрывает OCC-RAG. Первая модель семейства заточена под контекстный вопрос-ответ: пользователь подаёт текст - отчёт, инструкцию, выписку из базы знаний - и задаёт вопрос. Модель обязана отвечать строго по источнику, не подмешивая собственную «память».

Почему верность контексту - это больная точка даже гигантов

Проблема куда острее, чем кажется. Крупные модели склонны доверять параметрической памяти сильнее, чем тексту в контексте. На каверзных примерах это проявляется наглядно: если в переданном документе написано нечто, противоречащее общеизвестному факту, модель нередко игнорирует источник и отвечает «по памяти». Команда AIRI проверила это на конкретном сценарии с заведомо ложным утверждением в контексте. Результат показателен:

Llama-3.3-70B корректно следовала контексту
Llama-3-8B уходила в параметрическую память
Llama-3.2-1B откровенно галлюцинировала
OCC-RAG-1.7B держалась контекста - как крупная faithful-модель

Это не единственная точка уязвимости. Сложнее всего моделям даются так называемые multi-hop вопросы - когда ответ нужно собрать из нескольких фрагментов, сцепив факты в логическую цепочку. И ещё один камень преткновения - калиброванный отказ: честно сказать «в контексте ответа нет», вместо того чтобы выдумать что-то правдоподобное.

Как устроен рецепт: данные, формат, обучение

Основа системы - массивный синтетический корпус, сгенерированный по графу знаний. Граф строится из реальных текстов: факты кодируются в виде троек «сущность - отношение - сущность», а вопросы составляются по путям между узлами. Такой подход позволяет заранее знать правильный ответ - он фиксируется структурой пути, а не выходом генератора. Это снимает главную головную боль: проверить сложный вопрос так же сложно, как сгенерировать. Здесь этой проблемы нет.

Вопросы охватывают несколько уровней сложности - от простых однофактных до многоступенчатых цепочек с дополнительными условиями и ограничениями. Отдельно готовились примеры с намеренно урезанным контекстом: модель должна уметь отказаться от ответа, когда нужной информации попросту нет. Проверял это экстрактивный классификатор на базе DeBERTa.

Оба чекпойнта - OCC-RAG-0.6B и OCC-RAG-1.7B - уже доступны на Hugging Face, включая ONNX- и GGUF-сборки для локального развёртывания. По верности контексту модели показывают лучший результат среди всех решений до 32 миллиардов параметров. Цифра, которую сложно проигнорировать.

Что это значит на практике

Для корпоративных сценариев - внутренние документы, финансовые отчёты, базы знаний - подобные модели закрывают конкретную боль: ответ, основанный на устаревшей памяти модели, может стоить дорого. OCC-RAG принципиально отказывается от этого сценария. Размер позволяет разворачивать её на скромном железе, а качество удерживается на уровне, который раньше требовал куда более тяжёлых архитектур. Компактность здесь - не компромисс, а осознанная конструкция.