AIRI выпустила компактные модели OCC-RAG. Маленький размер, большой ум
Автор videokarta-gigabyte.ru, 19/06/2026
Российский институт AIRI представил семейство языковых моделей OCC-RAG - компактных, но неожиданно цепких в работе с контекстом. Модели объёмом 0,6 и 1,7 миллиарда параметров обходят конкурентов, которые в два-шесть раз крупнее. Главная ставка - не энциклопедические знания, а способность думать над тем, что написано прямо перед тобой.
Против течения: зачем делать маленькое, если все делают большое
Гонка масштабов в мире языковых моделей давно стала нормой. Каждое новое поколение тяжелее предыдущего - больше параметров, больше «запомненных» фактов. Команда Optimal Cognitive Core пошла в другую сторону. Их логика проста: огромный пласт реальных задач не требует ходячей энциклопедии. Нужен аналитик, который разберётся в документе, лежащем прямо перед ним. Эквадор - Германия 3 тур
Именно эту нишу закрывает OCC-RAG. Первая модель семейства заточена под контекстный вопрос-ответ: пользователь подаёт текст - отчёт, инструкцию, выписку из базы знаний - и задаёт вопрос. Модель обязана отвечать строго по источнику, не подмешивая собственную «память».
Почему верность контексту - это больная точка даже гигантов
Проблема куда острее, чем кажется. Крупные модели склонны доверять параметрической памяти сильнее, чем тексту в контексте. На каверзных примерах это проявляется наглядно: если в переданном документе написано нечто, противоречащее общеизвестному факту, модель нередко игнорирует источник и отвечает «по памяти». Команда AIRI проверила это на конкретном сценарии с заведомо ложным утверждением в контексте. Результат показателен:
- Llama-3.3-70B корректно следовала контексту
- Llama-3-8B уходила в параметрическую память
- Llama-3.2-1B откровенно галлюцинировала
- OCC-RAG-1.7B держалась контекста - как крупная faithful-модель
Это не единственная точка уязвимости. Сложнее всего моделям даются так называемые multi-hop вопросы - когда ответ нужно собрать из нескольких фрагментов, сцепив факты в логическую цепочку. И ещё один камень преткновения - калиброванный отказ: честно сказать «в контексте ответа нет», вместо того чтобы выдумать что-то правдоподобное.
Как устроен рецепт: данные, формат, обучение
Основа системы - массивный синтетический корпус, сгенерированный по графу знаний. Граф строится из реальных текстов: факты кодируются в виде троек «сущность - отношение - сущность», а вопросы составляются по путям между узлами. Такой подход позволяет заранее знать правильный ответ - он фиксируется структурой пути, а не выходом генератора. Это снимает главную головную боль: проверить сложный вопрос так же сложно, как сгенерировать. Здесь этой проблемы нет.
Вопросы охватывают несколько уровней сложности - от простых однофактных до многоступенчатых цепочек с дополнительными условиями и ограничениями. Отдельно готовились примеры с намеренно урезанным контекстом: модель должна уметь отказаться от ответа, когда нужной информации попросту нет. Проверял это экстрактивный классификатор на базе DeBERTa.
Оба чекпойнта - OCC-RAG-0.6B и OCC-RAG-1.7B - уже доступны на Hugging Face, включая ONNX- и GGUF-сборки для локального развёртывания. По верности контексту модели показывают лучший результат среди всех решений до 32 миллиардов параметров. Цифра, которую сложно проигнорировать.
Что это значит на практике
Для корпоративных сценариев - внутренние документы, финансовые отчёты, базы знаний - подобные модели закрывают конкретную боль: ответ, основанный на устаревшей памяти модели, может стоить дорого. OCC-RAG принципиально отказывается от этого сценария. Размер позволяет разворачивать её на скромном железе, а качество удерживается на уровне, который раньше требовал куда более тяжёлых архитектур. Компактность здесь - не компромисс, а осознанная конструкция.