Компания VK (ранее Mail.ru Group) выложила в открытый доступ новую версию нейросетевой модели RuModernBERT, предназначенную для обработки разговорного и письменного русского языка. Эта разработка позволяет эффективно анализировать длинные тексты, понимать сложные запросы и улучшать поисковые системы без необходимости подключения к внешним API.
Что умеет RuModernBERT?
RuModernBERT — это модернизированная языковая модель на основе архитектуры BERT, оптимизированная для работы с естественным русским языком. Её ключевые возможности:
✅ Обработка длинных текстов (до 8 192 токенов) без разбиения на фрагменты.
✅ Поддержка разговорной речи — понимает сленг, неформальные выражения и контекст.
✅ Локальное исполнение — не требует внешних API, снижая нагрузку на серверы.
✅ Ускоренная обработка — работает в 2–3 раза быстрее аналогов на длинных текстах.
✅ Гибкость настроек — доступны версии на 150 млн и 35 млн параметров для разных задач.
Модель уже интегрирована в сервисы VK, включая поиск, рекомендательные системы и анализ пользовательского контента.
Обучение и возможности модели
RuModernBERT обучалась на 2 трлн токенов данных, включая:
- Книги и статьи
- Посты и комментарии из соцсетей
- Программный код (для универсальности)
Такой разнообразный набор данных позволяет модели корректно работать с:
🔹 Поисковыми запросами (включая сложные и многословные)
🔹 Анализом тональности (определение эмоций в тексте)
🔹 Кластеризацией информации (группировка похожего контента)
Дополнительные версии: USER и USER2
Помимо основной модели, VK представила две специализированные версии:
- USER — улучшенный алгоритм для группировки данных.
- USER2 — технология сжатия информации без потери точности, что ускоряет обработку.
Преимущества перед аналогами
По данным VK, RuModernBERT превосходит существующие решения по нескольким параметрам:
🚀 На 10–20% быстрее в обучении и развертывании.
📊 Лучше справляется с длинными контекстами (документы, диалоги).
🔍 Точнее распознает смысл даже в неформальных текстах.
Модель уже тестируется в поиске VK, рекомендательных алгоритмах и чат-ботах, обрабатывая миллионы запросов ежедневно.
Перспективы использования
Разработчики могут применять RuModernBERT для:
- Улучшения поиска в приложениях и на сайтах
- Анализа отзывов и комментариев (например, для маркетинговых исследований)
- Автоматической модерации контента
- Чат-ботов и голосовых ассистентов с улучшенным пониманием речи
Где скачать?
Модель доступна в открытом доступе, что позволяет разработчикам бесплатно внедрять её в свои проекты. Официальный релиз и документация опубликованы на [GitHub / сайт VK].
Вывод
Выход RuModernBERT — важный шаг в развитии искусственного интеллекта для русского языка. Благодаря открытому доступу, технология может быть использована в коммерческих и научных проектах, улучшая поисковые системы, чат-боты и аналитические инструменты.