Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Как и зачем мы сделали собственный OCR-бенчмарк

04.06.2026 06:40:30 | Хабр

Хабы: Блог компании Cloud.ru, Natural Language Processing, Облачные сервисы, Машинное обучение, Искусственный интеллект

Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать.

Почему так происходит, зачем мы потратили время на сборку собственного OCR-бенчмарка и пожалели ли мы об этом, рассказываю дальше.

Читать далее

Подробнее

Читайте также

Голосовой КПТ-дневник с распознаванием речи на устройстве: Flutter и on-device Whisper
04.06.2026 06:31:21 | Хабр

Tilda и СБИС Presto: как мы синхронизируем остатки через стоп-лист, а не каталог
04.06.2026 06:25:12 | Хабр

Зачем нужен язык ArchiMate
04.06.2026 06:20:23 | Хабр

Page Object Pattern в Selenium на Java: гайд по первому автотестовому проекту
04.06.2026 06:15:18 | Хабр

Обычный или облачный гейминг в EvertyDesk
04.06.2026 05:31:36 | Хабр

Плагин умного поиска на сайте (only frontend)
04.06.2026 05:29:36 | Хабр

Разработка своего компонента для JavaFX
04.06.2026 05:22:09 | Хабр

[Перевод] Что нового в Swift: Май 2026 года
04.06.2026 05:18:01 | Хабр

Кто и как больше 100 лет зарабатывает на гибели «Титаника»: от кинематографа до IT-индустрии
04.06.2026 04:42:59 | Хабр

Кто и сколько заработал на гибели «Титаника»: от кинематографа до IT-индустрии
04.06.2026 04:42:59 | Хабр

SEO-админка для большого каталога: sitemap, robots, мета-превью и тревоги поисковиков в одном месте
04.06.2026 01:54:10 | Хабр

Месяц пишу язык программирования Nova с Claude Code. Где ломаются автономные агенты
03.06.2026 23:31:55 | Хабр

Разработчик опубликовал альфа-сборку iOS-приложения, с которым можно пользоваться фитнес-браслетом Whoop 5.0 без подписки
03.06.2026 22:22:34 | vc.ru

В Башкирии внедрят ИИ во всех органах власти
03.06.2026 21:59:03 | ferra.ru

Учёные МАИ улучшили связь с аппаратами с электроракетными двигателями
03.06.2026 21:40:00 | ferra.ru

Мессенджер Max пропал из App Store
03.06.2026 21:35:36 | vc.ru

Как дата-центр, но в ПК-формате: Nvidia показала DGX Station за 97 000 долларов
03.06.2026 21:30:52 | ferra.ru

Ещё несколько Android-смартфонов научат обмениваться файлами с iPhone
03.06.2026 21:01:12 | ferra.ru

Российские и китайские учёные повысили безопасность твердотельных аккумуляторов
03.06.2026 20:55:00 | ferra.ru

Сенатор Шейкин оценил возможности ИИ в работе журналистов
03.06.2026 20:47:51 | ferra.ru

«Сигнал для отечественных производителей — что рынок их ждёт»: что изменят новые ограничения параллельного импорта электроники
03.06.2026 20:12:11 | vc.ru

Удобрения в розничной упаковке начнут маркировать с 1 ноября 2026 года
03.06.2026 20:10:00 | ferra.ru

librats: Выпуск версии 1.0.x (библиотека для распределённых P2P-приложений). Так же релиз rats-search 2.0.28
03.06.2026 20:01:47 | Хабр

В правительстве Калининградской области создали комиссию по ИИ
03.06.2026 19:57:06 | ferra.ru

Суд в Санкт-Петербурге признал банкротом гендиректора ИТ-холдинга Fplus
03.06.2026 19:43:46 | vc.ru

Китайская BYD оплатит весь ущерб при ДТП с её автопилотом
03.06.2026 19:30:53 | ferra.ru

Учёные Сколтеха: химический состав молока эволюционировал для питания мозга
03.06.2026 19:25:00 | ferra.ru

Русский гений, придумавший поисковую систему в 19-м веке
03.06.2026 19:23:27 | Хабр

Как я инфру в буткемпе на Standoff365 проходил [Infra 1] — [Infra 12]
03.06.2026 19:18:36 | Хабр

Microsoft показала умный рабочий пропуск с камерой и ИИ
03.06.2026 19:01:10 | ferra.ru

В России разработали ИИ-сервис Molot, который ищет вредоносный код по поведению
03.06.2026 18:40:00 | ferra.ru

Миджорни нейросеть: как пользоваться Midjourney для генерации изображений и картинок
03.06.2026 18:37:36 | Хабр

Введение технологического сбора для производителей и импортёров электроники планируют перенести на 1 декабря 2026 года — Минпромторг
03.06.2026 18:29:29 | vc.ru

Импортозамещение Schneider Electric Conext ComBox
03.06.2026 18:25:39 | Хабр

ВТБ объединил ИИ-агентов и роботов в единую платформу
03.06.2026 18:24:28 | ferra.ru

Смотреть все

НОВОСТИ

Seagate готовит 50-терабайтные HDD: сертификация в конце 2027 года, поставки в 2028-м, мощности расписаны до 2029-го
30.07.2026 11:09:10 | PlayGround.ru

Поддубный: новые беспилотники заставляют армии мира менять подходы к ПВО
30.07.2026 11:08:30 | ТАСС

Переодетый в женщину иностранец девять раз ударил россиянку ножом
30.07.2026 11:08:24 | Lenta.ru

Поддубный заявил о создании в РФ новой системы ПВО против украинских БПЛА
30.07.2026 11:07:58 | ТАСС

Полковник объяснил способность ВСУ атаковать территории в 1300 километрах от границы
30.07.2026 11:07:37 | Lenta.ru

В Минобороны отчитались о результатах системных ударов по украинским портам
30.07.2026 11:07:37 | Life.ru

На Урале завели дело из-за ранения ребенка после стрельбы
30.07.2026 11:07:05 | ТАСС

В Югре начали проверку после танцев девочки у Вечного огня
30.07.2026 11:06:47 | ТАСС

Стало известно о предстоящих санкциях Армении против России
30.07.2026 11:06:38 | Lenta.ru

Заяц с зарядом: Сальдо предупредил о минной ловушке ВСУ на дорогах
30.07.2026 11:06:35 | Life.ru

Отдыхающие заполонили пляж российского курорта и попали на видео
30.07.2026 11:06:34 | Lenta.ru

Сын Жириновского продаёт в Москве два таунхауса экс-лидера ЛДПР за ₽239 млн
30.07.2026 11:06:19 | Life.ru

В новой туристической локации Чечни завершат строительство 60 км дороги до 2030 года
30.07.2026 11:05:59 | ТАСС

В Польше обнаружили воронку и обломки неизвестного объекта после мощного взрыва
30.07.2026 11:05:46 | Life.ru

В Госдуме отреагировали на призыв экс-главы Минобороны Украины об уничтожении россиян
30.07.2026 11:04:11 | Lenta.ru

Обвиняемый в избиении ученого Зезина ранее служил в правоохранительных органах
30.07.2026 11:03:44 | ТАСС

В Китае доля угля в производстве электроэнергии впервые опустилась ниже 50%
30.07.2026 11:02:55 | ТАСС

ЕС пообещал Украине еще €8,3 млрд
30.07.2026 11:02:19 | ТАСС

Российский боец под обстрелами ВСУ тащил на себе подорвавшегося на мине-паутине сослуживца
30.07.2026 11:01:42 | Lenta.ru

СК завел дела о терактах после атак на WB в Пензенской области и Удмуртии
30.07.2026 11:01:35 | ТАСС

Китай обвалил глобальное производство и продажи машин японского автоконцерна
30.07.2026 11:01:22 | Lenta.ru

Сотрудники компаний Царукяна проводят акцию протеста в Ереване
30.07.2026 11:01:10 | ТАСС

Глава поврежденного из-за урагана свердловского округа ушел в отставку
30.07.2026 11:00:53 | ТАСС

СМИ узнали об увольнении из Генпрокуратуры главного «изымателя» активов в России
30.07.2026 10:59:02 | Life.ru

СМИ узнали об увольнении отвечавшего за изъятие активов прокурора
30.07.2026 10:59:02 | Life.ru

Порт Тамани получил повреждения в результате атаки дронов ВСУ, есть раненые
30.07.2026 10:59:02 | Life.ru

Wildberries отменил продавцам комиссию за рублевые переводы
30.07.2026 10:59:01 | Коммерсантъ

В аэропорту Минска станет больше парковочных мест
30.07.2026 10:59:00 | Российская Газета

Гагаузия заявила о готовности отстаивать права автономии в международных судах
30.07.2026 10:58:40 | ТАСС

Заммэра Ракова: все абитуриенты колледжей Москвы поступили на бюджет
30.07.2026 10:58:32 | ТАСС

Пленный из ВСУ рассказал, как командование оставило их без еды в Константиновке
30.07.2026 10:58:29 | ТАСС

В России научились создавать энтеровирусы с активностью против рака
30.07.2026 10:57:11 | ТАСС

Польша подключается к европейской спутниковой сети IRIS?: Eutelsat предоставит OneWeb ещё до запуска системы
30.07.2026 10:57:00 | iXBT.com

Регулятор Австралии начал судебное разбирательство против Telegram
30.07.2026 10:56:22 | Коммерсантъ

На Урале у женщины изъяли 17 кг контрабандных украшений и аксессуаров
30.07.2026 10:55:48 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro