Операция выполнена!
Закрыть
Хабы: Natural Language Processing, Искусственный интеллект, Машинное обучение, Обработка изображений

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или перпендикулярности. Для инженера это привычный язык, но для автоматической обработки такие документы представляют серьёзную задачу.

С появлением мультимодальных LLM возник вопрос: способны ли они заменить классические OCR-решения и специализированные пайплайны постобработки? Насколько хорошо современные модели справляются с извлечением размеров и допусков из коробки, без дообучения? Какие модели дают максимальную точность, какие быстрее, а какие дешевле? И можно ли комбинировать разные подходы, чтобы повысить результат?

Чтобы ответить на эти вопросы, мы протестировали шесть актуальных vision-LLM на одном наборе реальных механических чертежей и сравнили их точность, скорость и стоимость обработки.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro