Операция выполнена!
Закрыть
Хабы: Блог компании Домклик, Машинное обучение

У меня была видеокарта NVIDIA A100, максимальный объём памяти 79,254 Гб. Нужно было извлечь ключевую информацию (задача Qwestion Answering) из 6000 многостраничных документов. Всего было 15 полей разного типа:

Фродо_Бэггинс_паспорт — серия и номер паспорта в Средиземье

Сэмуайз_Гэмджи_инн — ИНН, полученный в Мордоре

Хоббит_номер_страховки — номер страхового полиса (эльфийского)

Мериадок_Брендибак_пол — пол

Хоббит_диаметр_кольца — диаметр кольца Всевластия

Перегрин_Тук_вес — вес

Гэндальф_Серый_длина_посоха — длина посоха в сантиметрах

Майар_количество_упоминаний — количество упоминаний в документе его имени

Арагорн_дата_рождения — дата рождения

Леголас_Эльф_количество_стрел — количество стрел

Гимли_фио — ФИО полностью

Боромир_дата_смерти — дата смерти

Саурон_количестов_пальцев — количество пальцев после войны

Орки_количество — сколько орков указано документе

Волки_количество — сколько волков указано в документе

Ну, понятное дело, все поля обфусцированы (на самом деле это обычные юридические документ, причем их форма различается в зависимости от того, кто их делал). Особенность была в том, что все поля могут быть расположены на одной странице документа или размазаны по всему документу, а страниц может быть до 80.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro