Поиск дубликатов в клиентском MDM на миллиард записей

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Поиск дубликатов в клиентском MDM на миллиард записей

01.10.2024 07:51:42 | Хабр

Хабы: Блог компании HFLabs, Data Engineering, Data Mining, Big Data, Хранение данных

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.

Читать далее

Подробнее

Читайте также

Ubisoft обвинила в ужасных продажах Star Wars Outlaws... игроков
01.10.2024 07:30:44 | ferra.ru

Как создавались первые игры для ламповых компьютеров в начале Холодной войны
01.10.2024 07:18:36 | Хабр

Разборка школьного компьютера
01.10.2024 07:10:30 | Хабр

Стив Ширли, Дама Стив Ширли: пионер программирования
01.10.2024 07:05:24 | Хабр

Гайд по логам для тестировщиков
01.10.2024 07:01:22 | Хабр

Markdown Editor: WYSIWYG и markup-редактор на базе Gravity UI
01.10.2024 07:00:58 | Хабр

Как организовать эвакуационный выход
01.10.2024 07:00:32 | Хабр

Как мы ускорили Modbus в нашем контроллере за неделю
01.10.2024 07:00:19 | Хабр

(Не) безопасный дайджест: кибератака на Dr. Web, облачная утечка Fortinet, шантаж от сотрудника
01.10.2024 07:00:18 | Хабр

Свой кинозал для каждого сегмента сети: уменьшаем медиатрафик в десятки раз с помощью кэширующих серверов
01.10.2024 07:00:14 | Хабр

Финансовые тайны Помпеев
01.10.2024 07:00:10 | Хабр

Xiaomi анонсировала «монстра» — Redmi K70 Extreme Edition с 25 ГБ оперативки и 1 ТБ внутренней памяти
01.10.2024 06:45:44 | ferra.ru

Почему ИИ не угрожает творчеству человека?
01.10.2024 06:08:00 | Хабр

CI/CD Kubernetes платформа Gitorion. Реплицируемый NAS для Highly Available кластера Kubernetes
01.10.2024 06:07:38 | Хабр

Создатель Metal Gear Solid и Death Stranding Кодзима рассказал о разрабатываемом с Microsoft хорроре
01.10.2024 06:00:43 | ferra.ru

Субфлагманский процессор AMD Ryzen 9 9900X подешевел на 12% от рекомендованной цены из-за низкого спроса
01.10.2024 05:15:43 | ferra.ru

В Германии начался дефицит видеокарт RTX 4090 из-за скорого выхода RTX 50XX
01.10.2024 04:30:42 | ferra.ru

Стоит ли собирать компьютер на старых Intel Xeon в 2024 году
01.10.2024 04:25:42 | Хабр

Qualcomm активно тестирует ARM-процессор нового поколения для ПК — Snapdragon X2
01.10.2024 03:45:42 | ferra.ru

Верх наглости: в главном меню PS5 появилась непропускаемая реклама
01.10.2024 03:00:41 | ferra.ru

Цены почти как на Ali: CDEK.Shopping объявил цены смартфонов Redmi Note 14 с доставкой из Китая
01.10.2024 02:15:41 | ferra.ru

MIT разработал метод для интуитивного распознавания объектов роботами
01.10.2024 01:30:00 | ferra.ru

Германия усилила контроль за Microsoft из-за доминирующей позиции
01.10.2024 00:45:00 | ferra.ru

ИИ улучшил ПЦР-тесты для диагностики и криминалистики
01.10.2024 00:00:00 | ferra.ru

Россиян предупредили о вирусе, предлагающим обновить банковское приложение
30.09.2024 23:56:14 | ferra.ru

Российские учёные нашли способ упростить проведение физических экспериментов
30.09.2024 23:45:18 | ferra.ru

Гибкий процессор, сладкое слово «корпоратив», и чудодейственный ИИ
30.09.2024 23:41:42 | it-world

«Скиф» спас производство процессоров «Эльбрус» от разорения
30.09.2024 23:36:20 | ferra.ru

Специалисты МИСиС назвали самые пожароопасные аккумуляторы
30.09.2024 23:20:33 | ferra.ru

IDC: мировой рынок смартфонов, бывших в употреблении, подрос в 2023 году на 6,4%
30.09.2024 23:15:56 | it-world

Epic снова подал в суд на Google и Samsung
30.09.2024 23:15:00 | ferra.ru

VK Cloud получила государственный сертификат безопасности
30.09.2024 22:58:27 | ferra.ru

Сервис «Телемост» получил поддержку до 1000 участников в одной «комнате»
30.09.2024 22:49:39 | ferra.ru

В России появится реестр нейросетевых изобретений и произведений искусств
30.09.2024 22:43:44 | ferra.ru

В Тюмени внедрили виртуального помощника для кардиохирургии
30.09.2024 22:39:43 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Заменить Лариджани в качестве военно-политического лидера Ирана может его брат
18.03.2026 16:49:00 | Российская Газета

Постпред РФ: перспектива закрытия вопроса с "сирийским досье" на площадке ОЗХО реальна
18.03.2026 16:47:54 | ТАСС

Два подростка ответили за совершенный в российском регионе теракт
18.03.2026 16:47:41 | Lenta.ru

Орловские суды отклонили один из двух исков по делам, связанным с "эффектом Долиной"
18.03.2026 16:47:09 | ТАСС

Показатель безработицы в СКФО находится на историческом минимуме
18.03.2026 16:47:00 | ТАСС

В СПЧ заявили, что в случае экстрадиции на Украину Бутягина ждет судилище
18.03.2026 16:46:56 | ТАСС

Москвичам назвали время пробуждения ежей
18.03.2026 16:46:45 | Lenta.ru

Иран приостановил работу газового месторождения после ударов США и Израиля
18.03.2026 16:46:19 | Lenta.ru

Захарова назвала бредом заявления языкового омбудсмена Украины о "структуре"
18.03.2026 16:46:09 | ТАСС

Расчленил и спрятал в чемоданы: В Красногорске мужчина убил любимую и свёл счёты с жизнью
18.03.2026 16:45:41 | Life.ru

В Саратовской области в ДТП с фурами погибли два человека
18.03.2026 16:45:34 | ТАСС

Матвиенко назвала безобразием провал проекта по оздоровлению Волги
18.03.2026 16:45:28 | Life.ru

Минфин разместил ОФЗ 26250 на 66,654 млрд рублей
18.03.2026 16:45:26 | ТАСС

Курс доллара превысил 84 рубля впервые с 26 сентября 2025 года
18.03.2026 16:44:43 | ТАСС

Захарова: Россия ожидает укрепления отношений с Казахстаном на новом этапе
18.03.2026 16:44:41 | ТАСС

"Ареал" опроверг информацию о намерении купить ЮГК
18.03.2026 16:44:01 | ТАСС

МИД РФ: Поставка Южной Кореей оружия Киеву навредит отношениям Москвы и Сеула
18.03.2026 16:44:00 | Российская Газета

Переполненный погибшими солдатами ВСУ днепропетровский госпиталь сняли на видео
18.03.2026 16:44:00 | Российская Газета

На реках в Ярославской области построят семь причалов за 4 млрд рублей
18.03.2026 16:43:54 | ТАСС

Путин: Российские паралимпийцы совершили подвиг, завоевав 3 место в медальном зачёте
18.03.2026 16:43:46 | Life.ru

По делу об убийстве предпринимательницы в Москве разыскивают четвёртого фигуранта
18.03.2026 16:43:29 | Life.ru

Потерявший бриллианты и 50 квартир экс-мэр российского курорта сделал заявление
18.03.2026 16:42:44 | Lenta.ru

Белый дом: НАТО несправедлива к налогоплательщикам и ВС США
18.03.2026 16:42:33 | ТАСС

Уровень кассового исполнения программы развития Крыма и Севастополя в 2025 г. составил 99%
18.03.2026 16:42:33 | ТАСС

Первый после восстановления авиасообщения самолет вылетел из Дохи в Москву
18.03.2026 16:41:55 | ТАСС

В Тель-Авиве впервые за 11 часов сработали сирены воздушной тревоги
18.03.2026 16:41:42 | ТАСС

Захарова: паралимпийцы РФ в Италии показали безграничность своих возможностей
18.03.2026 16:41:31 | ТАСС

WSJ: Агенты разведки Моссад звонили иранским силовикам с угрозами убийством
18.03.2026 16:41:00 | Российская Газета

Захарова заявила, что русский язык победит в схватке с Зеленским
18.03.2026 16:41:00 | ТАСС

Рита Дакота объяснила причину появления на «Оскаре» в старой футболке
18.03.2026 16:40:54 | Lenta.ru

Главу Минздрава Кубани обвинили в хищении 7 млн рублей бюджетных средств
18.03.2026 16:40:35 | ТАСС

В Швейцарии на горнолыжном курорте кабина канатной дороги упала на склон горы
18.03.2026 16:40:00 | Российская Газета

Москва рассчитывает, что визит экспертов ОЗХО в РФ по ее запросу состоится
18.03.2026 16:39:51 | ТАСС

Захарова: РФ находится в контакте со всеми сторонами конфликта вокруг Ирана
18.03.2026 16:39:50 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro