Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика

info@vsetut.pro

Стать автором

Вернуться

13.02.2026 08:21:19 | Хабр

Хабы: Data Engineering, Big Data

Привет! Меня зовут Черняховский Денис и я Data Engineer. Я достаточно подолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак ..... пум пум пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.

В этой статье я постараюсь рассказать:
- Почему дата инженерам необходимо использовать статистику и почему ни ее не используют
- Проведем тесты на реальных примерах данных
- Разберем проблему межпрофессионального разрыва компетенций между дата инженерами и аналитиками

Почему инженеру данных стоит использовать статистику?

Разберем, какой базовый набор проверок/валидаций использует типочный дата инженер, да и аналитик тоже:

Типичный чек-лист на проде:
- NOT NULL
- UNIQUE
- REFERENTIAL INTEGRITY
- row_count_today >= row_count_yesterday
- max(updated_at) >= now() – 1h
- revenue > 0

Это бинарные правила, либо сломалось, либо нет. Те же, кто работает с качеством данных, ежедневно сталкивается с проблемой, когда бинарные проверки не показывают проблем, но аналитики и заказчик прибегают с горящими глазами и кричат, что все сломано.

А статистика — это вероятностное мышление, статистика всегда покажет проблему и покажет ее первой, если данная проблема имеет место быть.

Почему инженеры не используют статистику в валидации данных?

Статистика «не орёт», когда что-то пошло не так
Пример:
- COUNT(*) = 0 АЛЕРТ
- mean + 3σ уехало «Ну… вроде странно, но не факт»
- В прод-эксплуатации любят чёткие сигналы, а не «подозрения».

Подробнее

Читайте также

Редизайн Telegram: как Павел Дуров вновь разозлил пользователей
13.02.2026 08:20:32 | Хабр

Розовый шум, беруши и нарушение сна
13.02.2026 08:10:39 | Хабр

Знакомство с ретро-ПК. Оживляем раритетный Pentium-200
13.02.2026 08:06:04 | Хабр

GenAI против реальности: что охотнее смотрят люди на примере контента о камчатских снегопадах
13.02.2026 08:05:54 | Хабр

Что нужно, чтобы начать регистрацию товарного знака в 2026 году, не потерять деньги, месяцы и само обозначение?
13.02.2026 08:02:14 | Хабр

«Потрачено», или как мы полюбили игры с кривым переводом
13.02.2026 08:00:58 | Хабр

Естественные преобразования. Часть 2
13.02.2026 07:51:28 | Хабр

API под прицелом: Три типа «трупов» (Shadow, Orphan, Zombie) и одна новая надежда
13.02.2026 07:49:52 | Хабр

День 1451: внешний долг России впервые за 20 лет превысил $60 млрд, саудовская Midad подписала договор о покупке зарубежных активов «Лукойла»
13.02.2026 07:46:29 | vc.ru

Мертвые не кусаются, но светятся: как работает приложение Локатор в iOS в 2026 году
13.02.2026 07:45:49 | Хабр

3D-мозаики и скульптуры из кубиков Рубика
13.02.2026 07:29:12 | Хабр

Хочу учиться: где и как получить ИБ-образование и знания
13.02.2026 07:22:08 | Хабр

Паттерн Transactional Outbox — обеспечиваем консистентность между микросервисами на примере Java
13.02.2026 07:15:38 | Хабр

Управляем облаком, не привлекая внимания пользователей: разбор примеров из жизни One-cloud
13.02.2026 07:12:32 | Хабр

О промышленных скоростных методах пайки печатных плат и не только
13.02.2026 07:05:33 | Хабр

Практическое применение eBPF: serverless-платформа с поддержкой TCP-приложений
13.02.2026 07:02:30 | Хабр

Как материя становится антиматерией: тайна формулы Эйлера
13.02.2026 06:56:33 | Хабр

Почему Code Review тормозит разработку и что с этим делать
13.02.2026 06:52:10 | Хабр

Как защитить ключи LUKS с помощью Рутокен ЭЦП 3.0 и алгоритмов ГОСТ Р 34.10-2012. Часть 3
13.02.2026 06:43:24 | Хабр

[Перевод] Самая большая ложь об ИИ
13.02.2026 06:42:47 | Хабр

Почему выгорание у ИТ-специалистов не лечится отпуском и сменой работы
13.02.2026 06:16:14 | Хабр

Как я написал AI-генератор коротких видео (Shorts/Reels) на Python с Clean Architecture
13.02.2026 06:03:47 | Хабр

«Я слишком стар для этого… джуна». Карьерный переход 2026: как сменить профессию и не сломаться
13.02.2026 06:00:03 | Хабр

Я отвечаю за процессы и репутацию (SERM)
13.02.2026 05:54:00 | Хабр

5 техник тест-дизайна, которые реально спрашивают на собеседованиях
13.02.2026 05:45:57 | Хабр

1C AI Autofill — опенсорс‑расширение 1С для заполнения описаний и реквизитов номенклатуры с помощью ИИ
13.02.2026 05:30:23 | Хабр

trackOpBits во Vue 3: как битовые маски ускоряют ReactiveEffect
13.02.2026 05:15:48 | Хабр

Game Engine 3 — создание игр и приложений без кода
13.02.2026 05:01:45 | Хабр

Всё, что нужно знать о CRM: что такое CRM-система, как выбрать и обзор популярных сервисов
13.02.2026 05:00:39 | Хабр

Как мы научились определять продвинутые автоответчики
13.02.2026 04:31:31 | Хабр

Сигнализация своими руками на Arduino
13.02.2026 04:16:50 | Хабр

От идеи к экосистеме: Как я строю свой opensource-проект mute для пентеста
13.02.2026 01:40:16 | Хабр

Защита для домашнего сервера — настраиваем защиту через VPN-доступ за один вечер
12.02.2026 23:33:35 | Хабр

Электрика DIY CO2-лазерного станка с ЧПУ
12.02.2026 23:25:24 | Хабр

Анатомия FPV-дрона на столе. Обзор учебного стенда FPV-Lab и опыт внедрения
12.02.2026 22:27:54 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

В Ингушетии начали проверку после ранения ребенка
07.03.2026 09:43:54 | ТАСС

Собака выбежала на трассу и сбила двух лыжниц на чемпионате России
07.03.2026 09:43:32 | Lenta.ru

Иран заявил об ударах по позициям антииранских сепаратистов в Иракском Курдистане
07.03.2026 09:42:20 | ТАСС

Рейсы в Москву из Дохи до конца суток пока не запланированы
07.03.2026 09:41:55 | ТАСС

Милонов призвал вести к психиатрам организаторов «детских свадеб»
07.03.2026 09:41:14 | Life.ru

Саудовская Аравия уничтожила два беспилотника
07.03.2026 09:39:08 | ТАСС

ТАСС: порядка 20 пассажирских самолетов не могут приземлиться в Дубае
07.03.2026 09:38:21 | ТАСС

Алексею Мишину — 85: Как профессор фигурного катания перевернул представление о прыжках на льду
07.03.2026 09:36:11 | Life.ru

Израиль нанес удар по главному военному университету КСИР
07.03.2026 09:35:00 | Российская Газета

В Брянской области при атаке ВСУ повреждены объекты двух агрохолдингов
07.03.2026 09:34:22 | ТАСС

«Украинские железные дороги» заявили о повреждении инфраструктуры в трёх областях
07.03.2026 09:33:47 | Life.ru

ВСУ 35 раз обстреляли территорию отселенных районов Курской области за сутки
07.03.2026 09:29:06 | ТАСС

Расселл выиграл квалификацию Гран-при Австралии "Формулы-1"
07.03.2026 09:27:58 | ТАСС

Минобороны ОАЭ сообщило об отражении системой ПВО ракетной атаки Ирана
07.03.2026 09:26:01 | ТАСС

"Лемана про": треть мужчин тратят на подарок к 8 Марта от 3 до 5 тыс. рублей
07.03.2026 09:25:35 | ТАСС

Вика Цыганова предложила штрафовать матерящихся на 50 тысяч, а деньги отправлять детям
07.03.2026 09:25:26 | Life.ru

В Самарской области человек пострадал при падении обломков БПЛА
07.03.2026 09:23:50 | ТАСС

На Украине железнодорожная инфраструктура получила повреждения
07.03.2026 09:21:51 | Lenta.ru

IRIB: при атаке США и Израиля на Исфахан погибли восемь человек
07.03.2026 09:20:47 | ТАСС

Россиянам могут отказать в кредитных каникулах при слишком больших долгах
07.03.2026 09:18:56 | ТАСС

Американскому журналисту грозит 20 лет тюрьмы за слова о правах жителей Донбасса
07.03.2026 09:17:21 | Life.ru

Посол Кубы не стал отвечать на вопрос о возможности вторжения США на остров
07.03.2026 09:15:19 | ТАСС

Мужчина протаранил кафе на пикапе во время ужина бывшей с друзьями
07.03.2026 09:14:17 | Life.ru

Туадера: инструкторы РФ помогли ЦАР достичь успехов в обороне
07.03.2026 09:12:28 | ТАСС

Туадера: российские инструкторы помогли ЦАР достичь успехов в обороне
07.03.2026 09:12:28 | ТАСС

Беспилотная опасность сняли в Татарстане
07.03.2026 09:12:00 | ТАСС

Беспилотную опасность сняли в Татарстане
07.03.2026 09:12:00 | ТАСС

В Татарстане сняли беспилотную опасность
07.03.2026 09:12:00 | ТАСС

Тренер назвала причину провала Малинина на Олимпиаде
07.03.2026 09:11:03 | Lenta.ru

Стилист Лисовец посоветовал не сочетать яркий макияж и наряд 8 марта
07.03.2026 09:09:52 | ТАСС

США отправляют третий авианосец на Ближний Восток для ударов по Ирану
07.03.2026 09:08:55 | Life.ru

На Украине мобилизовали мужчину с эпилепсией прямо по пути в больницу
07.03.2026 09:08:01 | Life.ru

Блогеру Лерчек могут дать отсрочку от наказания до наступления ее ребенку 14 лет
07.03.2026 09:07:48 | ТАСС

Посол в Вене: отношения с Венесуэлой не ухудшились после похищения Мадуро
07.03.2026 09:05:39 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro