Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)

07.07.2025 15:22:17 | Хабр

Хабы: Блог компании BotHub, Базы данных, Искусственный интеллект, Машинное обучение, Программирование

В первой части мы разобрали теорию text‑to‑SQL: как LLM заменяют разработчиков, почему RAG и CoT спасают от галлюцинаций и зачем Scale AI дообучает ChatGPT-4. Но теория неполна без практики! В этом материале — жёсткое тестирование моделей (ChatGPT o3-mini‑high, ChatGPT 4.1, Claude Sonnet 4, ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1–0528) на бенчмарке LiveSQLBench.

6 моделей, 10 задач, сложность от ★★ до ★★★★★★★★★★. Проверим, как они считают лунные помехи, генерируют SQL для криптобирж и ищут артефакты в музеях.

Читать далее

Подробнее

Читайте также

Security Week 2528: две уязвимости в утилите sudo
07.07.2025 15:21:47 | Хабр

9to5Google объяснили, почему Nothing Phone (3) — не флагман, несмотря на маркетинг
07.07.2025 15:20:18 | ferra.ru

Процедурная генерация зданий в Unity с помощью сплайнов
07.07.2025 15:10:46 | Хабр

Производительность Switch 2 и Xbox Series S сравнили
07.07.2025 15:06:17 | ferra.ru

Акции Tesla падали на 7% после заявления Маска о намерении создать в США новую политическую партию
07.07.2025 15:04:14 | vc.ru

[Перевод] Как простой скан порта привел к награде в $500 от Google: «Обычные маршруты часто остаются неисследованными.»
07.07.2025 15:02:09 | Хабр

Получит ли Россия свой Starlink
07.07.2025 15:01:37 | Хабр

Anker представила домашний UV-принтер eufyMake E1 для 3D-текстур
07.07.2025 15:00:21 | ferra.ru

Samsung продал больше смартфонов на Snapdragon 8 Elite, чем все остальные вместе взятые
07.07.2025 14:59:17 | ferra.ru

РЖД добавили вагоны к поездам и запустили дополнительную «Ласточку» между Санкт-Петербургом и Москвой на фоне отмен и задержек авиарейсов
07.07.2025 14:40:16 | vc.ru

Хроника изменений API фоновой работы в Android
07.07.2025 14:33:47 | Хабр

Цифровая слежка: ищем человека, зная только его номер
07.07.2025 14:11:58 | Хабр

Функциональное программирование в Android. Теория категорий и DI
07.07.2025 14:10:19 | Хабр

Как мы создали UI-kit состояний интерфейса и «навели порядок» в продукте
07.07.2025 14:10:06 | Хабр

Гипотеза про упадок рынка труда в UX/UI-дизайне: почему так сложно найти работу?
07.07.2025 14:09:31 | Хабр

Кто ответит за утечку: штрафы, сроки и другие обновления закона о персональных данных
07.07.2025 14:05:41 | Хабр

7 дней яхтинга, щепотка адреналина и 200 новых контактов из IT-индустрии — рассказываем, как прошла Майская IT-Регата
07.07.2025 13:49:27 | Хабр

Samsung не будет производить Snapdragon 8 Elite 2 — Qualcomm выбрала TSMC
07.07.2025 13:30:19 | ferra.ru

Линеризация в офлайн-тестах: как не стереть сигнал вместе с шумом
07.07.2025 13:24:02 | Хабр

Из боли клиентов — в новый продукт: как мы пересобрали аналитику на Clickhouse
07.07.2025 13:23:20 | Хабр

Excel уже не тянет: как мы собрали аналитику для LMS на 10 млн строк без дата-инженеров
07.07.2025 13:23:20 | Хабр

Джек Дорси выпустил бета-версию децентрализованного офлайн-мессенджера BitChat
07.07.2025 13:02:54 | vc.ru

[Перевод] Ходим в Интернет с отключённым IPv4
07.07.2025 13:01:32 | Хабр

Xiaomi представила модульную розетку на 8000 Вт
07.07.2025 12:45:18 | ferra.ru

DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе
07.07.2025 12:39:48 | Хабр

Когда твой продукт — лишь деталь пазла: путь от продакта к СРО
07.07.2025 12:39:35 | Хабр

Когда один клик стоит ...: художественные истории о корпоративной безопасности
07.07.2025 12:32:30 | Хабр

Как настроить синхронизацию в Obsidian с помощью S3
07.07.2025 12:30:21 | Хабр

В Госдуме предложили учредить День киберспорта 7 июля
07.07.2025 12:17:22 | ferra.ru

Введение в WebRTC
07.07.2025 12:15:26 | Хабр

Обновление Кибер Протего — обзор новинок в версии 10.6
07.07.2025 12:11:21 | Хабр

Как Android-разработчик в iOS погружался: мой опыт внедрения Kotlin Multiplatform
07.07.2025 12:00:22 | Хабр

В Боливии найден древний храм исчезнувшей цивилизации
07.07.2025 12:00:16 | ferra.ru

TikTok запустит отдельное приложение для американского рынка в рамках сделки по продаже соцсети в США — The Information
07.07.2025 11:54:45 | vc.ru

Java Digest # 26
07.07.2025 11:43:43 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Подпольщик Лебедев заявил об ударе по терминалу в Одессе с военными грузами
08.03.2026 07:03:48 | Life.ru

МИД Китая: Доля Глобального Юга в мировой экономике выросла с 24 до 40 процентов
08.03.2026 07:03:00 | Российская Газета

В Забайкалье разработали дневник здоровья женщины
08.03.2026 07:01:52 | ТАСС

Мирошник: Европа "не знает, куда бежать", пытаясь сохранить поставки оружия Киеву
08.03.2026 07:01:16 | ТАСС

ТАСС: в деле о хищениях у МО РФ могут появиться новые фигуранты
08.03.2026 07:01:13 | ТАСС

Подполье: число желающих вступить в организацию венгров растет из-за зверств ТЦК
08.03.2026 06:59:22 | ТАСС

Губернатор Севастополя вошёл в состав комиссии по вопросам культурной политики
08.03.2026 06:51:00 | Life.ru

«Удар по ребяткам из Европы». Названы хозяева конфискованных у украинских инкассаторов в Венгрии денег
08.03.2026 06:49:00 | Lenta.ru

Депутат Коскела: закон о возможности транзита ЯО через Финляндию готовили тайно
08.03.2026 06:48:45 | ТАСС

В Греции произошло землетрясение магнитудой 5,4
08.03.2026 06:44:24 | ТАСС

Россиян предупредили о мошенниках, маскирующихся под сотрудников ЖКХ
08.03.2026 06:42:52 | Life.ru

Ван И: Китай и Индия должны ответственно взаимодействовать в БРИКС
08.03.2026 06:42:44 | ТАСС

Ван И: Китай никогда не пойдет по пути традиционных держав-гегемонов
08.03.2026 06:42:19 | ТАСС

Зеленский раскритиковал ЕС, речь идет о санкциях против РФ и кредите Украине
08.03.2026 06:40:00 | Российская Газета

Пикап Caterpillar все-таки существует, но не такой автомобиль ждали фанаты
08.03.2026 06:40:00 | За рулем

Южная группировка уничтожила 43 блиндажа и 15 антенн связи ВСУ за сутки
08.03.2026 06:39:56 | Life.ru

Ван И: Тайвань не станет государством, попытки создать "два Китая" обречены
08.03.2026 06:38:56 | ТАСС

Ван И: Тайвань не был и никогда не станет государством
08.03.2026 06:38:56 | ТАСС

Пламя охватило небоскреб после удара в Кувейте
08.03.2026 06:38:00 | Lenta.ru

В Эль-Кувейте полыхает небоскрёб службы соцобеспечения после удара
08.03.2026 06:35:47 | Life.ru

KUNA: МВД Кувейта сообщило о гибели двух офицеров пограничного управления
08.03.2026 06:35:34 | ТАСС

ТАСС: в Харькове жена начальника полиции совершила самоубийство
08.03.2026 06:35:04 | ТАСС

Ван И: КНР готова к диалогу для урегулирования ситуации в Южно-Китайском море
08.03.2026 06:34:16 | ТАСС

Глава Pixar: "Мы отказались от повестки и психотерапии после череды провалов - и решили просто снимать отличное кино"
08.03.2026 06:33:18 | PlayGround.ru

ТАСС: в Сумах полиция задержала вдов солдат ВСУ для профилактических бесед
08.03.2026 06:30:40 | ТАСС

Крепкий кузов и классический автомат — отличный седан за полтора миллиона
08.03.2026 06:30:00 | За рулем

Трамп «из вежливости» встретился с бывшей оппоненткой Мадуро
08.03.2026 06:29:08 | РБК

Китай предостерег Японию от повторения исторических ошибок милитаризма
08.03.2026 06:24:55 | ТАСС

Группировка войск «Запад» за сутки уничтожила 59 тяжёлых квадрокоптеров ВСУ
08.03.2026 06:24:49 | Life.ru

Посол Зейналова: РФ и Маврикий планируют лабораторию исследования микропластика
08.03.2026 06:21:37 | ТАСС

Press TV: в Кувейте загорелся небоскреб службы социального обеспечения
08.03.2026 06:21:14 | ТАСС

Фариназу: Наёмники ВСУ, возвращаясь в Латинскую Америку, становятся угрозой
08.03.2026 06:20:44 | Life.ru

«Автодор» отреагировал на жалобы водителей о разбитом асфальте на платной трассе
08.03.2026 06:20:00 | За рулем

Ван И: Китай будет отстаивать справедливый международный экономический порядок
08.03.2026 06:19:53 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro