Enbeddrus — обучение независящей от языка эмбеддинг-модели

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Enbeddrus — обучение независящей от языка эмбеддинг-модели

02.06.2024 14:31:07 | Хабр

Хабы: Python, Искусственный интеллект, Машинное обучение, Natural Language Processing

Приветствую, хабровчане!

Сегодня я хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка модель-эмбеддер, которая умеет работать с техническими текстами о PHP и способна извлекать схожие эмбеддинги для параллельных текстов на английском и русском языках.

Основная причина, по которой я решил заняться этим проектом, заключается в том, что мои заметки, код и документация, накопленные за более чем десять лет практики, представляют собой солянку текстов о разных технологиях, языках программирования, пометки о настройке серверов Linux и т.д. на русском и английском языках. Поэтому мне захотелось сделать Retrieval-Augmented Generation (RAG) помогалку, которая сможет принимать запросы пользователя (меня) и эффективно находить информацию в столь разношерстой базе данных, независимо от того на каком языке я сделал запрос и на каком языке написана документация.

Для достижения этой цели необходима независимая от языка модель-эмбеддер, которая будет одинаково хорошо работать с техническими текстами на русском и английском языках.

Ещё одним важным аспектом было то, чтобы модель потребляла как можно меньше ресурсов и, если возможно, чтобы её можно было преобразовать в формат GGUF.

Читать далее

Подробнее

Читайте также

В США Google обвинили в тайной слежке за водителями с инвалидностью
02.06.2024 14:15:00 | ferra.ru

Я научу вас неправильно играть в Hearts of iron. Оптимизация довоенной экономики: часть 2
02.06.2024 14:02:23 | Хабр

Превращаем Android-смартфон в USB-клавиатуру, мышь и флешку
02.06.2024 14:00:04 | Хабр

СДЭК в критические дни и приключения с потерянным лекарством
02.06.2024 13:36:32 | Хабр

Летние одноплатники: как для любителей DIY-проектов, так и для промышленности
02.06.2024 13:34:05 | Хабр

Японский партнёр SpaceX отменил полёты на Луну на корабле Starship
02.06.2024 13:30:00 | ferra.ru

Разгоняем код с Object Mother и Object Pool в Java
02.06.2024 13:19:00 | Хабр

Стены под бетон и много света: офис вьетнамского отделения «1С» в Ханое
02.06.2024 13:01:01 | vc.ru

Снова всплыла тема бакапов. Как часто. Где хранить. Сколько копий
02.06.2024 13:00:57 | Хабр

Какие привычки освоить it-шнику, чтобы стать продуктивнее (или здоровее)?
02.06.2024 12:53:45 | Хабр

Майнеры начали заказывать более мощные ASIC: добывать Bitcoin всё сложнее
02.06.2024 12:45:00 | ferra.ru

Шаблон Go-микросервиса для начинающих от .NET разработчика. Часть 1
02.06.2024 12:31:50 | Хабр

Как собрать валютный портфель
02.06.2024 12:15:39 | Хабр

Мои проекты за 7 лет увлечения DIY
02.06.2024 12:13:23 | Хабр

Кратко про сертификации CBAP и CPRE
02.06.2024 12:06:48 | Хабр

MediaTek представила новый ИИ-чип для телевизоров Pentonic 800
02.06.2024 12:00:00 | ferra.ru

День 830: проект «Москвича» показал, что китайские машины не приспособлены к России, считает глава «КамАЗа»
02.06.2024 11:54:51 | vc.ru

Не только ORM (NoORM)
02.06.2024 11:46:15 | Хабр

ЕС поддержит строительство завода STMicroelectronics на Сицилии деньгами
02.06.2024 11:33:19 | it-world

AnTuTu привёл рейтинг самых мощных «середнячков» за май 2024 года
02.06.2024 11:15:00 | ferra.ru

Глобальный рынок графических процессоров достигнет $274 млрд к 2029 году
02.06.2024 11:10:58 | it-world

Обзор IT-Weekly: Docker Hub перестал работать в России; крупный сбой в работе СДЭК; изменения в налоговом законодательстве
02.06.2024 11:00:42 | it-world

Шрифт на кривых Безье на микроконтроллере
02.06.2024 10:32:36 | Хабр

Зарядные станции для электромобилей предложили оснастить ИИ
02.06.2024 10:30:57 | ferra.ru

[Перевод] Непроизвольная тирания пользовательских интерфейсов
02.06.2024 10:00:44 | Хабр

.NET Aspire — империя дотнета наносит ответный удар
02.06.2024 09:47:20 | Хабр

Первый полет Boeing Starliner отложили уже в который раз
02.06.2024 09:45:55 | ferra.ru

Все секреты многопоточности
02.06.2024 09:35:04 | Хабр

Китайский аппарат приземлился на обратной стороне Луны
02.06.2024 09:00:53 | ferra.ru

Spotify появился в российском магазине приложений RuStore
02.06.2024 08:50:20 | ferra.ru

В Британии раскритиковали системы распознавания лиц в магазинах
02.06.2024 08:43:45 | ferra.ru

По Minecraft появился первый Lego-набор для взрослых
02.06.2024 08:15:53 | ferra.ru

Генеративный ИИ улучшил защиту конфиденциальности фотографий
02.06.2024 08:14:45 | ferra.ru

Age of Empires – культовая попытка сделать Цивилизацию в реал-тайме
02.06.2024 08:01:34 | Хабр

«OSS, который не смог», или почему использование open source решений вдолгую требует корпоративных компетенций
02.06.2024 07:57:03 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Мелания Трамп обратилась с просьбой к Лукашенко
20.03.2026 23:52:52 | Lenta.ru

Румыния примет участие в обеспечении свободной навигации в Ормузском проливе
20.03.2026 23:51:10 | ТАСС

Шнайдер вышла в третий круг турнира WTA в Майами
20.03.2026 23:50:42 | ТАСС

«Не наша работа»: Законны ли отказы воспитателей в детсаду менять подгузники. Ответ юриста
20.03.2026 23:50:00 | Life.ru

В Великом Новгороде "Скупой рыцарь" открыл III фестиваль "Гений места"
20.03.2026 23:49:38 | ТАСС

На территории Ульяновской области объявили беспилотную опасность
20.03.2026 23:47:41 | ТАСС

Стало известно о странных смертях командного состава ВСУ
20.03.2026 23:46:39 | Lenta.ru

Силы ПВО сбили 66 БПЛА над Россией за три часа
20.03.2026 23:44:56 | Коммерсантъ

NASA доставило на стартовую площадку ракету с кораблем для лунной миссии
20.03.2026 23:44:37 | ТАСС

Иран заявил, что не обладает излишками нефти для экспорта
20.03.2026 23:43:07 | ТАСС

Аэропорты Волгограда, Саратова и Пензы закрыли для безопасности
20.03.2026 23:42:43 | Life.ru

В первый день астрономической весны на Землю обрушилась магнитная буря
20.03.2026 23:42:41 | ТАСС

Египетский клуб бойкотирует турниры CAF из солидарности со сборной Сенегала
20.03.2026 23:41:52 | ТАСС

На Украине назвали причину отказа ВСУ от подготовки солдат за рубежом
20.03.2026 23:37:27 | Lenta.ru

В ВСУ назвали причину отказа от подготовки солдат за рубежом
20.03.2026 23:37:00 | Lenta.ru

В ВСУ назвали причины отказа от подготовки солдат за рубежом
20.03.2026 23:37:00 | Lenta.ru

Сидни Суини снялась в полупрозрачном боди с вырезом на груди для бренда
20.03.2026 23:36:27 | Lenta.ru

Боксер Усик приехал на Украину впервые с начала СВО
20.03.2026 23:35:55 | Lenta.ru

Ирак ввёл форс-мажор на месторождениях нефти иностранных компаний
20.03.2026 23:35:31 | Life.ru

Трамп заявил, что не настроен на прекращение огня в Иране
20.03.2026 23:35:18 | ТАСС

Галимов: в "Динамо" не думали о сопернике по плей-офф в игре с "Ак Барсом"
20.03.2026 23:33:46 | ТАСС

ПВО России сбила 66 украинских дронов за три часа
20.03.2026 23:32:26 | Life.ru

Трамп: НАТО не хватило мужества помочь США в Ормузском проливе
20.03.2026 23:30:05 | ТАСС

Ирак объявил форс-мажор на нефтяных месторождениях
20.03.2026 23:30:00 | Lenta.ru

На Западе подсчитали прибыль России от конфликта на Ближнем Востоке
20.03.2026 23:26:56 | Lenta.ru

Вучич считает, что третья мировая война уже идет, но об этом никто не говорит
20.03.2026 23:26:00 | Российская Газета

Welt: новая система связи Бундесвера может создавать угрозу для военных
20.03.2026 23:24:40 | ТАСС

Бабиш прервал поездку в Венгрию из-за пожара на военном заводе в Пардубице
20.03.2026 23:23:07 | Life.ru

Трамп поддержал предложение Грэма вывести военные базы из Испании
20.03.2026 23:22:43 | ТАСС

Как "Динамо" выбирало соперника в плей-офф. Завершился регулярный чемпионат КХЛ
20.03.2026 23:22:10 | ТАСС

Арагчи заявил о рисках для британцев из-за решения Стармера по базам
20.03.2026 23:21:50 | ТАСС

Работу аэропортов Волгограда и Саратова временно ограничили
20.03.2026 23:20:16 | ТАСС

Трамп заявил о победе над Ираном
20.03.2026 23:18:27 | Lenta.ru

Лыжник Коростелев заявил о непонимании Большунова
20.03.2026 23:17:34 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro