Операция выполнена!
Закрыть
Хабы: Машинное обучение, Алгоритмы, Исследования и прогнозы в IT, Open source, Python

Задача кластеризации относится к классу «обучения без учителя» и является фундаментальным инструментом exploratory data analysis (разведочный анализ данных). В отличие от классификации, здесь отсутствует размеченный набор данных или какая-либо заведомо известная информация о нём. Алгоритм самостоятельно выявляет критерий группировки объектов, и именно в этой самостоятельности кроется ключевая проблема: отсутствие априорной разметки делает оценку результатов крайне субъективной, так как разные алгоритмы обладают уникальным индуктивным смещением (inductive bias), проецируя различные предположения о геометрии и плотности скрытых классов. Универсальный алгоритм, который подходит для всех задач, построить невозможно (теорема Клейнберга, являющаяся следствием более общей теоремы о «бесплатном обеде»), поэтому алгоритмы кластеризации нужно подбирать и настраивать почти для каждой задачи отдельно. Задача выбора и настройки алгоритма машинного обучения является экспертной, что достаточно затратно по времени, поскольку работа выполняется человеком фактически вручную.

Особую сложность представляет кластеризация мультимодальных данных. В прикладных областях, таких как биоинформатика, анализ медиа-контента, медицинская диагностика и мониторинг сложных технических объектов, данные чаще всего представлены в мультимодальном виде. Это означает, что каждый анализируемый объект одновременно описывается гетерогенными источниками информации — структурированными числовыми векторами, неструктурированными текстами, изображениями или временными рядами. Ключевой сложностью при построении систем автоматической кластеризации для мультимодальных данных является разработка эффективного способа слияния (fusion) разнородных признаковых пространств с сохранением уникальной внутренней структуры каждой модальности.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro