Операция выполнена!
Закрыть
Хабы: Блог компании OTUS, Хранение данных

Фреймворк Spark позволяет выполнять множество различных операций с распределенными наборами данных. При этом, объем обрабатываемых данных может быть достаточно большим. Конечно, можно сохранять обрабатываемую информацию в файлы, но что делать, если набор данных не умещается на одном компьютере или на одном дисковом хранилище.

Для решения данной проблемы фреймворк поддерживает широкий диапазон различных механизмов ввода/вывода. Это можно объяснить в том числе и тем, что Apache Spark создавался в экосистеме Hadoop, предназначенной для работы с большими данными. Так, для доступа к данным Spark использует интерфейсы InputFormat и OutputFormat из Hadoop MapReduce, программной платформы, предназначенной для создания заданий, обрабатывающих большие объемы данных. А данные интерфейсы, в свою очередь поддерживают множество форматов файлов и систем хранения (SЗ, HDFS, Cassandra, HBаsе и т. д.)

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro