Хабы: Python, Big Data
Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.
Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:
Читать далее