Получить данные из df по колонке, где значения разделены : и ;

Всем здравствуйте! У меня есть таблица csv, где содержатся данные по пациентам. В первой колонке - айди номер, во второй - их статус (больной или родственник), а в третьей - тип родственной связи в формате: "айди:тип связи; айди:тип связи", иногда может быть 0, 1 или даже 5 записей о родственниках каждого из участников.

Пример датафрейма:

import pandas as pd

data = {
    'patient_id': [11, 22, 33, 44, 55, 66],
    'group': ['ill', 'ill', 'relative', 'ill', 'relative', 'relative'],
    'relatives': [None, '33:мать', '22:дочь', '55:мать;66:отец', '44:дочь;66:муж', '44:дочь;55:жена']
}

df = pd.DataFrame(data)

Что мне нужно? Сгруппировать семьи, то есть, например, пациенты с айди 22 и 33 в этом датафрейме составляют одну семью, так как ссылаются на patient_id друг друга в столбце relatives. Пациенты c айди 44, 55 и 66 тоже составляют одну семью. На выходе мне необходимо получить список семей в любом формате - txt, словарь со списком объектов и тд. В идеале - если будет указан тип родственной связи, но это наверно сложнее сделать, так как придется прописывать все типы родсвтенных отношений, а у меня там есть и всякие дяди по папиной линии и тд. Поэтому достаточно будет хотя бы сгруппировать их по столбцу relatives, если они ссылаются в нем друг на друга, то, значит, составляют одну семью. Помогите, пожалуйста, решить проблему.

Код, что у меня есть:

import pandas as pd
import numpy as np


path = 'tab.csv'
df = pd.read_csv(path, encoding="cp1251", sep="\t", skiprows=[0])
df.columns = ['patient_id', 'group', 'relatives']
df = df.dropna(subset=['relatives']) #удаляем строки, где в столбце родственных связей стоит NaN

#Далее я делала таким способом, но на выходе количество семей у меня равнялось количеству пациентов с имеющимися родственниками, то есть код не объединил их в семьи((

# Разделяем столбец relatives на отдельные подстроки и разворачиваем их в отдельные строки DataFrame
df = df.assign(relatives=df['relatives'].str.split('; ')).explode('relatives')

# Разделяем столбец relatives на несколько колонок 'relative_id' и 'relation'
split_df = df['relatives'].str.split(':', expand=True)

# Создаем нужное количество новых колонок
num_columns = len(split_df.columns)
for i in range(num_columns):
    df[f'relative_id_{i+1}'] = split_df[i]

# Удаляем столбец 'relatives', так как он больше не нужен
df = df.drop(columns=['relatives'])

# Создаем словарь для хранения групп пациентов
patient_groups = {}

# Функция для поиска группы пациента
def find_group(patient_id):
    if patient_id in patient_groups:
        return patient_groups[patient_id]
    else:
        return None

# Проходимся по каждой строке DataFrame и строим группы пациентов
for index, row in df.iterrows():
    patient_id = row['patient_id']
    relatives_list = [row[f'relative_id_{i+1}'] for i in range(num_columns) if pd.notna(row[f'relative_id_{i+1}'])]
    group = find_group(patient_id)
    if group is None:
        # Если группы еще нет, создаем новую
        group = len(patient_groups) + 1
        patient_groups[patient_id] = group
    for relative_id in relatives_list:
        relative_group = find_group(relative_id)
        if relative_group is None:
            # Если группы еще нет, создаем новую и добавляем в нее родственника
            relative_group = len(patient_groups) + 1
            patient_groups[relative_id] = relative_group
        elif relative_group != group:
            # Если родственник уже состоит в другой группе, объединяем группы
            for pid, g in patient_groups.items():
                if g == relative_group:
                    patient_groups[pid] = group

# Подсчитываем количество уникальных групп
num_groups = len(set(patient_groups.values()))

print("Количество групп:", num_groups)

Ответы (2 шт):

Автор решения: strawdog

мне не совсем понятно, как вы собираетесь указывать сохранять связи в конечном счете. для начала можно попробовать сделать что-то такое:

relatives = df['relatives'].str.split(';').apply(pd.Series).apply(lambda x: x.str.split(':')).stack().apply(pd.Series).groupby(0, as_index=False)[1].apply(list)
relatives[0] = relatives[0].astype(int)
res = df.merge(relatives, left_on="patient_id", right_on=0, how="outer")

res:

   patient_id     group        relatives     0             1
0          11       ill             None   NaN           NaN
1          22       ill          33:мать  22.0        [дочь]
2          33  relative          22:дочь  33.0        [мать]
3          44       ill  55:мать;66:отец  44.0  [дочь, дочь]
4          55  relative   44:дочь;66:муж  55.0  [мать, жена]
5          66  relative  44:дочь;55:жена  66.0   [отец, муж]

→ Ссылка
Автор решения: Алексей Р

Воспользуемся тем, что в каждой строке совокупность из patient_id и идентификаторов из relatives как раз и составляет членов семьи. Например, для последней строки: 66 и 44:дочь;55:жена. Остается только вычленить числа из relatives и дополнить числом из patient_id -> [66,44,55].

df = df.patient_id.astype(str).add(' ').add(df.relatives.fillna('')).str.extractall(r'(\d+)').groupby(level=0).agg(set).drop_duplicates(0)

Получаем фрейм с одной колонкой, в которой находятся множества с идентификаторами членов семьи. В данном случае они в текстовом представлении. Если нужно целыми числами, необходимо добавить преобразование [0].astype(int) между extractall() и groupby() и убрать 0 из drop_duplicates():

df = df.patient_id.astype(str).add(' ').add(df.relatives.fillna('')).str.extractall(r'(\d+)')[0].astype(int).groupby(level=0).agg(set).drop_duplicates()

Роли добавлять уже сложнее, т.к. один и тот же patient_id может быть одновременно в нескольких ролях - например, 66 - муж и отец (наверное, может быть еще и братом, дедом, племянником и т.д.).

              0
0          {11}
1      {22, 33}
3  {66, 55, 44}

Подход будет работать правильно, если корректно (полностью) отражены все родственные связи в relatives.

→ Ссылка