Как сделать split пути к файлу, если в пути используются разные слэши
Мне нужно создать df, склеив несколько файлов между собой. После этого мне надо добавить к созданному Df колонки name и date (и соответствующие этим колонкам строки), используя названия папок, в которых лежали конечные файлы (т.е.,например, есть папка '2020-06-05', а в ней лежит папка 'Alexey_Smirnov', и эти данные нужно достать и вставить в колонки name, date.
Получается у нас путь к конечному файлу 3х-уровневный (включает текущую папку,в которой изначально находимся), директория и файлы. Исходя из этого я составила следующий код для получения пути к файлу, который можно считать при помощи pd.read_csv
df= pd.DataFrame()
for current_path, dirs, files in os.walk(path): # читаем из всех папок файлов путь
for file in files:
print ('current path is' , current_path) # для себя отмечаем, что у нас является исходным путем
data_path = (f'{current_path}/{file}')
temp_df = pd.read_csv(data_path)
df = pd.concat((df, temp_df))
print (df.shape)
В output у меня выходят данные следующего вида :
current path is D:/курсы телеграм/SQL/КУРС обязательный/[vavilon.cc] [Анатолий Карпов] Твой путь в мир Data Analytics/1_PYTHON/Урок_4/Задания/Минипроект/data\2020-12-03\Alexey_Smirnov
(6, 3)
current path is D:/курсы телеграм/SQL/КУРС обязательный/[vavilon.cc] [Анатолий Карпов] Твой путь в мир Data Analytics/1_PYTHON/Урок_4/Задания/Минипроект/data\2020-12-03\Anton_Petrov
(11, 3) и т.д по аналогии
Чтобы получить данные для новых колонок мне нужно сделать split получившихся путей.Например, я пишу : re.split(r'/|\', 'D:/курсы телеграм/SQL/КУРС обязательный/[vavilon.cc] [Анатолий Карпов] Твой путь в мир Data Analytics/1_PYTHON/Урок_4/Задания/Минипроект/data\2020-12-05\Petr_Ivanov')
Otput мне выдает
['D:',
'курсы телеграм',
'SQL',
'КУРС обязательный',
'[vavilon.cc] [Анатолий Карпов] Твой путь в мир Data Analytics',
'1_PYTHON',
'Урок_4',
'Задания',
'Минипроект',
'data\x820-12-05',
'Petr_Ivanov']
И так в независимости от того, какие разделители я указываю. Например, кусок пути data\2020-12-05\ у меня преобразуется в 'data\x820-12-05'. Мало того, что у меня data почему то склеивается с 2020-12-05, так еще почему то 2020-12-05 превращается в какой то странный код x820-12-05. И так везде. Пробовала и replace делать, и добавлять в качестве разделителей re.split(r'/|\'|') - ничего не выходит. Никак не удается раздробить эту часть и папку с датой привести в нормальный вид, а не какой то код, который откуда то вылазит
Подскажите пожалуйста, что нужно сделать, чтобы расплитить путь мне так, как нужно, чтобы данные не сливались и имели первоначальный свой вид, а не превращались в какую то другую запись со странным кодом.
Ответы (1 шт):
Удалось решить при помощи библиотеки pathlib
. Использовала два способа:
path_parts=re.split(r'[\\/]', current_path)
part_path=Path(current_path)
data_path = part_path / file
Оба способа помогли. После этого путь имел одинаковые слэши, и уже можно было легко проводить с ним дальнейшие манипуляции.