Не получается read_csv в google colab
уже почти всё перепробовал... Никак не получается нормально открыть этот csv-шник: https://drive.google.com/file/d/1Q3lCw_8Uad_OzHCjvLeYRvamXR74UPbW/view
dataset = pd.read_csv("salary_dataset.csv")
получаетParserError: Error tokenizing data. C error: EOF inside string starting at row 121535
(при этом тот же самый код с просто read_csv всё корректно считывает в Jupyter Lab)Пробую
dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE)
ПолучаюParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6
Новая попытка:
dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE, sep='\t')
. Тут уже ошибки нет, но в результате получается 1 слипшаяся колонка FullDescription,SalaryNormalized,в которой данные тоже слиплись, должно быть 2 колонки в результате: в FullDescription все описания, в SalaryNormalized зарплатыПробую
dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE, sep=',')
теперь получаюParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6
В общем никак не хочет работать. При этом в Jupyter Lab всё открывается корректно обычным pd.read_csv("salary_dataset.csv")
. Помогите пофиксить, пожалуйста =(
Ответы (1 шт):
У меня получилось без проблем прочитать с encoding='utf-8'
import pandas as pd
dataset = pd.read_csv("salary_dataset.csv", encoding='utf-8')
print(dataset.keys())
Вывело в консоль Index(['FullDescription', 'SalaryNormalized'], dtype='object')
print(dataset['SalaryNormalized'])
Вывело
0 55000
1 27500
2 72098
3 32400
4 67500
...
199995 17161
199996 26000
199997 28500
199998 25000
199999 65000
Name: SalaryNormalized, Length: 200000, dtype: int64