Не получается read_csv в google colab

Question

уже почти всё перепробовал... Никак не получается нормально открыть этот csv-шник: https://drive.google.com/file/d/1Q3lCw_8Uad_OzHCjvLeYRvamXR74UPbW/view

dataset = pd.read_csv("salary_dataset.csv") получает ParserError: Error tokenizing data. C error: EOF inside string starting at row 121535 (при этом тот же самый код с просто read_csv всё корректно считывает в Jupyter Lab)
Пробую dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE) Получаю ParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6
Новая попытка: dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE, sep='\t'). Тут уже ошибки нет, но в результате получается 1 слипшаяся колонка FullDescription,SalaryNormalized,в которой данные тоже слиплись, должно быть 2 колонки в результате: в FullDescription все описания, в SalaryNormalized зарплаты
Пробую dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE, sep=',') теперь получаю ParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6

В общем никак не хочет работать. При этом в Jupyter Lab всё открывается корректно обычным pd.read_csv("salary_dataset.csv"). Помогите пофиксить, пожалуйста =(

Answer 1

У меня получилось без проблем прочитать с encoding='utf-8'

import pandas as pd

dataset = pd.read_csv("salary_dataset.csv", encoding='utf-8')

print(dataset.keys())

Вывело в консоль Index(['FullDescription', 'SalaryNormalized'], dtype='object')

print(dataset['SalaryNormalized'])

Вывело

0         55000
1         27500
2         72098
3         32400
4         67500
          ...  
199995    17161
199996    26000
199997    28500
199998    25000
199999    65000
Name: SalaryNormalized, Length: 200000, dtype: int64

БЛОГ НА HUSL

Не получается read_csv в google colab

Ответы (1 шт):