Не получается read_csv в google colab

уже почти всё перепробовал... Никак не получается нормально открыть этот csv-шник: https://drive.google.com/file/d/1Q3lCw_8Uad_OzHCjvLeYRvamXR74UPbW/view

  1. dataset = pd.read_csv("salary_dataset.csv") получает ParserError: Error tokenizing data. C error: EOF inside string starting at row 121535 (при этом тот же самый код с просто read_csv всё корректно считывает в Jupyter Lab)

  2. Пробую dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE) Получаю ParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6

  3. Новая попытка: dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE, sep='\t'). Тут уже ошибки нет, но в результате получается 1 слипшаяся колонка FullDescription,SalaryNormalized,в которой данные тоже слиплись, должно быть 2 колонки в результате: в FullDescription все описания, в SalaryNormalized зарплаты

  4. Пробую dataset = pd.read_csv("salary_dataset.csv", quoting=csv.QUOTE_NONE, sep=',') теперь получаю ParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6

В общем никак не хочет работать. При этом в Jupyter Lab всё открывается корректно обычным pd.read_csv("salary_dataset.csv"). Помогите пофиксить, пожалуйста =(


Ответы (1 шт):

Автор решения: CraSmi

У меня получилось без проблем прочитать с encoding='utf-8'

import pandas as pd

dataset = pd.read_csv("salary_dataset.csv", encoding='utf-8')

print(dataset.keys())

Вывело в консоль Index(['FullDescription', 'SalaryNormalized'], dtype='object')

print(dataset['SalaryNormalized'])

Вывело

0         55000
1         27500
2         72098
3         32400
4         67500
          ...  
199995    17161
199996    26000
199997    28500
199998    25000
199999    65000
Name: SalaryNormalized, Length: 200000, dtype: int64
→ Ссылка