почему при открытии небольшого файла csv, перевод в формат parquet происходит без проблем

Я только начинаю изучать библиотеки dask и pandas, поэтому возникают вопросы.

У меня есть 2 csv-файла.

В первом файле 100_table.csv содержатся различные данные на 100 строк и 100 колонок. Я открываю его с такими параметрами df = dd.read_csv('100_table.csv', sep = ';', encoding = 'utf-8'). Затем перевожу в формат parquet при помощи df2 = df.to_parquet('100_table_csv'). Все происходит гладко, без проблем и искажения данных внутри файла.

Во втором файле 1000000_table.csv содержатся различные данные на 1_000_000 строк и 100 колонок, при этом первые 100 строк идентичны строкам в первом файле 100_table.csv, по сути первый файл является 0,01% от второго. Открываю его с такими же параметрами df = dd.read_csv('1000000_table.csv', sep = ';', encoding = 'utf-8') как и в первом файле. Но при переводе в parquet начинаются проблемы.

pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at row 6819

Добавлял различные параметры для чтения csv-файла: engine, dtype, dtypequotechar, quoting, error_bad_lines. Но ничего не помогло, либо файл все же переводился в parquet, но данные искажались. При этом пропускать плохие строки нельзя, так как для работы требуются все данные.

Есть у кого-нибудь советы? Буду очень признателен.

Источник

БЛОГ НА HUSL

почему при открытии небольшого файла csv, перевод в формат parquet происходит без проблем

Ответы (0 шт):