Попытка применть Modin[Dask] к рабочему проекту - провал при чтении файла pd.read_csv()

Есть работающий проект.
Захотелось ускорить работу ввиду чтения 1+ Гб csv файлов и всяких там groupby() + apply(). Реклама, обещавшая заменить всего одну строчку, привлекла.
Установил с нуля все нужные пакеты в Anaconda / Python 3.9.12. Устанавливал только Dask, чтоб иметь больше определенности на всякий случай.

Запускаю и вот:

    UserWarning: Dask execution environment not yet initialized. Initializing...
To remove this warning, run the following python code before doing dataframe operations:

    from distributed import Client

    client = Client()


    2022-06-06 13:00:20,340 - distributed.diskutils - INFO - Found stale lock file and directory 'D:\\OD\\OneDrive\\Projects\\Chud_Amaz\\Soft_in_dev\\moduled_way_OOP\\dask-worker-space\\worker-75ktabxn', purging
    2022-06-06 13:00:20,365 - distributed.diskutils - INFO - Found stale lock file and directory 'D:\\OD\\OneDrive\\Projects\\Chud_Amaz\\Soft_in_dev\\moduled_way_OOP\\dask-worker-space\\worker-97o0hmer', purging
    2022-06-06 13:00:20,370 - distributed.diskutils - INFO - Found stale lock file and directory 'D:\\OD\\OneDrive\\Projects\\Chud_Amaz\\Soft_in_dev\\moduled_way_OOP\\dask-worker-space\\worker-ck5pxauy', purging
    2022-06-06 13:00:20,377 - distributed.diskutils - INFO - Found stale lock file and directory 'D:\\OD\\OneDrive\\Projects\\Chud_Amaz\\Soft_in_dev\\moduled_way_OOP\\dask-worker-space\\worker-qswh4ton', purging
    2022-06-06 13:00:20,386 - distributed.diskutils - INFO - Found stale lock file and directory 'D:\\OD\\OneDrive\\Projects\\Chud_Amaz\\Soft_in_dev\\moduled_way_OOP\\dask-worker-space\\worker-vmsc68w6', purging
    2022-06-06 13:00:20,390 - distributed.diskutils - INFO - Found stale lock file and directory 'D:\\OD\\OneDrive\\Projects\\Chud_Amaz\\Soft_in_dev\\moduled_way_OOP\\dask-worker-space\\worker-ys_mgy6k', purging
    OD ---> Cant read csv D:\_\OD\AD__OD_04.06.22\AD__RET.csv. Error is index 0 is out of bounds for axis 0 with size 0
    Traceback (most recent call last):
  File D:\OD\OneDrive\Projects\Chud_Amaz\Soft_in_dev\moduled_way_OOP\izi_report_main_foldered.py:108 in <module>
    main_foldered()

  File D:\OD\OneDrive\Projects\Chud_Amaz\Soft_in_dev\moduled_way_OOP\izi_report_main_foldered.py:81 in main_foldered
    assert False, "Bad input files"

AssertionError: Bad input files

Поскольку я не понимаю, что от меня хочет Dask, хотел спросить - что бы это могло быть? Ну то есть все работало. Добавил в модули такое:

try:
    import modin.pandas as pd
except:
    import pandas as pd

И - меня обматерили. Подскажите - куда бежать?
И - да. У меня Windows10, AMD.

Ну то есть , кратко вопрос звучит так:

После установки modin[dask] работающий код выдает ошибку:

Error is index 0 is out of bounds for axis 0 with size 0
Traceback (most recent call last):

Сам read_csv() с такими параметрами:

            readed_into_df = pd.read_csv(
                str(file_path),
                skiprows=skiprows_list,
                sep=separator,
                encoding=en_cod_,
                thousands=",",  # TODO: chek it
                on_bad_lines="skip",
                usecols=columns_dtype.keys(),
                dtype=columns_dtype,
            )

Ответы (1 шт):

Автор решения: Vasyl Kolomiets

Часть ответа нашел. Может, кому понадобится.

Dask read_csv и натуральный read_csv из pandas по разному обрабатывают параметр skiprows. В моем случае

skiprows=skiprows_list,

там может быть перечень пропускаемых номеров строк - skiprows_list. И в частном случае - пустой список, который pandas просто не пропускает строк и молча работает. Dask же падает. И даже если подставить туда число скажем 0, падает тоже. Он ухитряется на него что-то делить...

Правда как выяснилось, они по разному обрабатывают несоответствие типов и понятие "пропустить ошибочную строку". Изучение продолжается )

Дополнено
Как оказалось, я нашел-нарвался на ошибку в modin. Оформлен запрос на устранение бага. Жду релиза )

→ Ссылка