Как выбрать столбцы в Pandas
Хочу попробовать сделать классификатор документов используя этот датасет https://www.kaggle.com/olegbartenyev/doc-cls/discussion . При открытии пытаюсь сделать столбцы , там где содержится символ # . Но ничего не выходит Делал через read_csv
Ответы (1 шт):
Посмотрел данные. Там же всего два столбца, проще каждую строку просто через partition(' ') разделить, прочитав эти данные как обычный текстовый файл. Pandas вам не нужен, у вас первый столбец - это категория в качестве целевой переменной, а дальше идёт текст, который вам нужно будет как-то обрабатывать, чтобы сделать из него признаки. Библиотека Pandas тут не нужна от слова совсем - вам просто нечего выбирать в этих данных с её помощью, с такими данными проще обращаться как с двумя отдельными списками.
Pandas хорош для табличных данных, если столбцы разделены каким-то символом. Тут нет такой структуры - пробел отделяет первую колонку, но дальше он спокойно используется в тексте как обычный символ, поэтому он не может служить нормальным разделителем как в csv файлах.