Как выбрать столбцы в Pandas

Автор вопроса: Михаил Корчагин

Хочу попробовать сделать классификатор документов используя этот датасет https://www.kaggle.com/olegbartenyev/doc-cls/discussion . При открытии пытаюсь сделать столбцы , там где содержится символ # . Но ничего не выходит Делал через read_csv

Источник

Ответы (1 шт):

Автор решения: CrazyElf

Посмотрел данные. Там же всего два столбца, проще каждую строку просто через partition(' ') разделить, прочитав эти данные как обычный текстовый файл. Pandas вам не нужен, у вас первый столбец - это категория в качестве целевой переменной, а дальше идёт текст, который вам нужно будет как-то обрабатывать, чтобы сделать из него признаки. Библиотека Pandas тут не нужна от слова совсем - вам просто нечего выбирать в этих данных с её помощью, с такими данными проще обращаться как с двумя отдельными списками.

Pandas хорош для табличных данных, если столбцы разделены каким-то символом. Тут нет такой структуры - пробел отделяет первую колонку, но дальше он спокойно используется в тексте как обычный символ, поэтому он не может служить нормальным разделителем как в csv файлах.

→ Ссылка

БЛОГ НА HUSL

Как выбрать столбцы в Pandas

Ответы (1 шт):