Как в датафрейме Pandas перекодировать символы на utf-8?

Question

Немного глупый вопрос, но что-то загнался. Реализую прообраз поисковика: он парсит конкретный сайт, сохраняет его тексты, разбирает их аналитически, а следом поможет искать пользователю нужные ему новости, когда тот введет поисковые фразы.

Сейчас я создал датафрейм Pandas'а, где в левом столбце - адрес новости, а в правом - текст, разбитый на предложения. Одна строка - одно предложение из конкретной новости, вторая строка - второе предложение из этой же новости и т.д.

Отчего-то часть текстов представлена в строках не русскими буквами, а их кодами. Как вернуть в представление русских слов?

full_link_df = pd.DataFrame(columns=['link', 'sentence_order', 'sentence_text'])

# pages_texts - словарь, где ключи - 
# это адреса файлов с текстом конкретной новости, 
# значения - текст этой новости:
for link, text in pages_texts.items():
    # extract_sentences() - функция, которая выполняет действия:
    # токенизирует слова модулем nltk, 
    # приводит к норм.форме через pymorphy2, 
    # складывает в общий список: 
    sentences = extract_sentences(text) 
    sentence_count = len(sentences)
    
    link_df = pd.DataFrame({'link': np.repeat(link, sentence_count),
                            'sentence_order': np.arange(sentence_count),
                            'sentence_text': sentences})
    
    full_link_df = full_link_df.append(link_df)

БЛОГ НА HUSL

Как в датафрейме Pandas перекодировать символы на utf-8?

Ответы (0 шт):