Проблема кодировки при парсинге html-страницы на python
Учусь парсить на питоне с html-страницы. Однако вместо 'Главная страница блога' выходит 'Главная страница блога'. Хэлп ми!)
from bs4 import BeautifulSoup
with open('testing.html') as file:
src = file.read()
soup = BeautifulSoup(src, 'lxml')
title = soup.find('title')
print(title)
Вот что указано в начале html кода:
'html lang="ru"><meta charset="UTF-8"'
Ответы (2 шт):
Автор решения: Adamant
→ Ссылка
В CMD выполните intl.cpl и там укажите глобально UTF-8.
Вкладка "Дополнительно" -> "Изменить язык системы" -> установите флажок "Бета-версия: Использовать Юникод (UTF-8) для поддержки языка во всем мире"
Автор решения: Егор Колесов
→ Ссылка
from bs4 import BeautifulSoup
with open('testing.html', encoding="utf-8") as file:
src = file.read()
soup = BeautifulSoup(src, 'lxml')
title = soup.find('title')
print(title)