Поиск всего текста на сайте

Question

У меня есть url: https://www.deutschland.de/ru/news/berbok-nazvala-klimaticheskiy-krizis-samoy-bolshoy-problemoy-s-tochki-zreniya-bezopasnosti

Я хочу вытащить из этой страницы весь русский текст, который относиться к новости, а точнее заголовок(Бербок назвала климатический), заявление(На Петерсбергском климатическом...) и описание(Министр иностранных дел...), как это можно удобно сделать, используя requests?

У меня получилось вот так, но я не уверен, что это лучший вариант:

j=[]
code1=requests.get(url='https://www.deutschland.de/ru/news/berbok-nazvala-klimaticheskiy-krizis-samoy-bolshoy-problemoy-s-tochki-zreniya-bezopasnosti').text
code2=code1
code1=code1.split()
for i in range (len(code1)):
    if '<p>' in code1[i]:
        while True:
            if '</p>' in code1[i]:
                break
            j.append(code1[i])
            i+=1
print(code2)
print(j)

Answer 1

Можно использовать модуль bs4:

import requests
from bs4 import BeautifulSoup as BS

url = 'https://www.deutschland.de/ru/news/berbok-nazvala-klimaticheskiy-krizis-samoy-bolshoy-problemoy-s-tochki-zreniya-bezopasnosti'
resp = requests.get(url)

soup = BS(resp.content, 'lxml')
headline = soup.find('h1', attrs={'class': 'story__headline'}).text # заголовок
summary = soup.find('div', attrs={'class': 'story__summary'}).text # заявление
content = soup.find('div', attrs={'class': 'story__content'}).text # описание

print(headline)
print(summary)
print(content)

БЛОГ НА HUSL

Поиск всего текста на сайте

Ответы (1 шт):