Поиск всего текста на сайте
У меня есть url: https://www.deutschland.de/ru/news/berbok-nazvala-klimaticheskiy-krizis-samoy-bolshoy-problemoy-s-tochki-zreniya-bezopasnosti
Я хочу вытащить из этой страницы весь русский текст, который относиться к новости, а точнее заголовок(Бербок назвала климатический), заявление(На Петерсбергском климатическом...) и описание(Министр иностранных дел...), как это можно удобно сделать, используя requests?
У меня получилось вот так, но я не уверен, что это лучший вариант:
j=[]
code1=requests.get(url='https://www.deutschland.de/ru/news/berbok-nazvala-klimaticheskiy-krizis-samoy-bolshoy-problemoy-s-tochki-zreniya-bezopasnosti').text
code2=code1
code1=code1.split()
for i in range (len(code1)):
if '<p>' in code1[i]:
while True:
if '</p>' in code1[i]:
break
j.append(code1[i])
i+=1
print(code2)
print(j)
Ответы (1 шт):
Автор решения: n1tr0xs
→ Ссылка
Можно использовать модуль bs4:
import requests
from bs4 import BeautifulSoup as BS
url = 'https://www.deutschland.de/ru/news/berbok-nazvala-klimaticheskiy-krizis-samoy-bolshoy-problemoy-s-tochki-zreniya-bezopasnosti'
resp = requests.get(url)
soup = BS(resp.content, 'lxml')
headline = soup.find('h1', attrs={'class': 'story__headline'}).text # заголовок
summary = soup.find('div', attrs={'class': 'story__summary'}).text # заявление
content = soup.find('div', attrs={'class': 'story__content'}).text # описание
print(headline)
print(summary)
print(content)