пишу парсер на bs4, но он выводит лишние элементы
первая часть кода. так как на сайте используется одно и тоже название класса для судна и его авиакомпании он выводит и то и то. во второй части кода как раз таки проблема, программа выводила пустой список если бортовой номер судна пропарсить так же как и его модель, пришлось сделать парсинг бортового номера через href где он как раз выводит лишние элементы, убрать которые с помощью replace не получается, они не являются ни пробелами, ни слэшами, ни запятыми. что с этим можно сделать?
from bs4 import BeautifulSoup
import requests
def parse_aircrafts(html):
soup = BeautifulSoup(html, 'html.parser')
topic = soup.find_all('td', 'lef td6 bri ns')
return [t.text for t in topic]
def parse_tailnumber(html):
soup = BeautifulSoup(html, 'html.parser')
topic = soup.find_all('a', href=True, target='_blank')
return [t.text for t in topic]
def get_html(url):
response = requests.get(url)
return response.text
url = 'https://russianplanes.net/regsearch/?status2=1&'
a = get_html(url)
b = parse_aircrafts(a)
for i in b:
i = i.replace('\xa0\r\n\t\t\t', '')
print("Aircraft model:", i)
c = parse_tailnumber(a)
new_c = c[30:]
new_list = []
for f in new_c:
f = f.replace('\n', '')
f = f.replace('-', '')
f = f.replace(' ', '')
new_list.append(f)
print(new_list)
вот код

