Как сохранить ссылки в одну data разбив их по сайтам и дальней работы с ними?
Пишу парсер для сайтов: Цель загружать ексель файл со списком сайтов - он по каждому проходил, по возможности искал все ссылки с тегом А вытаскивал их, сохранял, далее по каждой ссылке от сайта проходился бы и вытаскивал соц сетки.
На данном этапе парсер работает и корректно вытаскивая за исключением одного но, если не делать For во второй части, то при изменение в ручную сайта он предыдущие данные подставляет ( если в новом не нашлись) - попытался сделать цикл For, результат стал хуже тк теперь он выдает его по всем ссылкам, которые изначально собрал для обработки Как решить эту проблему я не понимаю - тем более, понимаю, что если подцеплю цикл и работу с большим количеством сайтов - ссылки с них он будет засовывать в одну data без разделения на принадлежность к сайту. Я только новичок в данном деле и я не понимаю как исправить и доделать все То есть - как при сборе ссылок с каждого сайта запихивать их в дату с привязкой к сайту и чтобы по ним уже шла работа как избавиться от сохранения уже отобранных сайтов при условии не нахождения их в других сурсах
data = []
for p in range(0,1):
print(p)
url = f'https://pesetatoken.com'
try:
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')
All_tag = soup.findAll('a')
for All_tags in All_tag:
All_link = All_tags.get('href')
data.append(All_link)
except:
print('сайт не дается')
win2 = []
# Чтобы остановиться на первом совпадении
for All_link in data:
try:
for i in range(len(All_link)):
try:
if 'linkedin' in All_link[i]:
linkedin = All_link[i]
break
except:
linkedin = ''
for i in range(len(All_link)):
try:
if 'twitter' in All_link[i]:
twitter = All_link[i]
break
except:
twitter = '0'
for i in range(len(All_link)):
try:
if 't.me' in All_link[i]:
telegram = All_link[i]
break
except:
telegram = ''
for i in range(len(All_link)):
try:
if 'discord' in All_link[i]:
discord = All_link[i]
break
except:
discord = ''
for i in range(len(All_link)):
try:
if 'instagram.com' in All_link[i]:
instagram = All_link[i]
break
except :
instagram = ''
win2.append([twitter,linkedin,telegram,discord,instagram])
print(win2)
except:
print('net')