Как сохранить ссылки в одну data разбив их по сайтам и дальней работы с ними?

Question

Пишу парсер для сайтов: Цель загружать ексель файл со списком сайтов - он по каждому проходил, по возможности искал все ссылки с тегом А вытаскивал их, сохранял, далее по каждой ссылке от сайта проходился бы и вытаскивал соц сетки.

На данном этапе парсер работает и корректно вытаскивая за исключением одного но, если не делать For во второй части, то при изменение в ручную сайта он предыдущие данные подставляет ( если в новом не нашлись) - попытался сделать цикл For, результат стал хуже тк теперь он выдает его по всем ссылкам, которые изначально собрал для обработки Как решить эту проблему я не понимаю - тем более, понимаю, что если подцеплю цикл и работу с большим количеством сайтов - ссылки с них он будет засовывать в одну data без разделения на принадлежность к сайту. Я только новичок в данном деле и я не понимаю как исправить и доделать все То есть - как при сборе ссылок с каждого сайта запихивать их в дату с привязкой к сайту и чтобы по ним уже шла работа как избавиться от сохранения уже отобранных сайтов при условии не нахождения их в других сурсах

data = []
for p in range(0,1):
    print(p)
    
    url = f'https://pesetatoken.com'
    try:

        r = requests.get(url)
        soup = BeautifulSoup(r.text, 'lxml')
        All_tag = soup.findAll('a')

        for All_tags in All_tag:

            All_link = All_tags.get('href')

            data.append(All_link)
    except:
        print('сайт не дается')
        


win2 = []

# Чтобы остановиться на первом совпадении
for All_link in data:
    try:    
        for i in range(len(All_link)):
            try:
                if 'linkedin' in All_link[i]:
                    linkedin = All_link[i]
                    break
            except:
                linkedin = ''

        for i in range(len(All_link)):
            try:
                if 'twitter' in All_link[i]:
                    twitter = All_link[i]
                    break
            except:
                twitter = '0'

        for i in range(len(All_link)):
            try:

                if 't.me' in All_link[i]:
                    telegram = All_link[i]
                    break
            except:
                telegram = ''

        for i in range(len(All_link)):
            try:
                if 'discord' in All_link[i]:
                    discord = All_link[i]
                    break  

            except:
                discord = ''        

        for i in range(len(All_link)):
            try:
                if 'instagram.com' in All_link[i]:
                    instagram = All_link[i]        
                    break
            except :
                instagram = ''
            

        
        
        
        win2.append([twitter,linkedin,telegram,discord,instagram])        
        print(win2)
    except:
        print('net')

БЛОГ НА HUSL

Как сохранить ссылки в одну data разбив их по сайтам и дальней работы с ними?

Ответы (0 шт):