Как спарсить теги видео на ютубе с помощью python?

Как спарсить теги видео на ютубе с помощью python? Позиции тегов не нужны


Ответы (1 шт):

Автор решения: Johan

Можно попробовать воспользоваться библиотекой pytube.

Для примера небольшой код:

# pip install pytube

from pytube import YouTube

def get_keywords(url: str) -> list:
    yt = YouTube(url)
    return yt.keywords


def main():
    url = input('Введите ссылку на видео: ')
    if "youtube.com" not in url or 'playlists' in url:
        print('Введите правильную ссылку')
        return
    kw = get_keywords(url)
    if not kw:
        print('\nВ данном видео нет ключевых слов')
    else:
        print(f'\nНайдены ключевые слова:\n{"-"*23}')
        print(kw)


if __name__ == "__main__":
    main()

В ответе получите ключевые слова к видео.

['Пробуем школьную еду', 'Школьные истории', 'ПРОБУЕМ ШКОЛЬНУЮ ЕДУ под ШКОЛЬНЫЕ ИСТОРИИ', 'Пробуем еду из школьной столовой', 'Мои школьные истории', 'Как я учился в школе', 'Школьная еда', 'Самая не вкусная школьная еда']

Или можно так:

# pip install requests bs4 lxml

import requests
from bs4 import BeautifulSoup

headers = {
    'authority': 'www.youtube.com',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,'
              'application/signed-exchange;v=b3;q=0.9',
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 '
                  'Safari/537.36',
}


def get_keywords(url: str) -> list:
    keywords = []
    req = requests.get(url=url, headers=headers)
    soup = BeautifulSoup(req.text, 'lxml')
    tags = soup.find_all('meta', property="og:video:tag")
    for tag in tags:
        keywords.append(tag['content'])
    return keywords



def main():
    url = input('Введите ссылку на видео: ')
    if "youtube.com" not in url or 'playlists' in url:
        print('Введите правильную ссылку')
        return
    kw = get_keywords(url)
    if not kw:
        print('\nВ данном видео нет ключевых слов')
    else:
        print(f'\nНайдены ключевые слова:\n{"-"*23}')
        print(kw)


if __name__ == "__main__":
    main()

Результат получается тот же самый.

→ Ссылка