Выделить домен сайта с помощью регулярных выражений
Отрывок текста:
<a href="http://credit.rbc.ru/news/other/2009/03/30/70781.shtml">ЦБ РФ отозвал лицензии еще у двух банков</a></li><li><a href="http://credit.rbc.ru/recommendation/auto/2009/03/26/70657.shtml"', '"'), ('<a href="http://www.rbc.ru/services/"', '"'), ('<a href="http://graph.rbc.ru/"', '"'), ('<a href="http://portfolio.rbc.ru/"', '"'), ('<a href="http://export.rbc.ru/"', '"'),
Задача выделить все домены такого вида: credit.rbc.ru (любой сайт может быть). Я написал регулярное выражение, которое ищет все, начиная с <a href=(так требуется по условию). Моя задача теперь извлечь сам домен. Как выделить нужную группу, я не могу понять (т.е. текст после http://). Вот мой вариант: re.findall(r'<a href="https?://\w[\d\w\.-]+', res.text).Тестирую на этом примере. Задание учебное, поэтому не использую beautifulsoup
Ответы (1 шт):
Случайно нашел ответ на свой вопрос, взяв выражение в скобки после https?://. Хотя этот вариант не работал на сайте https://regexr.com/, но заработал на python. Получилось так: re.findall(r'<a.+?href="https?://(\w[\d\w\.-]+)', res.text)