Может кто то показать как парсить этот сайт и почему обычным способом он не парситься

(когда/если я получу ответ на свой вопрос я поменяю текст своего вопроса на более точный/вменяемый)

Я только начал заниматься парсингом, и пока очень слабо в нем понимаю.. Мне нужно спарсить всего одно число с этого сайта

введите сюда описание изображения

Я пробовал парсить через css селектор пакетом "rvest"

но не получил результата

library("rvest")
url <- "https://www.fxblue.com/market-data/tools/sentiment"
web <- read_html(url)  
nodes <-  html_nodes(web,".SentimentValueCaptionLong")
html_text(nodes)

"character(0)"

Потом попробовал сделать через веб движек с пакетом "RSelenium"

library(RSelenium)
rD <- rsDriver(browser="chrome",port=0999L,verbose = F,chromever = "95.0.4638.54")
remDr <- rD[["client"]]
remDr$maxWindowSize()
remDr$navigate("https://www.fxblue.com/market-data/tools/sentiment")
html <- remDr$getPageSource()[[1]]
page <- read_html(html)
nodes <- html_nodes(page, ".SentimentValueCaptionLong")
html_text(nodes)

"character(0)"

как можно "побить" этот сайт? 1:


Ответы (1 шт):

Автор решения: Mikhail M. Gorbunov
library(httr)
r <- GET("https://www.fxblue.com/market-data/tools/sentiment")
x <- content(r, "parsed")
headers(r)
nodes <-  html_nodes(x,"div")
nodes[27]

хорошо видно, что контейнер "SentimentContainer" в котором хранятся эти данные - пуст. Он каким-то образом обрезается при автоматической запросе к странице.

{xml_nodeset (1)}
...{div id="SentimentContainer"}{/div}

< и > пришлось заменить на { и }

На сайте включена защита от скрапинга, и данные с него путем скрапинга получить нет возможности.

→ Ссылка