Может кто то показать как парсить этот сайт и почему обычным способом он не парситься
(когда/если я получу ответ на свой вопрос я поменяю текст своего вопроса на более точный/вменяемый)
Я только начал заниматься парсингом, и пока очень слабо в нем понимаю.. Мне нужно спарсить всего одно число с этого сайта
Я пробовал парсить через css селектор пакетом "rvest"
но не получил результата
library("rvest")
url <- "https://www.fxblue.com/market-data/tools/sentiment"
web <- read_html(url)
nodes <- html_nodes(web,".SentimentValueCaptionLong")
html_text(nodes)
"character(0)"
Потом попробовал сделать через веб движек с пакетом "RSelenium"
library(RSelenium)
rD <- rsDriver(browser="chrome",port=0999L,verbose = F,chromever = "95.0.4638.54")
remDr <- rD[["client"]]
remDr$maxWindowSize()
remDr$navigate("https://www.fxblue.com/market-data/tools/sentiment")
html <- remDr$getPageSource()[[1]]
page <- read_html(html)
nodes <- html_nodes(page, ".SentimentValueCaptionLong")
html_text(nodes)
"character(0)"
как можно "побить" этот сайт? 1:
Ответы (1 шт):
library(httr)
r <- GET("https://www.fxblue.com/market-data/tools/sentiment")
x <- content(r, "parsed")
headers(r)
nodes <- html_nodes(x,"div")
nodes[27]
хорошо видно, что контейнер "SentimentContainer" в котором хранятся эти данные - пуст. Он каким-то образом обрезается при автоматической запросе к странице.
{xml_nodeset (1)} ...{div id="SentimentContainer"}{/div}
< и > пришлось заменить на { и }
На сайте включена защита от скрапинга, и данные с него путем скрапинга получить нет возможности.
