Raspado de página web con react JS en R

jyjek Publicado en Dev

jyjek

Estoy intentando raspar la página siguiente: https://metro.zakaz.ua/uk/?promotion=1
Esta página con contenido de reacción.
Puedo raspar la primera página con el código:

url="https://metro.zakaz.ua/uk/?promotion=1"

read_html(url)%>%
  html_nodes("script")%>%
  .[[8]] %>% 
  html_text()%>%
  fromJSON()%>%
  .$catalog%>%.$items%>%
  data.frame

Como resultado, tengo todos los elementos de la primera página, pero no sé cómo raspar otras páginas.
Este código js se mueve a otra página si eso puede ayudar:

document.querySelectorAll('.catalog-pagination')[0].children[1].children[0].click()

¡Gracias por cualquier ayuda!

Ryanhnkim

Necesitará 'RSelenum' para realizar la navegación sin cabeza.

Consulte la configuración: ¿Cómo configurar rselenium para R?

library(RSelenium)
library(rvest)
library(tidyvers)

url="https://metro.zakaz.ua/uk/?promotion=1"

rD <- rsDriver(port=4444L, browser="chrome")
remDr <- rD[['client']]

remDr$navigate(url)

### adjust items you want to scrape 
    src <- remDr$getPageSource()[[1]]

    pg <- read_html(src)
    tbl <- tibble(
                    product_name = pg %>% html_nodes(".product-card-name") %>% html_text(),
                    product_info = pg %>% html_nodes(".product-card-info") %>% html_text()
                    )

## to handle pagenation (tested with 5 pages) - adjust accordinly
for (i in 2:5) {
    pages <- remDr$findElement(using = 'css selector',str_c(".page:nth-child(",i,")"))

    pages$clickElement()  

    ## wait 5 sec to load
    Sys.sleep(5)

    src <- remDr$getPageSource()[[1]]

        pg <- read_html(src)
        data <- tibble(
                    product_name = pg %>% html_nodes(".product-card-name") %>% html_text(),
                    product_info = pg %>% html_nodes(".product-card-info") %>% html_text()
                    )
        tbl <- tbl %>% bind_rows(data)
}

nrow(tbl)
head(tbl)
tail(tbl)

aquí hay una salida rápida:

Salida

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en2020-11-24

Déjame decir algunas palabras

0Comentarios

Iniciar sesiónRevisión de participación posterior

Anterior:¿Cómo configurar CMakeLists y package.xml para las dependencias de mensajes generados?

TOP Lista

Artículos

Raspado de página web con react JS en R

Raspado de página web con react JS en R

¿Cómo ocultar la aplicación web de los robots de búsqueda? (ASP.NET)

Limitar las entradas de One2many Lines en odoo

Ver todos los comentarios en un video de YouTube

Declaración if simple en intérprete de python

¿La mejor manera de construir la GUI de Java Swing?

Cómo conectar Flutter con MongoDB

Leer Azure Key Vault Secret de la aplicación Function

Importar archivo js con TypeScript 2.0

BeautifulSoup: extraer texto de la etiqueta de anclaje

Cerrar el menú de material angular desde el controlador

Error de menú desplegable en Bootstrap 4

La mejor manera de iterar SortedSet / SortedMap en Java al revés

¿Precedencia de operadores?

Google 스프레드 시트 : QUERY를 사용하여 그룹 내 상위 N 개 케이스 선택

Intentando reproducir mp3 usando Vue.js

Extraction du nœud enfant de la réponse JSON à l'aide du script SoapUI-Groovy

Comparer des images dans Pygame (pas pixel par pixel)

Estructura de la carpeta del proyecto Spring Boot para el cliente de descanso

Validación de formulario Angular 4

La mejor manera de leer archivos binarios estructurados con Java

cómo usar% dopar% cuando solo se importa foreach en la DESCRIPCIÓN de un paquete