Raspado de páginas almacenadas en caché

Borges de 8 bits

Estoy usando scrapypara buscar contenido web, de esta manera:

class PitchforkTracks(scrapy.Spider):
    name = "pitchfork_tracks"
    allowed_domains = ["pitchfork.com"]
    start_urls = [
                    "http://pitchfork.com/reviews/best/tracks/?page=1",
                    "http://pitchfork.com/reviews/best/tracks/?page=2",
                    "http://pitchfork.com/reviews/best/tracks/?page=3",
     ]

todo está funcionando bien.

ahora, en lugar de ir directamente a las páginas, me gustaría raspar google cacheslas mismas páginas.

¿Qué es lo adecuado syntaxpara lograrlo?

PD: Lo he intentado "cache:http://pitchfork.com/reviews/best/tracks/?page=1",, en vano.

Piyush

puede usar la siguiente URL de Google para raspar la página de caché

http://webcache.googleusercontent.com/search?q=cache:http://pitchfork.com/reviews/best/tracks/?page=1

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en
0

Déjame decir algunas palabras

0Comentarios
Iniciar sesiónRevisión de participación posterior

Artículos relacionados

Páginas iónicas no almacenadas en caché

Páginas iónicas no almacenadas en caché

¿Cómo puedo actualizar mi script de serviceworker para actualizar las páginas almacenadas en caché cuando se realizan cambios?

Comprender cómo funciona el marco de caché de Django y lidiar con las páginas almacenadas en caché para diferentes roles de usuario

¿Cómo eliminar las credenciales almacenadas en caché de Git?

Raspado de páginas web de BeautifulSoup

Resultados de raspado mostrados en varias páginas de un sitio ".aspx"

Scrapy: raspado de diferentes páginas web en una secuencia de comandos scrapy

Raspado de páginas con longitudes inconsistentes en el marco de datos

Reaccionar - Variables de inicio de sesión almacenadas en caché en el navegador

Picasso está usando datos para imágenes almacenadas en caché en un widget de aplicación

Cómo borrar imágenes almacenadas en caché en el servidor proxy de gmail

¿Cómo agregar "público" por defecto a las vistas almacenadas en caché por Django?

Formularios de Xamarin que muestran identidades de firma almacenadas en caché

Formularios de Xamarin que muestran identidades de firma almacenadas en caché

Acceder a imágenes almacenadas en caché desde la implementación de LruCache

Busto imágenes de fondo CSS almacenadas en caché con Grunt

Almacenamiento en caché de resultados de búsqueda (JSON) entre páginas en React

Raspado y análisis de tablas de varias páginas (aspx)

Raspado de nodos html de varias páginas

Problema de raspado web de varias páginas

¿Es posible deshabilitar el almacenamiento en caché de las páginas de administración de Django?

¿Es posible deshabilitar el almacenamiento en caché de las páginas de administración de Django?

Tabla de raspado (varias páginas) a Pandas Dataframe

Raspado paralelo titiritero a través de varias páginas

Raspado de páginas web con Beautiful soup

Rutas almacenadas en caché por service worker en react

La compilación de la consola de Android Studio no puede reutilizar las dependencias de Gradle almacenadas en caché

¿Cómo el almacenamiento en caché de páginas usa ionic 2?

TOP Lista

CalienteEtiquetas

Archivo