Python Scraping, la page Web n'existe pas mais le site Web redirige vers une autre page

Assad Mahmood

J'essaie de trouver un moyen de savoir si une page Web existe ou non. il existe de nombreuses méthodes comme httlib2, urlparse et l'utilisation de requêtes . mais dans mon cas, le site Web me redirige vers la page d'accueil si la page Web n'existe pas, par exemple https://www.thenews.com.pk/latest/category/sports/2015-09-21

Y a-t-il une méthode pour attraper ça ?

Hellmar Becker

L'URL que vous mentionnez donne un code de retour de redirection (307) que vous pouvez capturer. Vois ici:

$ curl -i https://www.thenews.com.pk/latest/category/sports/2015-09-21
HTTP/1.1 307 Temporary Redirect
Date: Sun, 26 Mar 2017 10:13:39 GMT
Content-Type: text/html; charset=UTF-8
Transfer-Encoding: chunked
Connection: keep-alive
Set-Cookie: __cfduid=ddcd246615efb68a7c72c73f480ea81971490523219; expires=Mon, 26-Mar-18 10:13:39 GMT; path=/; domain=.thenews.com.pk; HttpOnly
Set-Cookie: bf_session=b02fb5b6cc732dc6c3b60332288d0f1d4f9f7360; expires=Sun, 26-Mar-2017 11:13:39 GMT; Max-Age=3600; path=/; HttpOnly
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Location: https://www.thenews.com.pk/
X-Cacheable: YES
X-Varnish: 654909723
Age: 0
Via: 1.1 varnish
X-Age: 0
X-Cache: MISS
Access-Control-Allow-Origin: *
Server: cloudflare-nginx
CF-RAY: 345956a8be8a7289-AMS

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le
0

laisse moi dire quelques mots

0commentaires
connexionAprès avoir participé à la revue

Articles connexes

Scraping de données: la page Web n'existe pas sauf si je la charge via le site Web principal

Python Web scrape une page qui redirige vers une autre page

.net core web api redirige vers une autre page

Site Web statique S3 via Route 53. Redirection vers la page si le chemin n'existe pas

Se connecter à un site Web avec Jsoup qui redirige et gratter une page qui n'est pas la redirection

Le site Web statique React redirige chaque page vers 404 en plus de la page d'accueil

La page de connexion ne redirige pas vers une autre page

Le site Web Angular SSR redirige vers la page de connexion avant d'accéder au chemin réel

HTML / CSS : Comment aligner le lien vers un autre site Web sur le centre de la page Web -> J'ai essayé d'aligner le lien sur le centre dans CSS ... n'a pas fonctionné

le serveur http python reçoit la publication http et redirige le client vers une autre page ?

L'élément <a> ne redirige pas vers une autre page et n'est pas cliquable

Réagir la force du routeur vers une autre page si une variable n'existe pas

Knockoutjs se lie correctement mais href sur une balise ne redirige pas vers la page

"/showForm" ne redirige pas vers la page showForm.jsp mais "showForm" le fait

.htaccess ne redirige pas correctement d'un site Web vers un autre site Web

localhost redirige vers une autre page

le formulaire ne redirige pas vers une nouvelle page

Comment rediriger vers une autre page Web?

L'API Web ne redirige pas vers la page de connexion du serveur d'identité

nginx redirige vers le mauvais site Web

La page ne redirige pas vers le lien donné Mandrill

Le logo ne redirige pas vers la page d'accueil

la redirection vers une autre page (setTimeout) n'arrête pas le chargement

La version non www redirige vers la page par défaut de nginx au lieu du site Web, comment puis-je résoudre le problème ?

La notification push sur le robinet ne redirige pas vers une page spécifique

Le routeur React redirige la page mais le composant n'est pas rendu

La fonction php qui redirige un lien vers une page aléatoire de mon site Web ne fonctionne qu'une seule fois. Comment puis-je le faire fonctionner à chaque fois?

Le pilote Web Python Selenium n'obtient rien mais le navigateur affiche normalement la page Web

Le scraping BeautifulSoup4 ne peut pas aller au-delà de la première page d'un site Web (Python 3.6)

TOP liste

  1. 1

    Filtrer le dataframe basé sur plusieurs colonnes d'un autre dataframe

  2. 2

    Laravel SQLSTATE [HY000] [1049] Base de données inconnue 'previous_db_name'

  3. 3

    Enregistrer le chemin de l'image de la galerie vers la base de données de la salle et l'afficher dans la liste des recycleurs

  4. 4

    Comment afficher du texte au milieu de div avec une couleur d'arrière-plan différente?

  5. 5

    Microsoft.WebApplication.targets

  6. 6

    Comment changer le navigateur par défaut en Microsoft Edge pour Jupyter Notebook sous Windows 10 ?

  7. 7

    Échec de l'exécution de 'insertBefore' sur 'Node': le paramètre 1 n'est pas de type 'Node'

  8. 8

    Empêcher l'allocation de mémoire dans la génération de combinaison récursive

  9. 9

    Comment analyser un fichier avec un tableau d'objets JSON en utilisant Node.js?

  10. 10

    comment afficher un bouton au-dessus d'un autre élément ?

  11. 11

    Comment centrer un div tout en utilisant la transition et transformer avec l'échelle

  12. 12

    Filtrer les données en fonction des conditions d'une trame de données

  13. 13

    ESP8266 HADRWARE MINUTERIE, USA pour cocher une macro étrange

  14. 14

    Comment définir du texte dans un QLabel et afficher les caractères '<>'?

  15. 15

    System.Data.SqlClient.SqlException: 'Nom de colonne non valide' ApplicationRoleId '.'

  16. 16

    Pourquoi Phantomjs ne fonctionne pas avec ce site ?

  17. 17

    Stop jQuery execution after one time execution

  18. 18

    Concaténer des variables dans ansible

  19. 19

    Comment calculer la probabilité du graphique de densité?

  20. 20

    php ajouter et fusionner des données de deux tables

  21. 21

    Redirection HTTP vers HTTPS dans Java à l'aide de HTTPURLConnection

chaudétiquette

Archive