Python Web scrape une page qui redirige vers une autre page

Denil Parmar

J'ai du mal à gratter le contenu d'une page Web.

Pour expliquer cela, voici mon code Python :

response = requests.post('http://a836-acris.nyc.gov/bblsearch/bblsearch.asp?borough=1&block=733&lot=66',{'User-Agent' : 'Mozilla/5.0'})

Cela me donne une page HTML contenant un formulaire (ne contenant pas la page finale):

<html xmlns="http://www.w3.org/1999/xhtml" >
<head>
    <title>Untitled Page</title>
</head>
<body>

    <form name="bbldata" action="https://a836-acris.nyc.gov/DS/DocumentSearch/BBLResult" method="post">
    <input type="hidden" name="hid_borough" value="1"/>
    <input type="hidden" name="hid_borough_name" value="MANHATTAN / NEW YORK" />
    <input type="hidden" name="hid_block" value="733"/>
    <input type="hidden" name="hid_block_value" value="733"/>
    <input type="hidden" name="hid_lot" value="66"/>
    <input type="hidden" name="hid_lot_value" value="66"/>
    <input type="hidden" name="hid_unit" value=""/>
    <input type="hidden" name="hid_selectdate" value=""/>
    <INPUT TYPE="HIDDEN" NAME="hid_datefromm"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datefromd"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datefromy"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datetom"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datetod"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datetoy"  VALUE="">
    <input type="hidden" name="hid_doctype" value=""/>
    <input type="hidden" name="hid_doctype_name" value="All Document Classes"/>
    <input type="hidden" name="hid_max_rows" value="10"/>
    <input type="hidden" name="hid_page" value="1" />
    <input type="hidden" name="hid_ReqID" value=""/>
    <input type="hidden" name="hid_SearchType" value="BBL"/>
    <input type="hidden" name="hid_ISIntranet" value="N"/>    
    <input type="hidden" name="hid_sort" value=""/>    
    </form>

<script language="JavaScript">
    document.bbldata.submit();
</script>
</body>
</html>

Cependant, si dans le navigateur vous entrez cette URL, vous obtenez finalement cette page Web après le chargement du script dans le code HTML, et cela doit être gratté :

entrez la description de l'image ici

Toute aide serait appréciée!

Plateau

Le tableau HTML de votre exemple montre les données que vous devez publier. Comme je pense que vous le savez, l'URL que vous utilisez est en fait le référent . Donc, vous devez :

# 1. Create a payload
payload = {
        'hid_borough': 1,
        'hid_borough_name': 'MANHATTAN / NEW YORK',
        'hid_block': 733,
        'hid_block_value': 733,
        'hid_lot': 66,
        'hid_lot_value': 66,
        'hid_doctype_name': 'All Document Classes',
        'hid_max_rows': 10,
        'hid_page': 1,
        'hid_SearchType': 'BBL',
        'hid_ISIntranet': 'N'
        }

# 2. Add the correct referer to your headers
header = {'User-Agent': 'Mozilla/5.0',
       'referer': 'http://a836-acris.nyc.gov/bblsearch/bblsearch.asp?borough=1&block=733&lot=66'}

# 3. Add payload and headers to the post
redirect = 'https://a836-acris.nyc.gov/DS/DocumentSearch/BBLResult'
result = requests.post(redirect, data=payload, headers=header)

print result.url
https://a836-acris.nyc.gov/DS/DocumentSearch/BBLResult

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le
0

laisse moi dire quelques mots

0commentaires
connexionAprès avoir participé à la revue

Articles connexes

.net core web api redirige vers une autre page

localhost redirige vers une autre page

Python Scraping, la page Web n'existe pas mais le site Web redirige vers une autre page

Comment écrire un service qui affiche du HTML ou qui redirige vers une autre page

Comment trouver où javascript redirige vers une autre page?

L'onglet Bootstrap me redirige vers une autre page HTML

Comment rediriger vers une autre page Web?

Comment puis-je faire qu'un bouton redirige ma page vers une autre page?

La page de connexion ne redirige pas vers une autre page

grattage d'une page qui redirige

le serveur http python reçoit la publication http et redirige le client vers une autre page ?

Balise de bouton qui renvoie vers une autre page HTML

Comment rediriger une page Web avec .html vers une autre

rediriger vers une autre page

ligne d'insertion/suppression rapide qui redirige vers une nouvelle page

AngularJS $ state.go ne redirige pas vers une autre page

L'élément <a> ne redirige pas vers une autre page et n'est pas cliquable

laravel si la route est nulle ou non existante redirige vers une autre page

Ionic 2 redirige vers une autre page après le démarrage de l'application

Lorsque je redirige vers une autre page, le stockage local est corrompu

Lorsque j'essaie d'analyser un produit amazon, ma demande redirige parfois vers une autre page

La page d'accueil Wordpress redirige vers une page anonyme

Razor @page routage vers une autre page

Htaccess redirige https vers http pour toutes les pages sauf la page d'accueil, redirige https pour la page d'accueil vers une autre URL

impossible de rediriger vers une autre page Web

Rediriger vers une autre page Web sur un bouton if isset

Puis-je rediriger vers une page Web à l'intérieur d'une autre page Web ?

Apache .htaccess redirige une seule page vers heroku

Codeigniter - redirige http vers https sauf une page (Amazon ELB)

TOP liste

  1. 1

    Comment utiliser HttpClient avec TOUT cert ssl, quelle que soit la « mauvaise » est

  2. 2

    Comment afficher du texte au milieu de div avec une couleur d'arrière-plan différente?

  3. 3

    Résultat de l'échantillonneur JMeter : comprendre le temps de chargement, le temps de connexion et la latence

  4. 4

    Modbus Python Schneider PM5300

  5. 5

    Pourquoi Object.hashCode () ne suit pas la convention du code Java

  6. 6

    Comment faire une recherche partielle et obtenir un score pertinent dans Elasticsearch

  7. 7

    Existe-t-il un moyen de voir si mon bot est hors ligne ?

  8. 8

    Comment choisir le nombre de fragments et de répliques Elasticsearch

  9. 9

    optimiser les opérations du serveur avec elasticsearch: traitement des filigranes de disque bas

  10. 10

    Comment changer la couleur de la police dans R?

  11. 11

    Autocomplete avec java, Redis, Recherche élastique, Mongo

  12. 12

    MasterService d'ElasticSearch prend trop de temps pour calculer l'état du cluster et lancer ProcessClusterEventTimeoutException

  13. 13

    Comment vérifier si un utilisateur spécifique a un rôle? Discord js

  14. 14

    Spring @RequestParam DateTime format comme ISO 8601 Date Heure facultative

  15. 15

    Comment analyser un hachage Ruby plat en un hachage imbriqué?

  16. 16

    Comment créer une nouvelle application dans Dropbox avec des autorisations complètes

  17. 17

    Quelque chose dans le cluster Elasticsearch 7.4 devient de plus en plus lent avec les délais de lecture de temps en temps

  18. 18

    Ajustement non linéaire avec R

  19. 19

    php ajouter et fusionner des données de deux tables

  20. 20

    Exporter la table de l'arborescence vers CSV avec mise en forme

  21. 21

    帶有 Spring Boot 和 Azure AD 的 KeyCloak

chaudétiquette

Archive