Python Web scrape une page qui redirige vers une autre page

Denil Parmar

J'ai du mal à gratter le contenu d'une page Web.

Pour expliquer cela, voici mon code Python :

response = requests.post('http://a836-acris.nyc.gov/bblsearch/bblsearch.asp?borough=1&block=733&lot=66',{'User-Agent' : 'Mozilla/5.0'})

Cela me donne une page HTML contenant un formulaire (ne contenant pas la page finale):

<html xmlns="http://www.w3.org/1999/xhtml" >
<head>
    <title>Untitled Page</title>
</head>
<body>

    <form name="bbldata" action="https://a836-acris.nyc.gov/DS/DocumentSearch/BBLResult" method="post">
    <input type="hidden" name="hid_borough" value="1"/>
    <input type="hidden" name="hid_borough_name" value="MANHATTAN / NEW YORK" />
    <input type="hidden" name="hid_block" value="733"/>
    <input type="hidden" name="hid_block_value" value="733"/>
    <input type="hidden" name="hid_lot" value="66"/>
    <input type="hidden" name="hid_lot_value" value="66"/>
    <input type="hidden" name="hid_unit" value=""/>
    <input type="hidden" name="hid_selectdate" value=""/>
    <INPUT TYPE="HIDDEN" NAME="hid_datefromm"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datefromd"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datefromy"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datetom"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datetod"  VALUE="">
    <INPUT TYPE="HIDDEN" NAME="hid_datetoy"  VALUE="">
    <input type="hidden" name="hid_doctype" value=""/>
    <input type="hidden" name="hid_doctype_name" value="All Document Classes"/>
    <input type="hidden" name="hid_max_rows" value="10"/>
    <input type="hidden" name="hid_page" value="1" />
    <input type="hidden" name="hid_ReqID" value=""/>
    <input type="hidden" name="hid_SearchType" value="BBL"/>
    <input type="hidden" name="hid_ISIntranet" value="N"/>    
    <input type="hidden" name="hid_sort" value=""/>    
    </form>

<script language="JavaScript">
    document.bbldata.submit();
</script>
</body>
</html>

Cependant, si dans le navigateur vous entrez cette URL, vous obtenez finalement cette page Web après le chargement du script dans le code HTML, et cela doit être gratté :

Toute aide serait appréciée!

Plateau

Le tableau HTML de votre exemple montre les données que vous devez publier. Comme je pense que vous le savez, l'URL que vous utilisez est en fait le référent . Donc, vous devez :

# 1. Create a payload
payload = {
        'hid_borough': 1,
        'hid_borough_name': 'MANHATTAN / NEW YORK',
        'hid_block': 733,
        'hid_block_value': 733,
        'hid_lot': 66,
        'hid_lot_value': 66,
        'hid_doctype_name': 'All Document Classes',
        'hid_max_rows': 10,
        'hid_page': 1,
        'hid_SearchType': 'BBL',
        'hid_ISIntranet': 'N'
        }

# 2. Add the correct referer to your headers
header = {'User-Agent': 'Mozilla/5.0',
       'referer': 'http://a836-acris.nyc.gov/bblsearch/bblsearch.asp?borough=1&block=733&lot=66'}

# 3. Add payload and headers to the post
redirect = 'https://a836-acris.nyc.gov/DS/DocumentSearch/BBLResult'
result = requests.post(redirect, data=payload, headers=header)

print result.url
https://a836-acris.nyc.gov/DS/DocumentSearch/BBLResult

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le2021-06-30

laisse moi dire quelques mots

0commentaires

connexionAprès avoir participé à la revue

Article précédent:FFmpeg - Down-mix AC3 5.1 à Fraunhofer FDK ACC 2.1

TOP liste

article

Python Web scrape une page qui redirige vers une autre page

Python Web scrape une page qui redirige vers une autre page

Comment utiliser HttpClient avec TOUT cert ssl, quelle que soit la « mauvaise » est

Comment afficher du texte au milieu de div avec une couleur d'arrière-plan différente?

Résultat de l'échantillonneur JMeter : comprendre le temps de chargement, le temps de connexion et la latence

Modbus Python Schneider PM5300

Pourquoi Object.hashCode () ne suit pas la convention du code Java

Comment faire une recherche partielle et obtenir un score pertinent dans Elasticsearch

Existe-t-il un moyen de voir si mon bot est hors ligne ?

Comment choisir le nombre de fragments et de répliques Elasticsearch

optimiser les opérations du serveur avec elasticsearch: traitement des filigranes de disque bas

Comment changer la couleur de la police dans R?

Autocomplete avec java, Redis, Recherche élastique, Mongo

MasterService d'ElasticSearch prend trop de temps pour calculer l'état du cluster et lancer ProcessClusterEventTimeoutException

Comment vérifier si un utilisateur spécifique a un rôle? Discord js

Spring @RequestParam DateTime format comme ISO 8601 Date Heure facultative

Comment analyser un hachage Ruby plat en un hachage imbriqué?

Comment créer une nouvelle application dans Dropbox avec des autorisations complètes

Quelque chose dans le cluster Elasticsearch 7.4 devient de plus en plus lent avec les délais de lecture de temps en temps

Ajustement non linéaire avec R

php ajouter et fusionner des données de deux tables

Exporter la table de l'arborescence vers CSV avec mise en forme

帶有 Spring Boot 和 Azure AD 的 KeyCloak