如何使用scrapy抓取具有多个页面的网站

Th3FreeSpirit

我正在尝试使用scrapy抓取该网站（具有多个页面）。问题是我找不到下一页URL。您是否有关于如何刮擦具有多个页面（刮擦）的网站的想法，或者如何解决我在代码中遇到的错误？

我尝试了以下代码，但无法正常工作：

class AbcdspiderSpider(scrapy.Spider):
    """
    Class docstring
    """
    name = 'abcdspider'
    allowed_domains = ['abcd-terroir.smartrezo.com']

    alphabet = list(string.ascii_lowercase)
    url = "https://abcd-terroir.smartrezo.com/n31-france/annuaireABCD.html?page=1&spe=1&anIDS=31&search="
    start_urls = [url + letter for letter in alphabet]

    main_url = "https://abcd-terroir.smartrezo.com/n31-france/"


    crawl_datetime = str(datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
    start_time = datetime.datetime.now()

    def parse(self, response):
        self.crawler.stats.set_value("start_time", self.start_time)
        try:
            page = response.xpath('//div[@class="pageStuff"]/span/text()').get()
            page_max = get_num_page(page)

            for index in range(page_max):
                producer_list = response.xpath('//div[@class="clearfix encart_ann"]/@onclick').getall()
                for producer in producer_list:
                    link_producer = self.main_url + producer
                    yield scrapy.Request(url=link_producer, callback=self.parse_details)

                next_page_url = "/annuaireABCD.html?page={}&spe=1&anIDS=31&search=".format(index)

                if next_page_url is not None:
                    yield scrapy.Request(response.urljoin(self.main_url + next_page_url))

        except Exception as e:
            self.crawler.stats.set_value("error", e.args)

我收到此错误：

'error': ('range() integer end argument expected, got unicode.',)

吉尔·耶尔

错误在这里：

page = response.xpath('//div[@class="pageStuff"]/span/text()').get()
page_max = get_num_page(page)

范围函数需要一个整数值（1,2,3,4等），而不是一个unicode字符串（'Page 1/403'）

我对范围误差的建议是

page = response.xpath('//div[@class="pageStuff"]/span/text()').get().split('/ ')[1]

for index in range(int(page)):
    #your actions

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-16

我来说两句

0 条评论

登录后参与评论

上一篇：Laravel Scheduler在Dreamhost VPS中不起作用

从具有多个页面的网站抓取数据

如何在R中有多个页面的网站上抓取特定信息

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

如何使用scrapy抓取具有多个页面的网站

如何使用scrapy抓取具有多个页面的网站

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面