Scrapy爬虫以递归方式解析数据无法回调

潘阮定

我是新手，我用python scrapy编写了一个脚本以递归获取信息。

首先，它会刮擦城市的链接（包括旅游信息），然后追踪每个城市并到达其页面。接下来，在进入下一页之前，它会获取与城市有关的旅行所需的信息，依此类推。分页在没有可见链接的Java脚本上运行。

我用来获取结果以及csv输出的命令是：

scrapy crawl pratice -o practice.csv -t csv

预期结果是csv文件：

title, city, price, tour_url
t1, c1, p1, url_1
t2, c2, p2, url_2
...

问题是csv文件为空。运行在“ parse_page”处停止，并且callback =“ self.parse_item”不起作用。我不知道该如何解决。也许我的工作流程无效或我的代码有问题。谢谢你的帮助。

name = 'practice'
start_urls = ['https://www.klook.com/vi/search?query=VI%E1%BB%86T%20NAM%20&type=country',]

def parse(self, response): # Extract cities from country
    hxs = HtmlXPathSelector(response)
    urls = hxs.select("//div[@class='swiper-wrapper cityData']/a/@href").extract()
    for url in urls:
        url = urllib.parse.urljoin(response.url, url)
        self.log('Found city url: %s' % url)
        yield response.follow(url, callback=self.parse_page) # Link to city


def parse_page(self, response): # Move to next page
    url_ = response.request.url
    yield response.follow(url_, callback=self.parse_item)

    # I will use selenium to move next page because of next button is running
    # on javascript without fixed url.

def parse_item(self, response): # Extract tours
    for block in response.xpath("//div[@class='m_justify_list m_radius_box act_card act_card_lg a_sd_move j_activity_item js-item ']"):
        article = {}
        article['title'] = block.xpath('.//h3[@class="title"]/text()').extract()
        article['city'] = response.xpath(".//div[@class='g_v_c_mid t_mid']/h1/text()").extract()# fixed
        article['price'] = re.sub("  +","",block.xpath(".//span[@class='latest_price']/b/text()").extract_first()).strip()
        article['tour_url'] = 'www.klook.com'+block.xpath(".//a/@href").extract_first()

        yield article

雷心

hxs = HtmlXPathSelector(response)    #response is already in Selector, use direct `response.xpath`

url = urllib.parse.urljoin(response.url, url)

用于：

网址= response.urljoin（网址）

是的，它将停止，因为其重复请求。网址，您需要添加dont_filter=True检查

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-25

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用自动布局从情节提要中动态获得视图的y位置

Scrapy回调异步

Scrapy请求回调不触发

Scrapy-在解析回调之外生成项目

重定向请求的回调Scrapy

CFSocket数据回调

如何解析来自pubnub历史回调共振的数据？

Scrapy递归回调

使用Scrapy嵌套的回调

递归异步到promise或回调

异步回调中的递归（Swift）

Scrapy无法解析链接

未定义解析回调-简单Webscraper（Scrapy）仍未运行

scrapy：信号调用产生的回调请求

Facebook Android SDK 3.5.2回调无法解析为变量

Scrapy Crawl：无法将数据解析为人类可读的值

解析CC-无法触发成功回调

无法从API回调JSON数据

Python Scrapy SitemapSpider回调未被调用

带有音频和innerHTML的单击回调一起无法按预期方式工作？

未执行回调的 Scrapy 请求

如何以递归方式使用 JS 回调？

使用 PHP 从 JSON 回调中解析数据

带有回调 JS 的递归函数

在回调中解析承诺

无法从 NodeJS 的回调函数返回数据

数据 onResponse 后回调无法正常工作

Scrapy - 不能做多个回调

Scrapy 没有将抓取的 url 从解析传递到回调

随时间的scrapy递归回调

TOP 榜单

文章

Scrapy爬虫以递归方式解析数据无法回调

Scrapy爬虫以递归方式解析数据无法回调

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接