为什么 Scrapy 不适用于此页面?

机器人

我正在尝试抓取此网页:

http://www.oddsportal.com/search/results/:69Dxbc61/

这是我的代码:

import scrapy

class Test2Spider(scrapy.Spider):
    name = "test2"
    allowed_domains = ["oddportal.com"]
    start_urls = (
        'http://www.oddsportal.com/search/results/:69Dxbc61/',
    )

    def parse(self, response):
        for partita in response.css('tr.deactivate'):
            yield {
                'score': partita.css('td.table-score::text').extract_first(),
            }

但我明白了:

# scrapy runspider test2.py -o uno.json
2018-04-19 16:45:56 [scrapy] INFO: Scrapy 1.0.3 started (bot: cinvestbacktest)
2018-04-19 16:45:56 [scrapy] INFO: Optional features available: ssl, http11, boto
2018-04-19 16:45:56 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'cinvestbacktest.spiders', 'FEED_URI': 'uno.json', 'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter', 'SPIDER_MODULES': ['cinvestbacktest.spiders'], 'BOT_NAME': 'cinvestbacktest', 'FEED_FORMAT': 'json', 'HTTPCACHE_STORAGE': 'scrapy_splash.SplashAwareFSCacheStorage'}
2018-04-19 16:45:56 [scrapy] INFO: Enabled extensions: CloseSpider, FeedExporter, TelnetConsole, LogStats, CoreStats, SpiderState
2018-04-19 16:45:56 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, RedirectMiddleware, CookiesMiddleware, SplashCookiesMiddleware, SplashMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats
2018-04-19 16:45:56 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, SplashDeduplicateArgsMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2018-04-19 16:45:56 [scrapy] INFO: Enabled item pipelines: 
2018-04-19 16:45:56 [scrapy] INFO: Spider opened
2018-04-19 16:45:56 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-04-19 16:45:56 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-04-19 16:45:56 [scrapy] DEBUG: Crawled (404) <GET http://www.oddsportal.com/search/results/:69Dxbc61/> (referer: None)
2018-04-19 16:45:56 [scrapy] DEBUG: Ignoring response <404 http://www.oddsportal.com/search/results/:69Dxbc61/>: HTTP status code is not handled or not allowed
2018-04-19 16:45:56 [scrapy] INFO: Closing spider (finished)
2018-04-19 16:45:56 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 241,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 12816,
 'downloader/response_count': 1,
 'downloader/response_status_count/404': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2018, 4, 19, 14, 45, 56, 756377),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2018, 4, 19, 14, 45, 56, 473849)}
2018-04-19 16:45:56 [scrapy] INFO: Spider closed (finished)

为什么?

一个陌生人

看起来该网站在使用scrapy打开时会出现404错误,而在浏览器中查看时却可以正常工作。

这种行为通常意味着您的请求标头有问题。

在这种情况下,似乎只需设置不同的用户代理就可以解决问题。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

为什么scrapy shell 不适用于此网址?

为什么Mysql order by不适用于此查询

为什么 CORS 不适用于此配置?

为什么$别名不适用于此jQuery函数

为什么height:auto不适用于此图像?

为什么单选按钮不适用于此代码?

为什么 numba 不适用于此嵌套函数?

为什么验证不适用于此功能?

为什么我的Javascript警报不适用于此自定义WordPress插件?

为什么此类型推断不适用于此Lambda表达式方案?

为什么ES6 ComputedPropertyName不适用于此React JS代码?

为什么此Dijkstra算法不适用于此特定输入?

了解为什么 dot 不适用于此特定示例

为什么预先输入不适用于此MVC5应用程序?

为什么从{3}更改为{4}不适用于此正则表达式?

为什么“$(document).ready(function()”不适用于此脚本?

为什么默认复制构造函数不适用于此类

scrapy 不适用于 imdb 关键字页面

为什么 CSS 规则不适用于真正的 HTML 页面,但适用于 JSFiddle?

scrapy 不适用于硒

为什么我的函数适用于矩阵但为什么不适用于向量?

为什么Hibernate HSQL Concat不适用于MSSQL?

为什么@Autowired不适用于通用类型T?

为什么通用引用不适用于数组?

为什么constexpr不适用于构造函数?

为什么忽略SIGTRAP不适用于asm?

为什么Map在Groovy中不适用于GString?

为什么maxWidth属性不适用于EditText?

为什么ExtractMpegFramesTest不适用于旋转的输入文件?