无法在Fitch Ratings网站上使用R进行抓取

费利佩·里贝罗

我正在尝试刮擦惠誉国际评级的网站，直到现在我仍无法获得想要的东西：评级列表。当我用R抓取时，它会返回网站的标题，并且在正文中会从googleTagManager获取“ iframe”，从而“隐藏”重要的内容。

网站：https : //www.fitchratings.com/site/search?content=research&filter=RESEARCH%20LANGUAGE%5EPortuguese%2BGEOGRAPHY%5EAmericas%2BREPORT%20TYPE%5EHeadlines%5ERating%20Action%20Commentary

[1] <head>\n<title>Search - Fitch Ratings</title>\n<!-- headerScripts --><!-- --><meta http-equiv="Content-Type" content="text/html; chars ...
[2] <body id="search-results">\n        <div id="privacy-policy-tos-modal-container"></div>\n        <!-- Google Tag Manager (noscript) -- ...
_____________

我想要的是：

Date;Research;Type;Text

04 Sep 2019; Fitch afirma Rating de Qualidade(...);Rating Action Commentary;Fitch Ratings-Sao Paulo - 04 September 2019: A Fitch Ratings Afirmou hoje, o Rating de Qualidade de Gestão de Ivnestimento 'Excelente' (...)
02 Sep 2019; Fitch Eleva Rating (...); Rating Action Commentary; Fitch Ratings - Sao Paulo - 02 September 2019: A Fitch Ratings elevou hoje (...)

下面的代码

html_of_site <- read_html(url("https://www.fitchratings.com/site/search?content=research&filter=RESEARCH%20LANGUAGE%5EPortuguese%2BGEOGRAPHY%5EAmericas%2BREPORT%20TYPE%5EHeadlines%5ERating%20Action%20Commentary"))

html_of_site

芬德尔

简短答案：请勿抓取此网站。

长答案：从技术上讲，可以刮擦此站点，但是您需要代码才能像人类一样工作。这意味着您需要说服Fitch Group的服务器，您确实是人类的访客，而不是机器人。

为此，您需要：

发送与您的浏览器发送到网站的标题相同的标题
跟踪网站发送给您的任何cookie，并在必要时在后续请求中返回它们
评估服务器发回的所有脚本（以实际加载所需的数据）。

我无法访问thefitchgroup.com的站点策略，但是我认为它包含有关什么是机器人以及不允许在该站点上进行操作的条款。由于该公司可能会出售您要抓取的数据，因此您应该避免抓取该网站。

通常，不要在未先阅读站点策略的情况下抓取站点。如果要抓取的数据不是没有抓取就免费的，那么您可能不应该抓取它。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-21

我来说两句

0 条评论

登录后参与评论

上一篇：如何迅速将核心数据管理对象数组转换为“可识别”列表？（Xcode 11，Beta 5）

无法在Fitch Ratings网站上使用R进行抓取

无法在Fitch Ratings网站上使用R进行抓取

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用