如何使用请求和Beautiful Soup抓取使用javascript的网站?

Abhinav Chavali

我需要抓取这个网站:

https://sec.report/Ticker/AAPL

我需要获取CIK号码0000320193

当我做soup.prettify时,它只是说它需要使用javascript。另外,我不想打开网络浏览器,因为它需要自动化

我需要使用python漂亮的汤并请求库

安德烈·凯斯利(Andrej Kesely)

要从服务器获得正确的响应,请设置正确的User-AgentHTTP标头:

import requests
from bs4 import BeautifulSoup


url = 'https://sec.report/Ticker/AAPL'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0'}

soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')
print(soup.h2.text) # or print(soup.h2.text.split()[-1]) for "0000320193"

印刷品:

SEC CIK 0000320193

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在使用Beautiful Soup抓取网站时无法加载某些内容

使用 Beautiful Soup 抓取网站的十大故事

使用 Beautiful Soup 和 Pandas 从网站上抓取数据

使用 Beautiful Soup 抓取网页

如何使用请求和buetifulsoup抓取javascript元素

Python网站使用'soup.findall'抓取所有标签

如何抓取使用JavaScript渲染数据的网站

如何使用 JavaScript 检测抓取网站

由于网页中有广告,使用 Beautiful Soup 抓取网站会产生大量空白

抓取使用javascript注入html的网站

使用Selenium的javascript呈现网站的Web抓取

使用Python请求和Beautiful Soup从span标签中检索数字

使用Beautiful Soup Python进行Web抓取

Beautiful Soup Web抓取并使用整数

如何移植使用Beautiful Soup 4来代替请求包的python urllib2应用程序(网络抓取工具)

如何使用 Beautiful Soup 从网站获取不断变化的数据值?

使用Beautiful Soup在Python中解析网站

如何使用JavaScript检索的表格内容抓取网站?

如何使用Node.js抓取JavaScript(VueJS,ReactJS)网站

使用iframe抓取网站

如何使用python请求和处理JSON?

使用 JavaScript 抓取网站 -> 可能以及在抓取的网站上显示哪个 IP

Beautiful Soup网站抓取:我如何抓取此特定的html结构

是否可以自动从网站上抓取文章 - Python & Beautiful Soup

Beautiful Soup 和 Selenium 无法抓取网站内容

使用请求和 BeautifulSoup 登录以抓取页面

使用javascript从Chrome控制台抓取网站

使用 Beautiful Soup 提取特定 html 值後如何使用多個 url 進行抓取

使用Python和Beautiful Soup分割抓取的文本