如何使用Python和BeautifulSoup中的类过滤标签？

m4rk_Henry_ftw

我正在尝试使用beautifulsoup HTML解析器从网站上抓取图像。

该站点上的每个图像都有2种图像标签。一个用于缩略图，另一个用于较大尺寸的图像，该图像仅在单击缩略图并展开后才会显示。较大的标签包含class =“ expanded-image”属性。

我正在尝试通过HTML进行解析，并获取包含图像源的扩展图像的“ src”属性。

当我尝试执行代码时，什么也没有发生。它只是说过程完成了，没有刮任何图像。但是，当我不尝试过滤代码并仅将tag作为参数时，它将下载所有缩略图。

这是我的代码：

import webbrowser, requests, os
from bs4 import BeautifulSoup

def getdata(url):
    r = requests.get(url)
    return r.text

htmldata = getdata('https://boards.4chan.org/a/thread/30814')
soup = BeautifulSoup(htmldata, 'html.parser')

list = []

for i in soup.find_all("img",{"class":"expanded-thumb"}):
    list.append(i['src'].replace("//","https://"))

def download(url, pathname):
    if not os.path.isdir(pathname):
        os.makedirs(pathname)

    filename = os.path.join(pathname, url.split("/")[-1])
    response = requests.get(url, stream=True)

    with open(filename, "wb") as f:
        f.write(response.content)

for a in list:
    download(a,"file")

路德维斯珀斯

使用“列表”作为变量名可能会遇到问题。这是python中的一种类型。从此开始（用所需的任何线程替换TEST_4CHAN_URL），并结合上面注释中的建议。

import requests
from bs4 import BeautifulSoup

TEST_4CHAN_URL = "https://boards.4chan.org/a/thread/<INSERT_THREAD_ID_HERE>"

def getdata(url):
    r = requests.get(url)
    return r.text

htmldata = getdata(TEST_4CHAN_URL)
soup = BeautifulSoup(htmldata, "html.parser")

src_list = []

for i in soup.find_all("a", {"class":"fileThumb"}):
    src_list.append(i['href'].replace("//", "https://"))

print(src_list)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-02-20

我来说两句

0 条评论

登录后参与评论

上一篇：如何从1个Google表格字段中提取未格式化为超链接的SEVRAL URL

如何使用beautifulsoup和python在span标签中获取文本

如何使用Python和BeautifulSoup解析类

如何使用Python和BeautifulSoup中的类过滤标签？

如何使用Python和BeautifulSoup中的类过滤标签？

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面