从表中提取特定的href

Jonathan Yong 发表于 Dev

Jonathan Yong

我正在尝试提取“ 10-K” URL并将其附加到以下站点的列表中：

https://www.sec.gov/Archives/edgar/data/320193/000091205701544436/0000912057-01-544436-index.htm

图片1

所以基本上我想在没有作为其子类别的第一个下提取第一个。

我正在尝试创建一个循环，以使该代码循环到多个类似链接中，但是现在我想首先尝试解决此问题。

有任何想法吗？

哈努曼斯·雷迪·阿雷德拉

希望这能满足您的要求。

import requests
from bs4 import BeautifulSoup

URL = "https://www.sec.gov/Archives/edgar/data/320193/000091205701544436/0000912057-01-544436-index.htm"
page = requests.get(URL)

soup = BeautifulSoup(page.content, "html.parser")

rows = soup.findAll("td")

href_list = []
for ele in rows:
    a_Tag = ele.findChildren("a")
    if a_Tag:
        href_list.append(a_Tag)

print(href_list)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。