如何使用 BeautifulSoup 进行网页抓取

保罗·李

我正在尝试抓取该网站上所有论坛帖子的所有主题标题。我不知道如何解决这个问题,因为论坛网站的 HTML 格式不是我所熟悉的。

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'http://thailove.net/bbs/board.php?bo_table=ent'

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

page_soup = soup(page_html, "html.parser")

#I don't think this is correct, but not sure on how else to to do this...
containers = page_soup.findAll("td",{"class":"td_subject"})


for container in containers:
subject = container.a.font.font.contents
#similarly not sure this is correct     
print("subject: ", subject)

请让我知道我应该怎么做。另请记住,该网站是韩文,但如果需要,可以轻松翻译成英文。

维尼修斯·菲格雷多

您的代码很好,直到您进入for循环,您应该container.a.contents[0]访问主题,并且该print函数应该在您的for循环内:

for container in containers:
    subject = container.a.contents[0]
    print("subject: ", subject)

然后运行脚本:

>>>     
subject:  
                    미성년자도 이용하는 게시판이므로 글 수위를 지켜주세요.                    
subject:  
                    방콕의 대표 야시장 - 딸랏롯파이2                    
subject:  
                    공항에서 제일 가까운 레드썬 마사지
.......

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用 BeautifulSoup 进行网页抓取 / Zomato 网页抓取

使用 BeautifulSoup FindAll 进行网页抓取

使用 Python BeautifulSoup 进行网页抓取

使用BeautifulSoup进行网页抓取时出错

使用 BeautifulSoup 和 json 进行网页抓取

使用 BeautifulSoup 进行网页抓取 -- Python

使用 beautifulsoup 进行网页抓取的问题

使用 BeautifulSoup 遍历 URL 以进行网页抓取

使用BeautifulSoup抓取网页

使用 BeautifulSoup 抓取网页

使用BeautifulSoup进行网页抓取将不起作用

使用 Beautifulsoup 4 进行网页抓取 - 提取联系信息

使用BeautifulSoup进行网页抓取时出现属性错误

在 python 网页抓取中使用 Selenium 对 BeautifulSoup 进行分页

使用 Selenium 和 BeautifulSoup 进行 Zillow 网页抓取

使用 Selenium 和 BeautifulSoup 进行网页抓取返回空列表

使用 BeautifulSoup 进行网页抓取,在 html 中找不到表格

使用BeautifulSoup Python抓取网页

使用 Beautifulsoup 抓取 UEFA 网页

用beautifulsoup进行网页抓取

硒与BeautifulSoup进行网页抓取

如何使用BeautifulSoup抓取缺少标签的网页

如何在使用 BeautifulSoup 进行网页抓取时访问 <li> 中的特定项目?

使用 BeautifulSoup 进行网页抓取时如何移动到新页面?

使用beautifulsoup进行Python网页抓取-无法从Clinicaltrials.gov提取首席调查员

使用 Beautifulsoup 进行网页抓取 - 输出无意合并的单词(例如,ThisHappens)

Python字符串转换为int / float [使用BeautifulSoup进行熊猫/网页抓取]

使用BeautifulSoup进行网页抓取只能获得一半的内容

使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题