如何使用python或php获取带有已加载的html页面的嵌套标签？

Bartek 发表于 Dev

25

巴泰克

怎么做？

如何使用python或php获取带有已加载的html页面的嵌套标签？

您能给我一个可以学习的网站吗？

from HTMLParser import HTMLParser
import urllib

class MyHTMLParser(HTMLParser):

    def handlestarttag(self, tag, attrs):
        print "Poczatek %s" % tag

    def handleendtag(self, tag):
        print "Koniec %s tag" % tag

    def handledata(self, data):
        print "Dane %s" % data

p = MyHTMLParser()
input = urllib.urlopen('url')
html = input.read()
input.close()
p.feed(html)

斯坦纳·利马

看看BeautifulSoup：

这是给你的一个例子：

from bs4 import BeautifulSoup

# Use urlopen to read web pages, this is only an e
test_input = r'<html><body><div id="bar"><p>Foo</p></div></body></html>'
soup = BeautifulSoup(test_input)

print soup.find('div', {'id': 'bar'}).p.text

这将产生：

Foo

查看BS的文档以获取更多示例。这里重要的是要使用现有的库，而不要尝试自己创建一个库。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-14

我来说两句

0 条评论

登录后参与评论

上一篇：我如何查看我的Facebook应用程序向用户要求的权限？

相关文章

如何使用PHP函数获取以HTML页面的{$开头的所有单词

如何获取QWebEngineView中加载的页面的html

如何获取带有评论的页面的Facebook帖子？

如何使用 PHP 读取带有 HTML 标签的 XML？

Framework7：如何获取所有页面的 HTML？

使用chrome扩展名修改已加载页面的HTML

如何使用Scrapy和Splash获取动态页面的html？

如何使用Pywikibot获取Wiki页面的HTML？

如何使用JavaScript获取HTML页面的标题？

如何使用Python中的请求从Reddit页面的帖子中获取所有图像链接

如何使用PHP获取当前页面的完整URL

如何使用JavaScript从页面中动态加载具有特定类的HTML标签？

如何等到所有页面加载后才能获取这些页面的元素？

Django-CMS：带有嵌套页面的应用

尝试通过控制器加载带有 # 标签的页面的一部分

如何在加载页面之前获取页面的状态码

无法获取带有硒的 Javascript 生成页面的 HTML 源代码

如何从服务器获取带有 HTML 标签的文本并在客户端使用 HTML 标记显示它？（使用 php 和 angularjs）

美汤如何找到JS加载页面的脚本标签

Java Selenium：如何在不首先加载页面的情况下获取网页的HTML？

我如何使用Tika来获取带有html标签的主要内容

如何获取php页面以接收来自html页面的ajax帖子

Django REST框架。如何获取带有协议，域和路径的页面的完整URL？

如何在不转到另一个页面的情况下从另一个文件加载 HTML（带有 Github 页面的单页应用程序）？

JS加载后获取页面的HTML内容

使用 PHP 在 html 字符串中删除 AMP 页面的自定义标签

如何缩小php页面的html输出？

将带有参数的alexa php结果的内容加载到html页面中-也许使用jquery或ajax

如何创建简单的防止直接访问带有 .htaccess 页面的 php 包含文件？

TOP 榜单

文章

热门标签

归档