如何使用python或php获取带有已加载的html页面的嵌套标签?

巴泰克

怎么做?

如何使用python或php获取带有已加载的html页面的嵌套标签?

您能给我一个可以学习的网站吗?

from HTMLParser import HTMLParser
import urllib

class MyHTMLParser(HTMLParser):

    def handlestarttag(self, tag, attrs):
        print "Poczatek %s" % tag

    def handleendtag(self, tag):
        print "Koniec %s tag" % tag

    def handledata(self, data):
        print "Dane %s" % data

p = MyHTMLParser()
input = urllib.urlopen('url')
html = input.read()
input.close()
p.feed(html)
斯坦纳·利马

看看BeautifulSoup

这是给你的一个例子:

from bs4 import BeautifulSoup

# Use urlopen to read web pages, this is only an e
test_input = r'<html><body><div id="bar"><p>Foo</p></div></body></html>'
soup = BeautifulSoup(test_input)

print soup.find('div', {'id': 'bar'}).p.text

这将产生:

Foo

查看BS的文档以获取更多示例。这里重要的是要使用现有的库,而不要尝试自己创建一个库。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用PHP函数获取以HTML页面的{$开头的所有单词

如何获取QWebEngineView中加载的页面的html

如何获取带有评论的页面的Facebook帖子?

如何使用 PHP 读取带有 HTML 标签的 XML?

Framework7:如何获取所有页面的 HTML?

使用chrome扩展名修改已加载页面的HTML

如何使用Scrapy和Splash获取动态页面的html?

如何使用Pywikibot获取Wiki页面的HTML?

如何使用JavaScript获取HTML页面的标题?

如何使用Python中的请求从Reddit页面的帖子中获取所有图像链接

如何使用PHP获取当前页面的完整URL

如何使用JavaScript从页面中动态加载具有特定类的HTML标签?

如何等到所有页面加载后才能获取这些页面的元素?

Django-CMS:带有嵌套页面的应用

尝试通过控制器加载带有 # 标签的页面的一部分

如何在加载页面之前获取页面的状态码

无法获取带有硒的 Javascript 生成页面的 HTML 源代码

如何从服务器获取带有 HTML 标签的文本并在客户端使用 HTML 标记显示它?(使用 php 和 angularjs)

美汤如何找到JS加载页面的脚本标签

Java Selenium:如何在不首先加载页面的情况下获取网页的HTML?

我如何使用Tika来获取带有html标签的主要内容

如何获取php页面以接收来自html页面的ajax帖子

Django REST框架。如何获取带有协议,域和路径的页面的完整URL?

如何在不转到另一个页面的情况下从另一个文件加载 HTML(带有 Github 页面的单页应用程序)?

JS加载后获取页面的HTML内容

使用 PHP 在 html 字符串中删除 AMP 页面的自定义标签

如何缩小php页面的html输出?

将带有参数的alexa php结果的内容加载到html页面中-也许使用jquery或ajax

如何创建简单的防止直接访问带有 .htaccess 页面的 php 包含文件?