etree.html和etree.parse有什么区别吗

区别是:etree.html是将爬取的网页数据再生成标准网页格式数据,因为有些网页不规范写的时候。etree.html可以解析html文件:(服务器上返回的html数据)。etree.parse是对标准网页格式数据进行解析用的。etree.parse直接接受一个文档,按照文档结构解析(本地文件)。

etree.html和etree.parse有什么区别吗-Worktile社区

etree.html是将爬取的网页数据再生成标准网页格式数据,因为有些网页不规范写的时候。

etree.html可以解析html文件:(服务器上返回的html数据)。

page = etree.HTML(html.lower().decode(‘utf-8’))

hrefs = page.xpath(u”//a”)

for href in hrefs:

print href.attrib

etree.parse是对标准网页格式数据进行解析用的。

etree.parse直接接受一个文档,按照文档结构解析(本地文件)。

import xml.etree.ElementTree as ET

tree = ET.parse(‘country_data.xml’)

root = tree.getroot()

延伸阅读:

什么是lxml模块?

第三方库lxml是名列前茅款表现出高性能特征的python xml库,天生支持Xpath1.0、XSLT1.0、定制元素类,甚至python风格的数据绑定接口。lxml是通过Cpython实现的,构建在两个C库上(libxml2和libxslt),为执行解析、序列化、转换等核心任务提供了主要动力,是爬虫处理网页数据的一件利器。

lxml对xml和html都有很好的支持,分别使用 lxml.etree 和 lxml.html 两个模块。

文章标题:etree.html和etree.parse有什么区别吗,发布者:小编,转载请注明出处:https://worktile.com/kb/p/38396

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小编的头像小编

发表回复

登录后才能评论
注册PingCode 在线客服
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部