区别是:etree.html是将爬取的网页数据再生成标准网页格式数据,因为有些网页不规范写的时候。etree.html可以解析html文件:(服务器上返回的html数据)。etree.parse是对标准网页格式数据进行解析用的。etree.parse直接接受一个文档,按照文档结构解析(本地文件)。
etree.html是将爬取的网页数据再生成标准网页格式数据,因为有些网页不规范写的时候。
etree.html可以解析html文件:(服务器上返回的html数据)。
page = etree.HTML(html.lower().decode(‘utf-8’))
hrefs = page.xpath(u”//a”)
for href in hrefs:
print href.attrib
etree.parse是对标准网页格式数据进行解析用的。
etree.parse直接接受一个文档,按照文档结构解析(本地文件)。
import xml.etree.ElementTree as ET
tree = ET.parse(‘country_data.xml’)
root = tree.getroot()
延伸阅读:
什么是lxml模块?
第三方库lxml是名列前茅款表现出高性能特征的python xml库,天生支持Xpath1.0、XSLT1.0、定制元素类,甚至python风格的数据绑定接口。lxml是通过Cpython实现的,构建在两个C库上(libxml2和libxslt),为执行解析、序列化、转换等核心任务提供了主要动力,是爬虫处理网页数据的一件利器。
lxml对xml和html都有很好的支持,分别使用 lxml.etree 和 lxml.html 两个模块。
文章标题:etree.html和etree.parse有什么区别吗,发布者:小编,转载请注明出处:https://worktile.com/kb/p/38396