etree.html和etree.parse有什么区别吗

小编 • 2023年2月15日下午10:58 • 科技

区别是：etree.html是将爬取的网页数据再生成标准网页格式数据，因为有些网页不规范写的时候。etree.html可以解析html文件：（服务器上返回的html数据）。etree.parse是对标准网页格式数据进行解析用的。etree.parse直接接受一个文档，按照文档结构解析（本地文件）。

etree.html是将爬取的网页数据再生成标准网页格式数据，因为有些网页不规范写的时候。

etree.html可以解析html文件：（服务器上返回的html数据）。

page = etree.HTML(html.lower().decode(‘utf-8’))

hrefs = page.xpath(u”//a”)

for href in hrefs:

print href.attrib

etree.parse是对标准网页格式数据进行解析用的。

etree.parse直接接受一个文档，按照文档结构解析（本地文件）。

import xml.etree.ElementTree as ET

tree = ET.parse(‘country_data.xml’)

root = tree.getroot()

延伸阅读：

什么是lxml模块？

第三方库lxml是名列前茅款表现出高性能特征的python xml库，天生支持Xpath1.0、XSLT1.0、定制元素类，甚至python风格的数据绑定接口。lxml是通过Cpython实现的，构建在两个C库上（libxml2和libxslt），为执行解析、序列化、转换等核心任务提供了主要动力，是爬虫处理网页数据的一件利器。

lxml对xml和html都有很好的支持，分别使用 lxml.etree 和 lxml.html 两个模块。