python3 使用 lxml 解析 HTML 时出现中文乱码

python3 使用 lxml 解析 HTML 时出现中文乱码

问题

  • 没有进行编码, 解析中文时乱码
html = etree.parse(html_path, etree.HTMLParser())

解决办法

  • 在指定 parser 的时候对 HTML 进行编码
html = etree.parse(html_path, etree.HTMLParser(encoding="utf-8"))

原文地址:https://www.cnblogs.com/gxfaxe/p/15294536.html