python + lxml 解析静态网页

1, firefox 下可以使用 firepath 插件寻找到每个属性的xpath

2,感觉xpath 非常好用，简单，适合取网页中结构化的数据

 1 import sys
 2 import lxml.html as HTML
 3 
 4 file=sys.argv[1]
 5 doc = HTML.fromstring(open(file).read())
 6 
 7 table = doc.xpath(".//*[@id='infoTable']/tbody/tr")
 8 for i in range(1,len(table)):
 9     tr = table[i]
10     for tds in tr:
11         td = tds.text_content().strip(" \t\r\n")
12         if td != "":
13             print td,"\t",
14     print

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/harveyaot/p/2969322.html

推荐文章
猜一猜小游戏
ES6 学习笔记
SpringCloud 学习笔记6
SpringCloud 学习笔记5
SpringCloud 学习笔记4
SpringCloud 学习笔记3
SpringCloud 学习笔记2
SpringCloud 学习笔记1
MyBatis 学习笔记
Maven 学习笔记1
程序的耦合和解耦
神经网络结构总结
《代码整洁之道》--读书笔记
《人月神话》--读书笔记
一文看懂25个神经网络模型
内存泄漏简析
MySQL安装步骤及相关问题解决
重置CentOS 7的root密码
MySQL引擎
Hibernate和MyBatis的对比
从头到尾彻底解析Hash表算法
postgres模糊匹配大杀器
postgres数据库表空间收缩之pg_squeeze，pg_repack
pgcli安装
pg_waldump的使用
数据库表空间收缩之pg_squeeze，pg_repack
数据库fillfactor
pgbouncer连接池
mysql-选择使用Repeatable read的原因
postgresql-锁相关