python字符串方法split的一道坑

转自http://www.cnblogs.com/librasz/p/3232611.html

初看这个方法还挺好用的,用来切割字符串真是的是非常方便,返回的字符串数组也非常容易处理。

于是乎看了一眼就应用到我的程序当中去了。

用来切割如下形式的字符串

s = 'Jul 24 21:38:25 luozw medusa.py[24707]: HOST=192.168.50.77 LOGIN=root PASSWORD=123456 SERVICE=ssh PORT=22'

month = s.split(' ')[0]  #取月份

day = s.split(' ')[1]      #取天数

……

成功的运行了。

后来设置到crontab中自动运行,也能成功运行,可是到了8月份的时候结果就不正常了。

自己跑到八月份的日志文件里看

Aug  1 21:38:25 luozw medusa.py[24707]: HOST=192.168.50.77 LOGIN=root PASSWORD=123456 SERVICE=ssh PORT=22

日志格式看起来也没问题,然后不得已去调试源程序,发现切割的字符串乱七八糟的。

将s.split(' ')直接打印出来看,马上就明白了:

['Aug', '', '2', '21:38:25', 'luozw', 'medusa.py[24707]:', 'HOST=192.168.50.77', 'LOGIN=root', 'PASSWORD=123456', 'SERVICE=ssh', 'PORT=22']

数组第二个元素是一个空字符串,它代表了一个空格,原来spilt方法是严格按照过滤参数设置的,不会感知连续过滤的参数。

Jul 24之间相距一个空格,但是Aug  1之间就相距两个空格,所以切割失败,导致后来取得数据发生错误。

此时有两个解决办法:

1.采用不带参数的split(),它会把所有空格(空格符、制表符、换行符)当作分隔符。

2.filter(None, s.split(' '))

第二种方法应用场景更多一些。

看看这个例子

a = 'hello++world!+'

如何取得'hello'和'world'呢?

>>>a.split('+')

['hello', '', 'world!', '']    #含有两个空字符串

>>>filter(None, a.split('+'))

['hello', 'world!']

关于filter()方法的使用说明:

filter(...)
filter(function or None, sequence) -> list, tuple, or string

Return those items of sequence for which function(item) is true. If
function is None, return the items that are true. If sequence is a tuple
or string, return the same type, else return a list.

总结的经验:对函数方法的使用不要过于想当然了,文档简易可得的话最好把函数说明看完。

原文地址:https://www.cnblogs.com/myyan/p/4837335.html