文本数据清洗总结


面对大量数据,需要考虑 效率、时间、空间;


去重

sort 排序后,根据是否与上一条相同来去重;

sort 占用内存多;最好是 5G以下的文件,我认为2G--3G最好。


  • 长度比例
  • 字符比例

针对中文

数值和特殊符号开头

句子开头的数值和特殊符号的,通常没有意义。

  • 统一去掉没有意义的符号,如:
★☆◆◇▲△▼▽▶◆●○〇□■☉⊙◎︻︼︽︾〒↑↓¤▓◣◥◢◤↑↓→←↘↙⌒∮※ㄨ╬▋▂▃▄▅▆▇█

  • 一句话中,非中文内容长度多过 1/3 或一半,可以剔除。

  • 以中文开头的内容,取出来,放在单独文件存储;
    下次清洗时,不必处理这部分数据
    也可以在清理 一)这样的标号后清理出来

  • 去掉在开头没有意义的符号,如:
@10号投稿
/故事
- 好的
:10年前上大学时经
>>8.做好家庭阳台、平台等区域的安全防护。
》
?
“
﹒
,
。
/
~

  • 对数值后面紧跟单位的句子,进行保留,不处理,如:
人个双千万亿元号克厘座级次件余多块名位根头张摩公斤米床支例省市城区县只份处瓶岁

  • 去掉标号型数值,如
0》提出的核心观点,未来银行将“不再是客户要去的地方,而是一种随时可得的服务”,
0》数码艺术香港展。

01、500家只是冰山一角

01.儿童版块
01、招生对象
02、阿里云世界第一脚步被推迟

01 招聘岗位及数量
01 了解自己的身体状况

01为什么“一菜难求”?

02 10元人民币背景图 夔门
02 脱贫任务重

02惊喜多 奖金更高

10、2018年8月30日,高云翔案再开庭证人并未出席,现场未提交实质性证据。

(10)美好的约定
[10]流动人口是指人户分离人口中扣除市辖区内人户分离的人口。
[10]褚杨,林伟,FAUREMichel,等.

A 113项高频政务服务事项轻松办!

a) 这是一个

(二)关于葡萄园地面积。
二、关于视频监控损坏的问题

原文地址:https://www.cnblogs.com/fldev/p/15208686.html