非正常企业数据续

第二次改进思路

1、首先对zzsfp表进行数据清洗,去重后得到4223334条数据

 

 

2、然后根据nsrxx和上面清洗后的文件连接起来,分离出出销发票表和进购发票表,目的是去除掉那些识别号在企业表中找不到的发票数据

属性列:发票id,购/销识别号,金额,税额

 

 3、把上面两个表都进行根据识别号把金额叠加起来

 

 4、再根据识别号把两个表连接起来,再根据销购差绝对值进行排序,我是用python进行排序的

 

 但是不能根据这个就选出前300个,因为销售2亿,进购1.5亿,销购差也就大。而且要对发票是否属实进行判断也就是要联合zzsfp_hwmx进行判断

原文地址:https://www.cnblogs.com/chenaiiu/p/14050788.html