数据分析之数据初级分析-分类(上)

补充关键词

  • 步骤
    • sql语句清理数据库xxxx字段中的空格(1h)
      • update aaaaa set `xxxx`=replace(`xxxx`,' ','');
      • update  aaaaa  set  `xxxx` = replace(replace(replace(`xxxx`,char(9),''),char(10),''),char(13),'');
    • 从数据库读取不为空的xxxx或xx名称进行关键词提取(2h45m)
      • sql语句
        • SELECT xxxx,xxxx,xxxx,xxxx FROM cccc WHERE (xxxx not REGEXP '^[[:blank:]]+$' AND length(`xxxx`) > 12 )AND ( `xxxx` IS NULL or `xxx` =''); 
        • SELECT xxxx,xxxx,xxxx,xxxx FROM cccc WHERE (`xxxx` IS NULL or `xxxx` ='')AND ( `xxxx` IS NULL or `xxxx` =''); 
        • SELECT xxxx,xxxx,xxxx,xxxx FROM cccc WHERE `xxxx` IS NULL or `xxxx` =''; 
    • 从成果简介中提取关键字(2h)
      • jieba库的学习和使用
        • 安装jieba库
          • 更换镜像源
        • 学习jieba库
      •  使用jieba库统计xxxx和yyyy字段中出现词频最高的N个词为关键字
  •  代码
    •   由于博主还没完全消化词频统计的代码,待消化后补全博客
原文地址:https://www.cnblogs.com/quxiangjia/p/12492542.html