大数据极限测试每日报告

  今天实际的动作只有行政区划的地域维度标准化。

  这个实际上还是很容易的一件事,主要麻烦点在于数据的不规范。具体实现只需要使用一个可靠的地图搜索POI的API就行了,比如我使用的就是高德地图的API,每日3W次、50QPS的限制对付仅仅4000+的数据是妥妥够用了,高德返回的信息中包括市、县、区及其相关的行政区划代码,更重要的是还会在未搜索到相关地点的情况下给出一个符合度最高的相关POI,这个是真的良心了。

  不过就这样也阻止不了垃圾数据,搜索不到地点的情况包括地名错字、地图未登记/地址名称更改、完全的错误,前两者倒还好说,第三情况就只能清除了,但姑且保证完整性还是留下了,所以数据库中有513条数据没被标准化,这种情况实际项目里面估计只能手动搜索了。。

  然后就是数据初级分析分类。

  说是初级实际上如果做出来也就是一项专利的程度,这就是极限测试吗,i了。如果想要靠文本相似度进行应用行业分类,估计就是依靠关键词进行检索,找出包括关键词的行业分类,因为这方面专业用词过于复杂,想要进行常规的语法、语义分析来文本分类的话估计想死的心都有了。所以最后只能返璞归真回到关键词检索,尽管这样大概率得不到结果,而且工作量有点大。

  然后就是关键词了,这个和上面同理,不要依赖现有工具直接寻找关键词,而是分词后依靠自己的算法实现关键词,目前这方面还在学习。。所以准备直接抓取科技成果减少工作量,所以目前工作就到这里了。

原文地址:https://www.cnblogs.com/limitCM/p/12482481.html