应用统计论文题目/摘要

数据挖掘技术在旅游攻略文章个性化排序中的应用

近年来互联网旅游行业快速发展，旅游攻略文章已经成为各网站吸引用户的一种重要方式，如何合理且有效地向用户推荐这些文章也就显得尤为必要。本文将几种数据挖掘算法包括随机森林，xgboost,以及逻辑回归模型用于对旅游攻略文章的排序中。我们首先借鉴推荐系统的常用方法，对文章进行默认排序，然后再加入用户信息和通过Word2Vec提取出的文本内容的特征向量，运用数据挖掘算法，对默认排序前100篇文章预测用户的点击率，由此完成文章面对用户的个性化排序。本文结合随机森林和xgboost模型的结果，选取出了重要变量，并结合变量的实际分析结果，重新组合变量。接着分别采用了随机森林算法，xgboost模型和逻辑回归模型来对文章点击率进行预测，结合查全率，AUC值，准确率等评价指标，发现xgboost模型预测效果最好。最后给出模型拟合的离线效果。

基于LBS定位数据和短信文本构建用户画像以实现客户分类

随着电⼦商务企业、金融平台和⽣活服务网站的发展，人们越来越关注用户的消费行为和⽇常行为的分析。本文以互联网金融的视角，从LBS定位数据和短信第三方数据中挖掘可以反映用户特征的信息，并构建用户画像和建立客户分类模型。首先，简化LBS定位数据，综合考虑地理、时间与语义信息，建立GTS模型。计算每个坐标的地址重要指数和时间重要指数，⼜因家庭和工作地址都具有成对出入性，便定义⽬标地址系数作为筛选依据，选取该系数值最大的前20个坐标为候选坐标。匹配语义信息，剔除⼲扰坐标，剩余坐标依次进行距离、地址以及地址转移概率检验，对通过检验的坐标求F1分数，选取分值最大的一对坐标作为家庭和工作地址。其次，调用Rwordseg函数，根据自带词库和自定义词库对短信文本作切词处理。统计词频，依据特征词的词频构建KNN模型，将短信分成七大类。针对金融平台短信和银行短信，建立相应的规则提取库。在构造规则库的过程中，考虑正则提取信息和信息间的逻辑判断，同时将两者结合一起，以提⾼指标获取的精确度。最后，基于前面的数据处理和指标构造，⽣成用户属性维度，包括基本信息属性、行为属性和价值属性。从不同属性出发，为用户贴标签，设计用户画像。用户之间可能存在相似性，本文选用X-means聚类算法建立了客户细分模型，使得用户被分成六大类。根据每类用户特征，将用户群组定义为大众客户、优质客户、卓越客户、羊毛党客户、潜力客户、危险客户。

集成学习在通信用户流失预测中的应用研究

随着通信技术的发展，2018年我们有望迎来5G新时代。同时移动终端用户的规模不断增加，使得市场趋于饱和，传统的依靠新增客户来增加业务收入的模式动力不⾜。保留现有客户，降低流失成为数据运营的一大主题，对于运营商而⾔，意义重要。用户流失问题本质上是一个⼆分类问题，经典的处理该问题的方法有朴素⻉叶斯、logistic回归、决策树等算法，常用的模型融合思想主要有bagging、stacking和boosting，本文将选取几种有代表性的集成学习算法，运用到实际数据中，首先建立随机森林模型，将它作为bagging算法代表，再采用在数据挖掘竞赛中大放异彩的xgboost算法，最后将glm和rpart进行stacking。以三种方法对三种集成学习思想进行阐述，并进行预测。本文首先对通信业发展现状及存在的问题进行分析，再重点提出文本问题，阐述研究的意义，然后对国内外通信业对数据挖掘的应用进行总结。然后是集成学习算法理论介绍，接着运用集成学习算法对通信用户是否流失进行建模预测，实证分析主要包括数据预处理、描述性统计分析、模型建立预测和模型评价。模型评价部分采取三方面指标，错判率、特异度和灵敏度、AUC和ROC，对模型进行评价和比较。在本例中，随机森林模型AUC最大，xgboost模型的错误率最小且灵敏度第⼆，Adaboost的灵敏度最大。综合考虑，xgboost为最佳方案。

基于电商评价情感倾向的统计分析

互联网业的蓬勃发展使得电商成为人们⽇常消费的主要方式之一，尽管这种购买方式缺乏面对面的交流与沟通，却为我们提供了更为直观的观察窗口评论。评论不但可以在消费者进行甄选时为之提供参考，而且也可以为商家提供优质的商业策略，因此商品评论是极具商业价值的文本信息。2017年一种新的速⻝产品自热⽕锅出现在大众视野，自上线以来，每⽉的线上销量都呈翻倍式增⻓，仅在双十一一天就卖出了170万份。本文选取了两家最具代表性的品牌，爬取了各自销量最⾼的产品评论作为研究样本，对其文本数据进行深入分析。首先对评论进行人工情感标注，绘制词云图，随后以某品牌作为训练集，另一品牌作为测试集，进行有监督的机器学习。本文运用文本挖掘的方法，从情感倾向性分析的角度对评论的文本数据进行情感分类。本文将非结构化的文本信息通过分词，去停用词，构建向量空间模型等步骤转化为结构化数据之后，在权重值的基础上运用传统效果较好的卡方检验来进行特征选择，并分别对比了根据值和交叉验证法两种标准选择的变量的拟合结果，在拟合分类器模型后运用混淆矩阵，系数等评价指标对其泛化能力进行科学的评估，最终得到稳健的，泛化能力强的情感分类器模型。本文的降维过程为短文本降维提供了一个全新的思考角度和处理方式，这也是本文的创新点之一。

数据挖掘技术在精准营销上的应用

本文主要研究数据挖掘技术在精准营销领域的应用。首先介绍了数据挖掘技术的基本理论和精准营销的发展状况。传统的数据挖掘技术在精准营销上的应用主要是单一的分类器，但是本文重点是研究组合分类器在精准营销上的应用。传统的营销模式一般都是不分重点的普遍营销，但是真正的响应客户却占很小的比例，这就带来了数据不平衡的问题。为了解决数据不平衡的问题，本文主要采用了SMOTE方法。在实证分析部分，本文首先建立了几种单一分类器的模型，然后分析这几种模型在精准营销上的效果,基于组合分类器建立的模型，通过对比分析，我们发现使用组合分类器建立的模型分析结果要优于使用单一分类器建立的模型。最后，我们在组合分类器的基础上⼜对模型进行了融合，进一步提升了模型的效果。通过组合分类的融合可以大大提⾼用户的响应比率，对精准营销领域有重要的意义。

分类算法在名人堂判别中的应用

本文把NBA的球员作为研究对象，分别通过⽀持向量机、决策树模型、Logistic模型三种分类算法根据是否可以进入名人堂对已经退役的球员进行分类，并建立模型；最后通过模型对挑选的50名球员进行预测，看是否可以进入名人堂。伴随着球迷的增加，关于某个球星是否会进入名人堂的争论就会越来越多。本文从数据挖掘和统计学的角度出发，找出进入名人堂内在的规律性，为⼴大球迷提供一个理性的参考

个人公众号：ApocalypseNow。分享互联网数据分析行业经验。