数据分析笔试（2）

1、KMO值在（）范围内，因子分析才是有效的。
解答：kmo检验统计量是用于比较变量间简单相关系数和偏相关系数的指标，主要用于多元统计的因子分析。当所有变量的简单相关系数的平方和远远大于偏相关系数的平方和时，kmo值越接近于1，原有变量越适合做因子分析。0.7-0.8适合，0.8-0.9很适合，0.9-1非常适合。0.6-0.7不太适合，0.5-0.6勉强适合，小于0.5不适合。BartlettP值小于或者等于0.01适合。

2、数据分析的方法包含（）、（）、（）等。
解答：描述性统计，回归分析。方差分析，假设检验。

选择题。较为简单

简答题。
1、某网站7月份共访问用户数4100人，已知访问网站有两种登陆方式A 和B 。使用A登陆的7月份总用户数为2835，使用B方式登陆的7月份总用户数为1400，既使用过A又使用过B登陆的7月份总用户数为985.
问：可以看出，总访问数—使用A登陆方式的总用户数=1265，那么A与Ｂ的重复用户数＝B登陆用户数—1265=135，而实际得到的既使用A登陆方式又使用Ｂ登录方式的７月份总用户数为985，显然这是矛盾的，问题出在哪里？给出计算方法。

2、新浪公司楼下有一便利店，35平米，收银员2位，每天提供早餐、中餐、晚餐。如果你来做估算，计算每天的营业额是多少？

3、抽样估计的优良标准。
解答：无偏性，一致性，有效性。

4、写出相关和回归分析的内容。
解答：相关分析是对两个变量之间线性关系的描述和度量。
回归分析侧重于考察变量之间的数量伴随关系。

5、一道关于产品成本降低率和销售利润的直线回归分析的题目，记不清了。

2012新浪校园招聘数据分析师职位笔试题目。A卷（数据挖掘方向）
1、输入两个整数n 和m ，从数列1、2、3....n中随意取几个数，使其等于m，将其所有可能的组合列出来，如果考虑递归算法，请将算法的思路或者伪码写出来即可，求解思路：
2、有100个人做5道题目，第一道题目做的人有55人，第二道做对的人有89人，第三道作对的人有97人，第四道作对的人有79人，第五道作对的人有46人，已知至少作对三道才是过关，问至少多少人过关？（提供的数字我已经记不清了就随便写的几个）
3、证明根号2是无理数。
4、聚类分析方法对变量之间多重共线性的影响。
5、新浪公司楼下有一便利店，35平米，收银员2位，每天提供早餐、中餐、晚餐。如果你来做估算，计算每天的营业额是多少？

1.平均数，中位数，众树，方差，标准差的含义，并举例子解释。
2.你心目中的数据分析师是什么样的？
3.两个水桶，一个小点的桶可以装4升水，大的桶装11升水，问怎么操作可以两个桶盛5升水？
4.数据分布有哪些？选择熟悉的数据分布并写出其适用的场景。
5.写出三种熟悉的排序算法，选择一个写出其伪代码。
6.Hadoop生态系统组件有哪些？写出你熟悉的三个。
7.什么是幸存者偏差？
8.写出10种linux命令，写出其参数。
9.用一种编程语言，实现1+2+3+4+5+.....+100
10.实现求1，2，3，...100之间的质数。
11.给几个表，mysql语言编写。（时间来不及，就没有写，挺复杂的）
12.给了三个图表，全是英文的，对其做分析。

最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据，提高泛化能力。

#1.朴素贝叶斯 1）基础思想：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此分类项属于哪个类别。

2）优点：可以和决策树、神经网络分类算法相媲美，能运用于大型数据库中。方法简单，分类准确率高，速度快，所需估计的参数少，对于缺失数据不敏感。

3）缺点：假设一个属性对定类的影响独立于其他的属性值，这往往并不成立。（喜欢吃番茄、鸡蛋，却不喜欢吃番茄炒蛋）。需要知道先验概率。

#2.决策树 1）基础思想：决策树是一种简单但广泛使用的分类器，它通过训练数据构建决策树，对未知的数据进行分类。

决策树的每个内部节点表示在一个属性上的测试，每个分枝代表该测试的一个输出，而每个叶结点存放着一个类标号。在决策树算法中，ID3基于**信息增益**作为属性选择的度量，C4.5基于**信息增益比**作为属性选择的度量，CART基于**基尼指数**作为属性选择的度量。

2）优点：不需要任何领域知识或参数假设。适合高维数据。简单易于理解。短时间内处理大量数据，得到可行且效果较好的结果。

3）缺点：对于各类别样本数量不一致数据，信息增益偏向于那些具有更多数值的特征。易于过拟合。忽略属性之间的相关性。

#3.支持向量机 1）基础思想：支持向量机把分类问题转化为寻找分类平面的问题，并通过最大化分类边界点距离分类平面的距离来实现分类。

2）优点：可以解决小样本下机器学习的问题。提高泛化性能。可以解决**文本分类、文字识别、图像分类**等方面仍受欢迎。避免神经网络结构选择和局部极小的问题。

3）缺点：缺失数据敏感。内存消耗大，难以解释。

#4.K近邻 1）基础思想：通过计算每个训练样例到待分类样品的距离，取和待分类样品距离最近的K个训练样例，K个样品中哪个类别的训练样例占多数，则待分类样品就属于哪个类别。

2）优点：适用于样本容量比较大的分类问题

3）缺点：计算量太大对于样本量较小的分类问题，会产生误分。

#5.逻辑回归（LR） 1）基础思想：回归模型中，y是一个定型变量，比如y=0或1，logistic方法主要应用于研究某些事件发生的概率。

2）优点：速度快，**适合二分类问题。** 简单易于理解，直接看到各个特征的权重。能容易地更新模型吸收新的数据。

3）缺点：对数据和场景的适应能力有局限，不如决策树算法适应性那么强

1）准确率（precision rate）：TP/(TP+FP)
2）召回率（recall rate）：TP/(TP+FN)

对于不平衡类的分类器评价，使用ROC和AUC作为评价分类器的指标
3）ROC曲线：
ROC关注两个指标
- True Positive Rate ( TPR，真正率 ) = TP / [ TP + FN] ，TPR与召回率大小相等。
- False Positive Rate( FPR，假正率 ) = FP / [ FP + TN] ，
  在ROC 空间中，每个点的横坐标是FPR，纵坐标是TPR

4）AUC值：AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而AUC作为数值可以直观的评价分类器的好坏，值越大越好。

过拟合表现在训练数据上的误差非常小，而在测试数据上误差反而增大。其原因一般是模型过于复杂，过分得去拟合数据的噪声和outliers。
常见的解决办法是正则化是：增大数据集，正则化

正则化方法是指在进行目标函数或代价函数优化时，在目标函数或代价函数后面加上一个正则项，一般有L1正则与L2正则等。规则化项的引入，在训练（最小化cost）的过程中，当某一维的特征所对应的权重过大时，而此时模型的预测和真实数据之间距离很小，通过规则化项就可以使整体的cost取较大的值，从而在训练的过程中避免了去选择那些某一维（或几维）特征的权重过大的情况，即过分依赖某一维（或几维）的特征。
L1正则与L2正则区别：
L1：计算绝对值之和，用以产生稀疏性（使参数矩阵中大部分元素变为0），因为它是L0范式的一个最优凸近似，容易优化求解；
L2：计算平方和再开根号，L2范数更多是防止过拟合，并且让优化求解变得稳定很快速；
所以优先使用L2 norm是比较好的选择。

3）快速排序快速排序是对冒泡排序的一种改进。快速排序是不稳定的。最理想情况算法时间复杂度O(nlog2n)，最坏O(n ^2)。

基本思想：（1）首先任意选择一个元素作为初始元素key（一般取第一个元素）（2）从两端开始分别找：从右往左，寻找比key值小的元素交换位置；再从左往右，寻找比key值大的元素交换位置；（3）如此依次循环步骤1.2 4）

堆排序堆排序是一种树形选择排序。

堆排序是不稳定的。算法时间复杂度O(nlog n)。基本思想：分为最大化堆和最小化堆。

作者：是蓝先生
链接：https://www.jianshu.com/p/a64aa70d0fbc