线性回归处理非数值型数据

线性回归中经常会遇到非数值型数据,即分类型数据,比如性别、所属省份、专业类型等等

分类型数据无法量化,一般会采用哑数据进行处理

如某个数据分为A、B、C三类,即可采用两个哑数据a,b

类型为A时,a=1,b=0

类型为B时,a=0,b=1

类型为C时,a=0,b=0

不使用a,b,c三个哑数据,是因为如果哑数据个数与分类数相同时,恒有a+b+c=1,会存在多重共线性问题

所以在N分类时,一般使用N-1个哑数据

原文地址:https://www.cnblogs.com/yytxdy/p/11461052.html