用户画像之正反占比与TGI

示例:

在信贷数据中,征信认证是用户的属性之一,值域是:已认证、未认证。逾期也是属性之一,值域是:已逾期、未逾期。
要查看不同征信情况对逾期的影响。
 
计算方式1:
已认证占比=sum(已认证and已逾期)/sum(已逾期)
未认证占比=sum(未认证and已逾期)/sum(已逾期)
即在已逾期的范围里查看是否认证的占比。相加之和是100%。
问题是,如果未认证的基数特别大,那么99%的未认证占比和1%的已认证占比并不能说明什么,可能约等于已/未认证在总人数中的占比。没有意义。
 
计算方式2:
已认证占比=sum(已认证and已逾期)/sum(已认证)
未认证占比=sum(未认证and已逾期)/sum(未认证)
即在是否认证两方阵营里查看已逾期的占比。相加之和并不是100%。
比较两种占比值,那个值高就表示该情况对逾期的影响更大。
 
 
想起前几日看智能手机的数据分析报告,研究某特定人群里APP的使用情况,多次提及的目标群体指数TGI
 
*********科普分割线*********
目标群体指数是一个“倾向性指数”,是指某一子群、某一指标的比例,与总群同一指标比例之比,再乘以标准数100所得的值。目标群体指数可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势;有助于明确目标市场,是设定目标时经常使用的主要工具。
 
TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。TGI指数表征不同特征用户关注问题的差异情况,其中TGI指数等于100表示平均水平,高于100,代表该类用户对某类问题的关注程度高于整体水平。例如,在15-24岁的人群中,有8.9%的人过去一年内服用过斯达舒,而在总体人群中,服用过斯达舒的人数比例为6.6%,则斯达舒在15-24岁人群中的TGI指数是134.9。假如其他年龄段的TGI指数都远远小于此值,则说明斯达舒的目标群体是15-24岁人群。
*********科普分割线*********
 
 
回到本示例,TGI计算方式
已认证TGI=sum(已逾期and已认证)/sum(已认证)  /   sum(已逾期)/sum(总人数) 
未认证TGI=sum(已逾期and未认证)/sum(未认证)  /   sum(已逾期)/sum(总人数) 
 
不难发现,TGI计算方式和计算方式2是大同小异:TGI计算方式比计算方式2多了个分母。
如果分母不同,那么TGI计算方式就是唯一有效的了,这种情况也挺多的,比如那个智能手机的数据分析,对特定人群下使用多个APP的分析,多个APP的总人数都是不同的,分母自然就不一样了。
 
原文地址:https://www.cnblogs.com/myshuzhimei/p/11713071.html