用户画像之正反占比与TGI

示例：

在信贷数据中，征信认证是用户的属性之一，值域是：已认证、未认证。逾期也是属性之一，值域是：已逾期、未逾期。

要查看不同征信情况对逾期的影响。

计算方式1：

已认证占比=sum(已认证and已逾期)/sum(已逾期)

未认证占比=sum(未认证and已逾期)/sum(已逾期)

即在已逾期的范围里查看是否认证的占比。相加之和是100%。

问题是，如果未认证的基数特别大，那么99%的未认证占比和1%的已认证占比并不能说明什么，可能约等于已/未认证在总人数中的占比。没有意义。

计算方式2：

已认证占比=sum(已认证and已逾期)/sum(已认证)

未认证占比=sum(未认证and已逾期)/sum(未认证)

即在是否认证两方阵营里查看已逾期的占比。相加之和并不是100%。

比较两种占比值，那个值高就表示该情况对逾期的影响更大。

想起前几日看智能手机的数据分析报告，研究某特定人群里APP的使用情况，多次提及的目标群体指数TGI。

*********科普分割线*********

目标群体指数是一个“倾向性指数”，是指某一子群、某一指标的比例，与总群同一指标比例之比，再乘以标准数100所得的值。目标群体指数可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势；有助于明确目标市场，是设定目标时经常使用的主要工具。

TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。TGI指数表征不同特征用户关注问题的差异情况，其中TGI指数等于100表示平均水平，高于100，代表该类用户对某类问题的关注程度高于整体水平。例如，在15-24岁的人群中，有8.9%的人过去一年内服用过斯达舒，而在总体人群中，服用过斯达舒的人数比例为6.6%，则斯达舒在15-24岁人群中的TGI指数是134.9。假如其他年龄段的TGI指数都远远小于此值，则说明斯达舒的目标群体是15-24岁人群。

*********科普分割线*********

回到本示例，TGI计算方式：

已认证TGI=sum(已逾期and已认证)/sum(已认证) / sum(已逾期)/sum(总人数)

未认证TGI=sum(已逾期and未认证)/sum(未认证) / sum(已逾期)/sum(总人数)

不难发现，TGI计算方式和计算方式2是大同小异：TGI计算方式比计算方式2多了个分母。

如果分母不同，那么TGI计算方式就是唯一有效的了，这种情况也挺多的，比如那个智能手机的数据分析，对特定人群下使用多个APP的分析，多个APP的总人数都是不同的，分母自然就不一样了。