天池大数据比赛

  第一赛季结束了,以往都是在网上找到有用的博客摘抄过来,这次参加比赛,难得有些切实体验,恰好好久没动手写东西了,这次就动动手,动动脚。。。流水账式的记录开始

  刚拿到数据,首先想到就是SVD,嘿嘿,这个东西学了这么久,正好碰到这么多的数据,那么多的维度(每个用户对应那么多商品,商品又有那么多用户购买,而且数据肯定特别稀疏),但是直接用SVD,面对10000*200w的维度还是很有难度的。窃以为刚好每个商品都有一个类别属性,统计了下约有8900个类别,不过这也是不小的数字。怎么对类别个数进行压缩呢?这么对类别,应该会有相似的吧,比如说裤子和裙子,嘿嘿,马上想到了聚类,这个学了好久的东西这次可以用下喽!马上对类别进行聚类,但是选择多少个类簇合适呢?这下我又发挥了自己的“聪明才智”,多试几个从10,到1000都试一下,比较那个什么距离平方和最小的。而且还把结果画成曲线,ok,就是那个拐角点出的值,好!就选100个类簇了,这下好开森哈!8900多个类被我压缩成100个了,那么仔细看下我的战果把,打开所用的工具weka(哇嘎哇嘎,诶诶诶,这东西一直也为是个玩具,这下用起来还挺“方便”的——挺弱智的),在100个类中,有很多类下只有3个—4个子类,而有的

原文地址:https://www.cnblogs.com/hugh2006/p/4459357.html