天池大数据比赛

　　第一赛季结束了，以往都是在网上找到有用的博客摘抄过来，这次参加比赛，难得有些切实体验，恰好好久没动手写东西了，这次就动动手，动动脚。。。流水账式的记录开始

　　刚拿到数据，首先想到就是SVD，嘿嘿，这个东西学了这么久，正好碰到这么多的数据，那么多的维度（每个用户对应那么多商品，商品又有那么多用户购买，而且数据肯定特别稀疏），但是直接用SVD，面对10000*200w的维度还是很有难度的。窃以为刚好每个商品都有一个类别属性，统计了下约有8900个类别，不过这也是不小的数字。怎么对类别个数进行压缩呢？这么对类别，应该会有相似的吧，比如说裤子和裙子，嘿嘿，马上想到了聚类，这个学了好久的东西这次可以用下喽！马上对类别进行聚类，但是选择多少个类簇合适呢？这下我又发挥了自己的“聪明才智”，多试几个从10，到1000都试一下，比较那个什么距离平方和最小的。而且还把结果画成曲线，ok，就是那个拐角点出的值，好！就选100个类簇了，这下好开森哈！8900多个类被我压缩成100个了，那么仔细看下我的战果把，打开所用的工具weka(哇嘎哇嘎，诶诶诶，这东西一直也为是个玩具，这下用起来还挺“方便”的——挺弱智的)，在100个类中，有很多类下只有3个—4个子类，而有的