架构实践(转)

1. 从0开始做互联网推荐-以58转转为例

1）从0开始设计推荐产品框架

（1）首页推荐：提取用户画像，根据线下提取出的用户年龄、性别、品类偏好等在首页综合推荐宝贝

（2）宝贝详情页推荐：买了还买，看了还看类的关联宝贝推荐

（3）附近推荐：和首页推荐的差异在于，提高了地理位置的权重，地理位置不仅要包含当前地理位置，还需要包含常见活跃区域，例如家里、公司等

（4）搜索推荐：除了关键词全匹配，要考虑同义词、近义词、易错词、拼音等推荐，产品层面，提示“你是不是想找xxoo宝贝”

（5）召回推荐：在用户退出系统后，通过RFM模型做优惠券推送或者消息推送做客户挽留与召回

TIPS：什么是RFM模型？

RFM模型：根据用户最近一次购买时间Recency，最近一段时间的购买频度Frequency，最近一段时间的购买金额Monetary，加权得到的一个代表用户成交意愿的一个分值。

2）从0开始进行推荐策略实现

a. 用户画像

b. 如何构建画像

a). 读取用户安装的应用程序列表构建画像

b). 用户行为日志

c. 宝贝画像

d. 如何构建宝贝画像: 对于58转转来说，要做宝贝画像必须细分类别，可以分词词频统计配合人工review的方式画像

e. 标签化与个性化推荐

f. 分类预测推荐

g. 协同过滤推荐

2. 58到家入驻微信钱包的技术优化

“页面静态化”是一种将原本需要动态生成的站点提前生成静态站点的优化技术，总数据量不大，生成静态页面数量不多的业务，非常适合于“页面静态化”优化。

3. 创业公司快速搭建立体化监控之路（WOT2016）

创业型公司快速实施立体化多维度监控总结：

（1）机器、操作系统维度监控：zabbix

（2）进程、端口维度监控：分发型监控 + 汇总型监控

（3）错误日志与关键字维度监控

（4）keepalive接口与所有接口统一处理时间统一上报监控

（5）模拟调用方调用站点、服务，来对站点和服务进行监控

4. 怎么判断哪个执行成功，哪个执行失败

set操作，其实无所谓成功或者失败，业务能通过affect rows得知哪个修改没有成功：

执行成功的业务，affect rows为1

执行失败的业务，affect rows为0

5. 百度咋做长文本去重（一分钟系列）

文本相似性的签名算法：

可以用局部敏感哈希LSH（Locality Sensitive Hash）解决，局部敏感哈希是一类文本越相似，哈希值越相似的hash算法，有兴趣的同学自行百度，这里分享一下minHash的思路。

问题的提出：什么是minHash？

回答：minHash是局部敏感哈希的一种，它常用来快速判定集合的相似性，也常用于检测网页的重复性，其思路为，用相同的规则抽取集合中的少部分元素代表整个集合，如果少部分元素的重合度很高，非常可能整个集合的重复度也很高。

6. 如何快速实现高并发短文检索