查重

simhash

转换为16个字段

转换规则:拆分4段:ABCD

ABCD

BACD

CABD

DABC

在把BCD 拆分4段

  1234

  ABCD变为:

    A1234

    A2134

    A3124

    A4123

  BACD变为:

    B1234

    B2134

    B3124

    B4123

  CABD变为:

    C1234

    C2134

    C3124

    C4123

  DABC变为:

    D1234

    D2124

    D3124

    D4123

匹配:

  把匹配simhash也按上拆分方法得到对应的simhash,搜索

  即:前28位相同且后36位simhash值小于等于3的结果集

  substr(simhash,0,28).'%' && sim_cmp(substr(simhash,28,64))

原文地址:https://www.cnblogs.com/liushannet/p/3205688.html