任务一相关节目识别

标签（空格分隔）：一找

任务描述

一、同一系列电影识别
1、根据数据表t_movie_douban，参考电影名、别名、导演、演员等各个字段的相似性来判断电影之间是否是同一系列。
2、识别出系列序号、系列名，比如：“速度与激情3：东京漂移”。
二、重名电影识别
根据数据表t_movie_douban，识别出名称相同的电影。
三、结果输出
结果分别输出到mysql以下两张表；
t_movie_cluster_test：相关节目簇信息，属于同一相关节目的簇，存放该簇的信息。cluster_id：簇ID，自增；type：簇类型，1为同系列，2为重名；title：簇名，同系列时为系列名，重名节目时为节目名。
t_movie_related_test：相关节目信息，存放簇与节目的映射关系。
四、数据库信息
host: summba-dev3:3306
dbname: db_yeezhao_dolphin
user: dolphin
password: dolphinadmin
五、指标
准确率目标：90%。随机抽样100个簇，如果该簇的节目都是同系列或重名的，则为正确，由此算出准确率。
召回率目标：90%。随机抽样100个节目，查看它是否正确地被（或没被）归到簇里，则为正确，由此算出准确率。
六、参考
代码：yz-dolphin-serv-crawler
com.yeezhao.dolphin.crawler.related
https://tower.im/s/a7GNv
https://tower.im/s/89C6M
https://tower.im/s/8cC6N

方案

技术方案：

该任务可以建模为一个二元分类问题（同系列1、不同系列-1）。选择分类器的原因是仅凭title判断会造成误判，而分类器可以结合其他辅助信息自己学习出一套规则。

1.用正则表达式对标题进行预处理

去掉了代表系列的词：
xxx之xxx，第x季，最终章，序章，第x章，后章，前章，续章，剧场版，(美版)，冒号（冒号前的首字符串末尾的系列号），第x集，OVA，OAD，第x部分，序曲,I,II,III，特别篇，Season，数字，第xx话，第x夜，第x部，第x卷，第x幕，第x期，外传，别传，新版，高清版，特别篇等

2.对预处理后的标题进行排序

对title按照字典顺序进行排序，这样做的好处是能够把相似的title排列在一起，比较时只需要比较前后两条记录即可。这种比较方式优点是效率高，只需要O(n)次比较；如果穷举所有的pair，则要O(n^2)

3.如何建立关系

先直接比较两条记录的title，如果相同，则标注为重名；如果不同，则调用分类器对两条记录组成的特征向量进行分类，判断是否是同一系列，如果是，则合并到同一系列中；如果不是则新建一个簇。

4.分类器的设计

主要有以下几点要考虑：

1）标号的产生。这个问题没有给我们标号，因此需要人工进行标定，这一部分采用了基于主动学习的方法来完成标定。

2）特征的设计。目前想到的特征有标题相似度、子标题相似度、导演、作家、演员匹配数，类型相似度，出品地，语言，描述相似度，出品国家等。
最后用到的特征如下：

标题相似度：最长公共子序列
子标题相似度：同上
导演、作家、演员特征定义为两个movie共同导演/演员数，若没有或者其中一个为NULL，则为0。
类型相似度：两部影片类型是否相同，比如均为喜剧片，若相同则为1，不同（或其中一者为NULL）为0
出品地、语言：相同为1，不同为0
年份差：两部电影出品年份的差除以20.0

描述相似度特征与标题相似度特征定义相同

3）正负样本比例的确定。暂定正负样本比为1:1。

4）训练样本的选择。既要选择容易分的，也要选择在边界附近的。

代码

代码位于包com.yeezhao.dolphin.crawler.entertainment.related，结构体系如下：

related>
Cluster：簇类，存放同系列或同名电影
FeatureExtractor：特征提取器，用了单例模式实现
FeatureVector：特征向量类
Movie：电影类，存放电影的信息
RelatedMovieCrawler：相关电影爬虫类，为程序的入口
Relation：电影和簇之间的关系类
RelationExtractor：关系提取器，单例实现
svm_predict：svm预测接口
svm_train：svm训练接口

注释都已经齐全，所以不详细介绍了

遇到的问题

正则表达式将一些标题处理为空，比如第27章，爱情第二章
这种情况没有太好的解决办法，通过加入规则来解决
SVM分类器准确率不高，只有93%
经过调试发现，问题出自年份中的噪声，比如19961997,199503这样的时间，解决办法为用正则表达式取前面的4位作为年份，同时对年份特征进行放缩，消除数量级对特征的影响，去噪后准确率达到97%