搜索引擎方案,仅脑构思

多媒体作业,自己定义一个多媒体搜索引擎,并写出方案,留下来,做个纪念

爬虫

(1)   通过网络爬虫大量地下载网页(可以考虑使用诸如Apache Nutch等开源网络爬虫)

(2)   通过正则表达式等方式对网页内容进行去噪,过滤垃圾内容,如根据常见的视频格式.avi .rmvb .flv等设计正则表达式,获取视频链接

(3)   根据视频链接下载视频(可以通过多线程等加快下载速度)、

镜头和关键帧的提取

1.对网上下载的海量视频进行粗略分类,通过模板匹配和颜色直方图方法进行渐变镜头的分析,通过双重比较法(二阈值法进行)进行渐变镜头提取。

2.选取镜头的中间帧作为关键帧

关键镜头的提取分析

从网上下载相关学科的知识点图谱。比如机器学习中的各种知识点-svm,高斯核函数等等作为关键场景提取的特征。

(1)     文本上、字母上:视频本身标题有相关文本标注,可以作为初略确定,大部分网络公开课会有相关字母,对字幕区域进行文字识别。将字幕信息变为文本信息,文本信息中出现svm、高斯核函数类似知识点,该镜头极有可能为关键镜头

(2)     语音上,提取公开课语音,进行降噪处理,利用现有的语音识工具,将语音信息转为文本信息,找是否有相关词汇。

(3)     视频上,公开课程一般是课堂和截屏等形式,截屏和黑板板书时也会出现相关关键词,用图片识别的技术找到关键区域,然后进行图片文字识别

搜索引擎索引

词袋模型和倒排索引

 

更新

权重,大网站多去,小网站少去

去重

视频本省标注,其中文本进行去重

检索模型、视频排序推荐

(1)布尔模型,查询关键词求集合运算

(2)排序推荐、权重推荐。比如搜svm

1)在网络爬去过程中,如网易公开课中视频,可以获得视频的点击量,还有如豆瓣知乎推荐打分。学习人数多,豆瓣打分高,权重高。

2)对视频片段进行分析,词汇出现次数多,说明讲解详细,得分高,

3)对多媒体质量进行评估,质量高的得分高

4)老师人气,相关领域大牛,如机器学习,李菲菲 吴恩达的得分高

        给各项得分按重要程度给不同权重

个性化推荐

推广

盈利

原文地址:https://www.cnblogs.com/smartwhite/p/8343255.html