二,论文研读总结

二,论文研读总结

  • 论文名称:韩法旺. Web日志挖掘数据预处理过程研究[J]. 南京工业职业技术学院学报, 2012, 12(2):53-56.

  • 研究对象
    对web日志挖掘数据预处理的研究,同时结合所看专著第三章数据预处理,进行研读。

  • 研究动机
    web日志文件的格式是半结构化的,并且日志中的数据也不够完整,由此要对web文件进行预处理转化为挖掘算法易于使用的,具有良好格式的数据,

  • 文献综述
    预处理一般过程


对web数据进行预处理过程包括数据清理,用户识别,会话识别,事务识别,路径补充,Frame页面清理。
数据清理
把web日志中和挖掘目的无关的数据项清除,把对挖掘目的有用的数据转换成数据挖掘需要的格式。通常删除特定的后缀名,及无用记录,减少数据量。
用户识别
识别每个访问网站的用户,将用户和访问网站相关联,发现访问特点,用户模式分析。参考用户识别规则。
会话识别
基于时间间隔,连续请求两个web页面时间差值超过T,就认为该用户开启了新的会话。还有一篇文献对此进行了改进。
会话识别算法

Function Distance(H,f)
H为按照时间排序会话历史记录;f 为网页文件
Set min=∞
For each H i ∈H do
  If f j ∈ H i
  d i =H, size()-H i ,index(f)
  t i =H i ·t n -H i ·t j
  if(d i <min)
  assign-i
  min-d i
  else if(d i =min)
  if(t i <t assign )
  assign=i
return assign
end

Distance()函数

Heuristic Identify
1.让H i ={f 1 ,f 2 ……f n }是一个时间序列的会话历史记录。
2.让 1 j , f j , r j , t j 分别表示为一条日志记录实体、 referrer 和时
间。
3.T 表示时间间隔, 当时间间隔大于 T 时, 表示开始新的会
话。一般 T 都用 30分钟, 而最好时间间隔为 25.5分钟。
4.数据按照 IP 地址、 Agent 和时间排序。
5.for each unique IP/Agent pair do
6.  for each I j do
7.   if[ (t j -t j-1 )<T] V r j ∈{H 0 , ……, H m }then
8.   i++;
9.   Add I j to H i
10.  Else
11.   Assign-Distance (H, r j )
12.   Add r j to H assign

路径补充
针对会话识别过程中重要的请求没被记录,大多数访问路径是不完整的。路径补充的任务就是将遗漏的请求补充到用户会话中,具体有两种方法:(1)如果请求的页面不能从用户最后一个请求直接访问,就检查日志中的这个请求从哪里来,如果存在于用户最近最近访问记录,假设是由用户“后退”操作造成。(2)假定用户访问记录多于一个页面连接到这个请求页面,就按最接近它的当前页面,是新请求页面的来源。
事务识别
把单独的数据事件集成事务,在进行相应的数据挖掘和分析。
Frame页面过滤
消除frame页面对挖掘结果的影响,提高web日志挖掘结果的兴趣性。

  • 使用数据集
  • 研究结论
  • 学习心得
    该论文就整体介绍了,对web日志挖掘数据预处理的一般过程,得出预处理过程的一般模型,结合其他文献可以更深入的了解各个过程的实现细节。
原文地址:https://www.cnblogs.com/zaw-315/p/11222784.html