ELK-logstash导入数据以及配合kibana使用

1、数据集下载

MovieLens数据集包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。本文所用的数据为1M的数据,对应的版本是ml-latest-small.zip。点击此处下载

这个数据集经常用来做推荐系统，机器学习算法的测试数据集。尤其在推荐系统领域，很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。

2、配置文件

logstash.conf

 1 input {
 2   file {
 3     path =>["D:/logstash-6.0.0/movielens/ml-latest-small/movies.csv"]   #csv文件路径
 4     start_position => "beginning"
 5     sincedb_path => "D:/logstash-6.0.0/movielens/ml-latest-small/null"  #监听文件读取信息记录的位置:beginning表示从头开始读取文件，end表示读取最新的
 6   }
 7 }
 8 filter {                                    #filter插件负责过滤解析input读取的数据
 9   csv {
10     separator => ","                        #拆分符
11     columns => ["id","content","genre"]     #csv文件中的字段，注意：要和 csv文件中字段顺序一致
12   }
13 
14   mutate {
15     split => { "genre" => "|" }
16     remove_field => ["path", "host","@timestamp","message"]
17   }
18 
19   mutate {
20 
21     split => ["content", "("]
22     add_field => { "title" => "%{[content][0]}"}
23     add_field => { "year" => "%{[content][1]}"}
24   }
25 
26   mutate {
27     convert => {
28       "year" => "integer"
29     }
30     strip => ["title"]
31     remove_field => ["path", "host","@timestamp","message","content"]
32   }
33 
34 }
35 output {
36    elasticsearch {
37      hosts => "http://localhost:9200"
38      index => "movies"
39      document_id => "%{id}"
40    }
41   stdout {}
42 }

然后在logstash所在的bin目录下执行：logstash -f logstash.conf

如果出现类似下图，就说明数据集导入成功

3、配合Kinaba使用

1）创建索引

2）discover-分析

可以看出针对类型中的每一个字段，对应的每一个值的所占占比，都会有柱状图以及百分比显示。

参考链接：

https://www.jianshu.com/p/58b1087f12b3