袋鼠云日志,日志分析没那么容易

从决定做袋鼠云的那一天,我就在思考,做为一家云计算和大数据的技术服务公司,做什么样的产品能给客户提供价值?

从2012年开始,我一直在做一个移动日志分析产品,类似于友盟和TalkingData,不过因为各种原因,这个产品主要为阿里集团内部的各个App提供服务,基本上成为了集团内部标配的工具,每天处理日志量超过1000亿条,顺利渡过了几次双十一大屏的大考,在稳定性和数据准确性方面都经受了挑战。

但除了数据量和电商业务中的交易链路跟踪和转化率的变态需求之外,移动日志分析从某种意义上来说还是简单的,因为日志数据的格式是预定义的,并且标准也由我们团队来制定。控制了源头,后续整个流动过程处理起来就相对容易。

2015年开始,我们也为阿里云的部分客户提供移动分析服务,经常碰到的一个问题就是,除了App,还有PC网页能一起分析么?说实话,这是一个合理的需求,所以今年友盟、CNZZ和缔元信的合并,变成友盟+,是一个非常自然的演进,但要真正做到跨屏数据的融合分析,就不是那么容易的事情了。

那么,除了移动App日志,PC Web日志,还有各种其他的日志,比如Linux的登录日志、Web服务器的Access Log、MySQL数据库的Error Log,Oracle数据库的Alert Log、应用程序打的各种Debug日志,等等。这些日志格式各异,分布在不同服务器的不同地方,如何集中、结构化、分析和展现这些数据,从中挖掘出更多的价值,是一件有挑战的事情。

2003年成立的Splunk应该是最知名的一家用搜索的思路来做日志产品的公司,但最初是以C/S架构做的,其云端产品虽然功能强大,但试用过后易用性只能说一版。而它的独立部署版本,据一些合作伙伴反馈,部署成本也很高。所以类似Sumo Logic、LogEntries、Logz.io等新兴的日志创业公司也是一个接一个,并且都获得了不错的融资。

而开源领域,ELK技术栈也是因为日志的需求而获得了极高的关注度,Elasticsearch、Logstash和Kibaba的组合,对于有一定技术实力的创业公司来说,部署一套不存在问题,但除了搜索功能之外,能用好的案例也不多,还需要投入人力来维护,对于创业公司也是不小的成本。

回到国内,之前有个做安全日志分析的日志宝,被360收购后已经停止运营。而最近在各个技术大会上露面较多的日志易,去年底号称获得了6000万的A轮融资,所以在百度上把Splunk关键字都买了。2015年8月份在36Kr上也有软文说日志易试用了Spark Streaming技术,并且正在开发基于机器学习的Log Reduce 技术。但到今天,实际上以日志易SaaS版的功能来说,完全没有用Spark的必要,Log Reduce也只是借鉴了Sumo Logic的一个概念而没有实际产品化出来。

所以说,日志分析没那么容易。真正要做好,像Splunk一样十几年了还需要面对不断推陈出新的对手。一通产品看下来,只有Sumo Logic真正的做到了创新,尤其是Log Reduce,也确实有技术含量,而不仅仅是一个术语,但实际的使用场景和效果如何,也还有待更多客户的验证。

那么袋鼠云日志能做些什么呢?首先,和所有的日志产品一样,如何更简单的完成日志的集中,统一搜索入口,对日志字段进行分析探索,基于日志的监控告警等都是最基本的需求。除此之外,袋鼠云日志当前版本也有两个独特的产品体验:

1. 日志实时Tail。 运维和开发同学在使用日志的时候,对日志文件执行tail -f file.log是最常用的操作,我们把这个功能也直接做到云日志中了,并且支持按主机、应用和日志类型进行筛选,也支持输入关键字做过滤。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

2. 自定义可视化大盘。 不是简单的添加固定模板拼出来的报表,而是可视化配置包括数据源和外观的完整的自定义大盘,并且可以全屏在显示器/电视机等屏幕上完美呈现。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

当然,这只是我们创业四个月来发布的第一个公测版本,接下来一个月在简化日志接入和Web日志安全分析等方面也会快速实现。至于Spark on Elasticsearch实现关联分析也在规划中,但能否做到更好,也欢迎对这个方向有兴趣的同学们加入进来,一起做国内最好的日志产品,解放运维和开发,满足业务和老板,把日志这么不容易的事情,真正做到易用好用。

原文地址:https://www.cnblogs.com/dtstack/p/10097237.html