数据分析

从后台server获取应用上报的日志作为数据源，包括不限于新增日志，访问日志，下载日志，以及用户行为日志等。通过awk筛选出关注的字段。

从云存储系统获取数据

从已有的统计结果中获取数据，目前业务涉及到mysql和oracle。如果需要在hive中做计算，可以用数据工厂中的同步组件把db中数据同步到hive（两步走：db到文件，然后文件系统到hive）

获取hive集群中的数据，目前涉及到上海集群和深圳集群。

2. 数据处理

把获取的数据处理成自己想要的样子。

如果源数据在linux机器上，可以通过perl脚本，或者awk来处理，这种情况适合数据量不大情况下；如果数据量大，比如有按月作业或者按天数据量到千万级别或者亿级别，就建议放在hive集群中来算。文件可以通过日志文件ETL筛选入表格，db中的数据可以使用同步组件。

3. 数据分析

对图，表，数字进行分析，常用的方法有横纵对比和趋势分析。要结合数据与业务，深入了解业务，才能对业务的数据有更深入的见地。

对渠道稽核来说，每个渠道的新增用户，启动用户，渠道新老用户占比，使用应用的时长频率，以及用户留存率及自定义事件的数据都可以纳入分析，通过现象看本质。通过“关系”的思维来看数据。

把数据当成信仰来做，稳固并且精准。