帆软FineBI大数据Spider引擎——为海量数据分析而生

一、应用背景

随着各个业务系统的不断增加，以及各业务系统数据量不断激增，IT数据支撑方的工作变得越来越复杂。主要问题如下：

1、数据来自多个不同的系统，存在需要跨数据源分析，需要对接各种不同数据源等问题。

2、需要分析的数据体量越来越大，并且要快速获得分析结果的问题。

3、部分数据还需要二次加工处理的问题。

供数支撑方在业务系统的前端看起来基本没有任何操作，但背后的逻辑十分复杂，实现难度也很大。就像看得到的是冰山一角，看不到的是海水下绝大部分的支撑。

FineBI为了适应大数据时代，完善大数据解决方案，解决日益激增的大数据量分析诉求，为数据分析展示的最后一公里做好支撑。

自助式商业智能分析工具FineBI V5.0版本的Spider引擎应运而生。

二、Spider引擎介绍

为什么叫Spider引擎呢？

听起来很像爬虫软件，和数据分析又有什么关系呢？

一则是字面翻译过来的意思——蜘蛛，从蜘蛛就很容易联想到结网。从结网的角度的看，有两个含义，一是将之前已有的引擎功能全部联结在一起，因为5.0引擎实现了实时数据与抽取数据的对接与灵活切换；二是5.0数据引擎比较重要的分布式模式，这种模式是由各个组件组合起来的架构，结网就是将这些组件联结起来的意思。

二则是谐音法拉利的一款敞篷跑车。跑车嘛，速度快。这款跑车做了加长与加宽设计，使其更稳定，保持性能且更安全。恰好与我们的数据引擎理念不谋而合。

因此，就取名Spider引擎。

再来说说它的发展史。

FineBI的数据引擎从起初做数据抽取的cube/FineIndex引擎，发展到后来开发了直连引擎/FineDirect引擎。再到2016年开发，17年到18年迅速扩展到60多家客户使用的分布式引擎。引擎功能与支撑数据量都在伴随着时代的发展不断进步。然而引擎类别繁多，用户理解与使用都是问题。

因此，到v5.0版本，将引擎做了大一统，Spider引擎将之前所有引擎功能全部囊括其中，抽取数据与实时数据可互相切换，本地模式可根据数据量情况扩展为分布式模式，使用与理解上都更加简单了。

帆软FineBI大数据Spider引擎——为海量数据分析而生

三、灵活的大数据解决方案

帆软FineBI大数据Spider引擎——为海量数据分析而生

很多企业本身就有高性能数据查询引擎，或业务的实时性要求特别高，那就可以使用Spider引擎直接对接数据库。

然而，很多时候，BI工具需要一个为灵活自助分析提供的敏捷型数据引擎。也就是需要将数据抽取到中间层中存储下来，以便计算不受数据库影响，并且快速得到分析结果。抽取数据的情况下，FineBI默认的应用与数据引擎可以是一台服务器，数据量在亿级以内的情况下，展示速度十分优秀。由于没有网络传输的限制，本地计算效果会优于分布式扩展后的分布式计算效果。在数据量激增之后，就需要扩展之后的Spider分布式引擎，在功能实现上，依旧是将数据抽取到敏捷型数据集市中做分布式存储，从而对接前端的分析查询，实现快速分析展示。

帆软FineBI大数据Spider引擎——为海量数据分析而生

以上的数据抽取或实时从数据库获取的方式可灵活切换，既数据即可来自数据库，也可以来自中间存储引擎，且这两种方式又可以任意切换，前端分析展示不受影响，从而在BI分析的各种应用场景中更加灵活。

在实际使用中，抽取数据与实时对接通常是并存的，如下是一些常见应用架构：

帆软FineBI大数据Spider引擎——为海量数据分析而生

因此在整体实现上可以如下所示：

帆软FineBI大数据Spider引擎——为海量数据分析而生

四、大数据展示实施分解

FineBI的架构设计很容易将不同模块内容，分解界定到不同部分。（避免引起部门内矛盾）

将干系人团队分解出来三种类型，分别是IT信息/科技部门、中间技术人员/数据分析部门、业务部门，不同的部门对应不同事项内容与项目产出。

大量级的数据处理与准备等，必然需要很强的技术实力。因此数据处理部分的工作全部交由IT部门来处理。IT信息科技部负责对接到数据分析部，为其提供需要的基本数据。
数据分析部联结业务部门与IT信息科技部门，负责将业务常规所需（根据历史经验分析）的表添加到业务包中，覆盖大部分的业务常用分析，同时将其他业务相关的基础表也添加到业务包中以供使用。也会制作复杂分析模板挂出以供业务部门使用，同时常用复杂逻辑计算分析也做成demo形式提供给业务部门作为参考，以便复用。
业务部门的人员根据提供的业务包以及示例和demo，自行做一些常用分析。

如下，是典型实施内容的分解：

帆软FineBI大数据Spider引擎——为海量数据分析而生

五、典型应用案例

1.汇总数据灵活分析

大型企业以客户维度的汇总数据，总数都在百万千万，甚至上亿级别。而细粒度维度灵活切换与组合的统计分析，则无法估量每一次分析的数据量。大量级数据即时维度组合与计算，就需要有强大计算能力的计算引擎。结合FineBI展示优势与分析能力，引擎的计算性能优势得到发挥。

从而便于让企业以客户为中心，实现商业价值最大化，通过数据来回答最本质的商业问题。

市场营销上能准确定位到目标客户，把控风险。
客户经营上发现与探索客户需要什么，痛点是什么。
风险管控上，能有效控制自己的风险。
产品创新上，始终能够不断给到用户最新最优体验。

主要使用场景如下：

（1）用户画像

示例1：

在某个新项目的新系统推广到市场的情况下，会采取由内部推广到外部的方式。如下图所示，是项目推广前中阶段需要重点关注的信息。通过时间线，观察用户属性、性别、年龄、地域分布，从而调整营销策略。

帆软FineBI大数据Spider引擎——为海量数据分析而生

示例2：

某保险行业示例，通过企业内的核心业务数据、用户数据、日志数据，结合外部数据、网络爬虫数据，建立企业的大数据标签库、用户标签库等等。从而在整体上观察用户各维度情况，再到细粒度层级，查看细节信息。

帆软FineBI大数据Spider引擎——为海量数据分析而生

（2）风险控制

根据理赔风险预测、分产品费用结构、费用构成等指标实时管控风险，做到防患于未然。根据内外部数据。

帆软FineBI大数据Spider引擎——为海量数据分析而生

（3）营收分析

不同时间周期范围内，不同分部、支部以及更细粒度的营收状况，以及营业状况的分析查询。数据容纳更广的时间周期，除了近期之内的，也包括几年之前的历史数据。历史的回溯分析，当前的状况把控与未来的展望，均能有效支撑。

帆软FineBI大数据Spider引擎——为海量数据分析而生

2.更细维度的分析查询

（1）保险行业的明细分析应用

在保险行业，有大数据量明细清单查询与分析场景，这种场景在稍大型保险企业，明细数据量动辄上亿。

保险行业常用传统展示分析工具如BO、SSAS、cognos、Microstrategy等，常规汇总分析数据与粗粒度维度汇总计算较为方便，固定的指标查看等都没有问题。但是到明细数据的展示分析与汇总时候，就存在各种性能瓶颈以及传统BI工具的约束，比如维度过多导致cube难以支撑；无法在线查看实际明细数据，而下载导出的数据有数据量的限制；任意维度调整、查询条件改变都需要IT人员的修改；图表可视化效果一般等。

因此使用FineBI及其Spider引擎来做补足。从而实现：

更多明细数据全维度展示分析：承保、批改、理赔、再报、收付、客服六大环节明细数据实现全维度分析。
数据校验、核对：检验统计指标的计算正确性，支付金额的确认与核对，以及结算对账等。
问题深入挖掘：从粗粒度统计报表维度结论追朔到明细清单层面，发现问题并处理。
任务完成情况跟踪：未决清单情况的跟踪等。

（2）不断调整岗位的绩效考核应用

企业总会调整、增加一些岗位，对这些岗位的政策总是在不断调整。调整过程中对明细数据经过观察与统计计算，比如考勤机制、奖励政策、核心工作处理时长等都需要对每个明细情况做细节上的掌控，从而发现核心需要关注的指标。从而调整那个岗位的KPI制定。（这也是内部精益创业原则说明的，快速试错与调整，以及确定核心指标）

（3）质检品控需要

各种需要基层业务人员录入数据的场景，比如保险员/用户系统录入一份份保单、银行业务员录入每一笔流水交易等，需要对录入清单质量、服务质量等做检查。需要细化到保单级数据中排查，从而将问题单下发到机构进行修改。
制造业/生产业生产产品的场景下，某一批次的产品特别不符合标准要求，就需要对本批次汇总核心指标情况进行分析排查，从而细化到某个场次/流水线。

最后，喜欢我们文章的话赶紧来官网体验下吧！

下载地址：//www.finebi.com/?utm_source=media&utm_medium=csdn