帆软FineBI大数据Spider引擎——为海量数据分析而生

一、应用背景

随着各个业务系统的不断增加,以及各业务系统数据量不断激增,IT数据支撑方的工作变得越来越复杂。主要问题如下:

1、数据来自多个不同的系统,存在需要跨数据源分析,需要对接各种不同数据源等问题。

2、需要分析的数据体量越来越大,并且要快速获得分析结果的问题。

3、部分数据还需要二次加工处理的问题。

供数支撑方在业务系统的前端看起来基本没有任何操作,但背后的逻辑十分复杂,实现难度也很大。就像看得到的是冰山一角,看不到的是海水下绝大部分的支撑。

FineBI为了适应大数据时代,完善大数据解决方案,解决日益激增的大数据量分析诉求,为数据分析展示的最后一公里做好支撑。

自助式商业智能分析工具FineBI V5.0版本的Spider引擎应运而生。

二、Spider引擎介绍

为什么叫Spider引擎呢?

听起来很像爬虫软件,和数据分析又有什么关系呢?

一则是字面翻译过来的意思——蜘蛛,从蜘蛛就很容易联想到结网。从结网的角度的看,有两个含义,一是将之前已有的引擎功能全部联结在一起,因为5.0引擎实现了实时数据与抽取数据的对接与灵活切换;二是5.0数据引擎比较重要的分布式模式,这种模式是由各个组件组合起来的架构,结网就是将这些组件联结起来的意思。

二则是谐音法拉利的一款敞篷跑车。跑车嘛,速度快。这款跑车做了加长与加宽设计,使其更稳定,保持性能且更安全。恰好与我们的数据引擎理念不谋而合。

因此,就取名Spider引擎。

再来说说它的发展史。

FineBI的数据引擎从起初做数据抽取的cube/FineIndex引擎,发展到后来开发了直连引擎/FineDirect引擎。再到2016年开发,17年到18年迅速扩展到60多家客户使用的分布式引擎。引擎功能与支撑数据量都在伴随着时代的发展不断进步。然而引擎类别繁多,用户理解与使用都是问题。

因此,到v5.0版本,将引擎做了大一统,Spider引擎将之前所有引擎功能全部囊括其中,抽取数据与实时数据可互相切换,本地模式可根据数据量情况扩展为分布式模式,使用与理解上都更加简单了。

帆软FineBI大数据Spider引擎——为海量数据分析而生

帆软FineBI大数据Spider引擎——为海量数据分析而生

三、灵活的大数据解决方案

帆软FineBI大数据Spider引擎——为海量数据分析而生

很多企业本身就有高性能数据查询引擎,或业务的实时性要求特别高,那就可以使用Spider引擎直接对接数据库。

然而,很多时候,BI工具需要一个为灵活自助分析提供的敏捷型数据引擎。也就是需要将数据抽取到中间层中存储下来,以便计算不受数据库影响,并且快速得到分析结果。抽取数据的情况下,FineBI默认的应用与数据引擎可以是一台服务器,数据量在亿级以内的情况下,展示速度十分优秀。由于没有网络传输的限制,本地计算效果会优于分布式扩展后的分布式计算效果。在数据量激增之后,就需要扩展之后的Spider分布式引擎,在功能实现上,依旧是将数据抽取到敏捷型数据集市中做分布式存储,从而对接前端的分析查询,实现快速分析展示。

帆软FineBI大数据Spider引擎——为海量数据分析而生

帆软FineBI大数据Spider引擎——为海量数据分析而生

以上的数据抽取或实时从数据库获取的方式可灵活切换,既数据即可来自数据库,也可以来自中间存储引擎,且这两种方式又可以任意切换,前端分析展示不受影响,从而在BI分析的各种应用场景中更加灵活。

在实际使用中,抽取数据与实时对接通常是并存的,如下是一些常见应用架构:

帆软FineBI大数据Spider引擎——为海量数据分析而生

因此在整体实现上可以如下所示:

帆软FineBI大数据Spider引擎——为海量数据分析而生

四、大数据展示实施分解

FineBI的架构设计很容易将不同模块内容,分解界定到不同部分。(避免引起部门内矛盾)

将干系人团队分解出来三种类型,分别是IT信息/科技部门、中间技术人员/数据分析部门、业务部门,不同的部门对应不同事项内容与项目产出。

  • 大量级的数据处理与准备等,必然需要很强的技术实力。因此数据处理部分的工作全部交由IT部门来处理。IT信息科技部负责对接到数据分析部,为其提供需要的基本数据。
  • 数据分析部联结业务部门与IT信息科技部门,负责将业务常规所需(根据历史经验分析)的表添加到业务包中,覆盖大部分的业务常用分析,同时将其他业务相关的基础表也添加到业务包中以供使用。也会制作复杂分析模板挂出以供业务部门使用,同时常用复杂逻辑计算分析也做成demo形式提供给业务部门作为参考,以便复用。
  • 业务部门的人员根据提供的业务包以及示例和demo,自行做一些常用分析。

如下,是典型实施内容的分解:

帆软FineBI大数据Spider引擎——为海量数据分析而生

五、典型应用案例

1.汇总数据灵活分析

大型企业以客户维度的汇总数据,总数都在百万千万,甚至上亿级别。而细粒度维度灵活切换与组合的统计分析,则无法估量每一次分析的数据量。大量级数据即时维度组合与计算,就需要有强大计算能力的计算引擎。结合FineBI展示优势与分析能力, 引擎的计算性能优势得到发挥。

从而便于让企业以客户为中心,实现商业价值最大化,通过数据来回答最本质的商业问题。

  • 市场营销上能准确定位到目标客户,把控风险。
  • 客户经营上发现与探索客户需要什么,痛点是什么。
  • 风险管控上,能有效控制自己的风险。
  • 产品创新上,始终能够不断给到用户最新最优体验。

主要使用场景如下:

(1)用户画像

示例1:

在某个新项目的新系统推广到市场的情况下,会采取由内部推广到外部的方式。如下图所示,是项目推广前中阶段需要重点关注的信息。通过时间线,观察用户属性、性别、年龄、地域分布,从而调整营销策略。

帆软FineBI大数据Spider引擎——为海量数据分析而生

示例2:

某保险行业示例,通过企业内的核心业务数据、用户数据、日志数据,结合外部数据、网络爬虫数据,建立企业的大数据标签库、用户标签库等等。从而在整体上观察用户各维度情况,再到细粒度层级,查看细节信息。

帆软FineBI大数据Spider引擎——为海量数据分析而生

(2)风险控制

根据理赔风险预测、分产品费用结构、费用构成等指标实时管控风险,做到防患于未然。 根据内外部数据。

帆软FineBI大数据Spider引擎——为海量数据分析而生

(3)营收分析

不同时间周期范围内,不同分部、支部以及更细粒度的营收状况,以及营业状况的分析查询。数据容纳更广的时间周期,除了近期之内的,也包括几年之前的历史数据。历史的回溯分析,当前的状况把控与未来的展望,均能有效支撑。

帆软FineBI大数据Spider引擎——为海量数据分析而生

2.更细维度的分析查询

(1)保险行业的明细分析应用

在保险行业,有大数据量明细清单查询与分析场景,这种场景在稍大型保险企业,明细数据量动辄上亿。

保险行业常用传统展示分析工具如BO、SSAS、cognos、Microstrategy等,常规汇总分析数据与粗粒度维度汇总计算较为方便,固定的指标查看等都没有问题。但是到明细数据的展示分析与汇总时候,就存在各种性能瓶颈以及传统BI工具的约束,比如维度过多导致cube难以支撑; 无法在线查看实际明细数据,而下载导出的数据有数据量的限制;任意维度调整、查询条件改变都需要IT人员的修改;图表可视化效果一般等。

因此使用FineBI及其Spider引擎来做补足。从而实现:

  • 更多明细数据全维度展示分析:承保、批改、理赔、再报、收付、客服六大环节明细数据实现全维度分析。
  • 数据校验、核对:检验统计指标的计算正确性,支付金额的确认与核对,以及结算对账等。
  • 问题深入挖掘:从粗粒度统计报表维度结论追朔到明细清单层面,发现问题并处理。
  • 任务完成情况跟踪:未决清单情况的跟踪等。

(2)不断调整岗位的绩效考核应用

企业总会调整、增加一些岗位,对这些岗位的政策总是在不断调整。调整过程中对明细数据经过观察与统计计算,比如考勤机制、奖励政策、核心工作处理时长等都需要对每个明细情况做细节上的掌控,从而发现核心需要关注的指标。从而调整那个岗位的KPI制定。(这也是内部精益创业原则说明的,快速试错与调整,以及确定核心指标)

(3)质检品控需要

  • 各种需要基层业务人员录入数据的场景,比如保险员/用户系统录入一份份保单、银行业务员录入每一笔流水交易等,需要对录入清单质量、服务质量等做检查。需要细化到保单级数据中排查,从而将问题单下发到机构进行修改。
  • 制造业/生产业生产产品的场景下,某一批次的产品特别不符合标准要求,就需要对本批次汇总核心指标情况进行分析排查,从而细化到某个场次/流水线。

最后,喜欢我们文章的话赶紧来官网体验下吧 !

下载地址://www.finebi.com/?utm_source=media&utm_medium=csdn

原文地址:https://www.cnblogs.com/hzcya1995/p/13325838.html