大数据2020-2021技术盘点与趋势

IEEE(电气电子工程师学会)发布了一项调研报告《IEEE全球CIO、CTO访问调研:2021年的机遇和挑战,以及关键的科技趋势》,据该调研结果显示:人工智能与机器学习、5G与物联网技术,将会成为2021年最重要的科技。人工智能的应用分为三层,所涵盖的企业非常多。现在这种发展速度也导致国内人工智能人才出现供不应求的情况。

对应技术架构图有示意如下:

以人工智能、大数据、云计算、物联网为代表的智能化技术,正逐渐成为各行各业发展的新驱动力。值得强调的是,在企业组织中,越来越多机构对大数据的重要性越发受到重视。2021年年大数据技术相关趋势与关键点:

趋势一:数据融合与数据价值挖掘


  • 数据融合对于数据价值挖掘来说,具有重要的意义。数据融合的利用需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性、数据安全性。数据挖掘和AI分析需要面对海量处理能力、云边端协同、建模、人与数据融合、数据自身安全、隐私与商密保护等挑战,需要从基础理论与工程实践多方面研究数据要素价值挖掘的问题,开发出更多的大数据和AI分析技术。

趋势二:知识图谱与决策智能


  • 随着大数据的发展,企业和公共机构越来越需要将不同的数据进行有效链接,从而形成新的动态知识,以辅助企业和公共机构的决策。这就需要运用图数据库、图计算引擎知识图谱,而知识图谱是图数据库和图计算引擎的重要应用场景。根据DB-Engines排名分析,图数据库关注热度在2013年到2020年间增长了10倍,远远高于其它数据库或数据引擎。其中,用户画像信用档案则是知识图谱的新应用场景。
  • 目前,国内众多大型云厂商以及一些初创企业都在布局图数据库、图计算引擎和知识图谱,特别是知识图谱已经开始深入应用到金融、工业、能源等多个行业和领域,成为企业决策的重要技术平台与工具

趋势三:数据处理实现“自治与自我进化”


  • 随着云计算的发展、数据规模持续指数级增长,传统数据处理面临存储成本高、集群管理复杂、计算任务多样性等巨大挑战;面对海量暴增的数据规模以及复杂多元的处理场景,人工管理和系统调优捉襟见肘。因此,通过智能化方法实现数据管理系统的自动优化成为未来数据处理发展的必然选择。人工智能和机器学习手段逐渐被广泛应用于智能化的冷热数据分层、异常检测、智能建模、资源调动、参数调优、压测生成、索引推荐等领域,有效降低数据计算、处理、存储、运维的管理成本,实现数据管理系统的“自治与自我进化”。
  • 数据管理系统一直以来是企业IT架构的重要组成部分,随着物联网、云计算技术的深入发展和开源生态的不断完善,传统数据管理的局限性日益凸显,存储容量有限导致公司无法长时间存储和管理海量数据集,元数据来源广泛、种类繁多,具有多源、异构的特点,这使其在管理上面临数据汇聚、集成、存储和检索成本高的问题;另一方面计算资源匮乏,缺乏统一管理接口大数据处理环境所需的可伸缩、可拓展的灵活性和高效性。数据管理系统需要承担更加复杂的多租户、多任务下的执行工作,人工手动管理和运维再也无法有效应对海量多源异构的数据规模和丰富复杂的数据处理场景带来的问题和挑战。
  • 传统模式下,系统超载、资源消耗过剩不仅要影响到其他正常运行的系统作业,而且需要大量的人力资源进行系统排查和纠正,难以确保系统有效率的运行状态。因此通过智能化方式实现数据管理系统的升级优化将成为未来数据计算与处理的必然趋势。将系统技术与人工智能技术相结合,利用机器学习算法在数据仓库与数据库系统管理、资源调度、引擎优化、压测生成等各个方面进行数据系统的自我管理人工智能将充分嵌入到数据处理的整个生命周期,帮助提高数据查询的效率,提升整体资源调度的优化性。
  • 同时,系统技术也将更多地辅助人工智能的深度发展,在大规模多样化数据集上进行高效的数据挖掘和机器学习优化分析的模型选择、元参数搜索、自动化的元数据学习、非结构化数据与结构化数据融合处理等工作,从而帮助系统变得更加智能、安全和可靠。

趋势四:数据中台成未来发展热点


  • 2020年,纳斯达克涨幅较大的企业,多集中在谷歌、Facebook、苹果等5大数字化企业,其他企业基本没有变化。可见,在今天所有巨大的不确定中,只有数字化是确定的。而利用好大数据技术,掌握以数据为驱动的理念,则成为企业走上数字化道路的必然选择,因为高效的商业模式必将取代低效的商业模式。
  • 企业想要通过数字化运营制定出更好的竞争与运营策略,帮助其在激烈的竞争中取得优势,并在此过程中为企业创造出真正的价值。数据中台则能够帮助企业提升运营模式和实现数据驱动IT构架,即时洞察经营过程,快速反应市场变化,实现精准营销,快速推出适应市场需求的产品,从而实现数字化顺利且快速的转型。

趋势五:云原生重塑IT技术体系


  • 在传统开发环境里,漫长的产品开发、测试和上线周期,不稳定的产品研发效能是企业IT领导者和开发人士面临的核心问题和挑战,同时在应用程序的部署过程中,软、硬件环境等基础设施的技术复杂性很大程度束缚开发人员对于业务实现的生产力,受制于数据库、数据中心、操作系统等传统架构的局限性,制定的业务解决方案需要不断妥协与折中,效能也可能大打折扣。
  • 以容器、k8s、ServiceMesh、Severless为代表的云原生技术将充分沿用云计算的设计理念,全面利用分布式、可拓展、灵活性的云计算架构,达到毫秒级别的极致弹性能力,从而应对业务突发场景;同时基于云原生平台系统高度自动化的资源编排调度机制,实现应用的可拓展和易维护通过微服务助力应用敏捷开发,进而大幅降低业务的试错成本,提升业务应用的部署和迭代速度。另一方面,云原生网络、服务器、操作系统、业务流程等基础架构层高度抽象化,更高效地应用和管理异构硬件和异构环境下的各类云计算资源,向上支撑多种负载,包括大数据计算、区块链、人工智能等创新性的服务,高效解决部署一致性问题,并极大地降低云服务的使用门槛,让开发者只需关注业务逻辑本身并最大程度回归到应用程序的开发环节,专注于用户服务和商业价值的创造过程,从而帮助企业实现快速创新。
  • 云原生将重塑IT技术的全链路体系,在开发、测试、上线、运维、监控和升级等环节中形成新的技术标准,通过技术生态推动整个云计算的标准化,使大规模、可复制的跨区域、跨平台和跨集群的部署能力成为可能,将更多敏捷、分布式、可扩展的技术红利带给企业和开发者。

趋势六:大数据推动健康革命


  • 新冠肺炎的流行作为导火索,需要更多的技术手段来解决健康这一课题。一场由大数据推动的健康革命即将到来,在新的一年里,我们将看到它开始发挥更多实际价值。由此,大数据逐渐成为解决健康相关问题的切实方法,人们欣喜的看到这些努力正在变成积极的成果。
  • 最近,Google的深度学习项目Deepmind的重大技术飞跃,预计它将对医疗健康行业进行彻底变革。通过Deepminnd的AlphaFold项目,它能够解决生物学的最大挑战:它成功地从蛋白质氨基酸序列中,确定了蛋白质的三维形状,解决了一个50余年的生物学难题,比科学家预想的解决方案提早了几十年,而且超过了其它一百多个研发小组。
  • 此项突破意味着医学的突破性进展,可能会给药物制造带来突破性解决方案,包括对人类疾病比如癌症、痴呆、传染病等。

趋势七:增强数据分析已经成为主流


  • 数字化与增强数据分析的趋势越发明显,一个主流挑战是大数据市场正在不断增长,数据集合变得如此之大,处理和解释它是现在的一项重大挑战。
  • 增强分析通过使用机器学习与人工智能技术,对数据进行自动化准备、清洗、共享以及分析数据,并解决问题。做过数据分析的开发者应该知道,这本质是将海量数据转换拆分为小颗粒度并可分析的数据集合。
  • 增强分析在2021年正式成为主流技术趋势,到2025年,增强数据分析市场的复合年增长率将会达31.2%。Gartner数据表示,在2021年,增强分析将成为商业智能(BI)的主流驱动力量。

趋势八:增加对图表的关注


  • 据Gartner表示,知识图谱作为五大新兴技术趋势之一,它可以弥合人与机器之间的鸿沟。根据Dataversity对知识图谱定义,即帮助捕获很多不同概念的数据资产;协调捕获数据并标准化数据分类;通过统一捕获数据来显示关系。
  • 随着数据集的不断扩大,数据也变得越来越难以分析和理解,知识图谱因此显示出其价值所在。知识图谱是将对象、概念和事件彼此关联描述的集合,这些描述通过链接和语义元数据方法,为创建数据提供更良好的上下文体系,这样可以更方便的分析、集成、共享和统一数据。在资源描述框架中,知识图谱提供了一个框架,可以方便地表示各种类型的数据,并具有互操作性和标准化。

趋势九:数据安全热度持续上升


  • 大数据、数字经济要通过相应的法律制度以及相关措施来保障健康发展。

  • 一是改变计算方式,边计算边保护; 

  • 二是构建免疫系统,改变安全体系结构; 

  • 三是网络系统安全要构建“安全办公室”“警卫室”“安全快递”这“三重”防护框架; 

  • 四是对人的操作访问策略四要素(主体、客体、操作、环境)进行动态可信度量、识别和控制; 

  • 五是对“风险分析、准确定级”“评审备案、规范建设”“感知预警、应急反制”“严格测评、整顿完善”等环节进行全程管控,技管并重; 

  • 六是达到非授权者重要信息拿不到、系统和信息改不了、攻击行为赖不掉、攻击者进不去、窃取保密信息看不懂、系统工作瘫不成等“六不”防护效果。

趋势十:数据控制备受关注


  • 现在企业生成、存储和移动的数据比以往任何时候都要多。AI和ML等相关技术需要大量数据进行分析和关联,以开发业务和IT智能。但是,企业必须谨慎管理这些不断增长的海量数据,以限制容量,确保及时性、防止更改或删除,以及最大程度地减少跨网络的移动。专家预计,到2022年70%的数据将源自数据中心外,这是艰巨的挑战。这里的问题不在于数据量,真正的问题在于数据管理、数据保护(需要遵循业务和法规要求)以及数据移动,从数据源到应用程序,可处理数据以为业务获得有意义的结果。 

  • 目前有两种主要方法可以解决数据管理问题。第一,企业必须投资于更大更快的网络连接,以便根据需要在主数据中心之间来回移动远程数据。第二,IT团队应部署数据精简工作流,并在边缘执行更多的数据分析和处理,并且仅将经过预处理或分析的数据集返回给主数据中心。

 

Gartner公司对2020年的预测结果仍将在2021年出现:

1.增强分析


  •  增强分析功能通过人工智能和机器学习工具及框架扩展了商业智能(BI)工具包。这是从传统的商业智能(BI)中产生的,自助式商业智能(BI)为业务用户提供基于视觉的分析。增强分析是自助式商业智能(BI)的下一个步骤。它将机器学习和人工智能元素集成到组织的数据准备、分析和商业智能(BI)流程中,以提高数据管理性能。
  • 增强分析可以减少与数据准备和清理有关的时间,并且无需数据科学家的帮助就可以为商业人士提供见解。

2.持续智能 


  • 持续智能是实时分析集成到当前业务运营中的过程。根据Gartner公司的预测,到2022年,超过一半的主要业务系统将基于实时分析做出业务决策。通过将实时分析集成到业务运营中,并处理当前和历史数据,持续智能有助于在新数据到达时增强人为决策。
  • 许多组织仍然只依靠历史数据或过时的数据。这样的组织可能会在快速变化的环境中落后。因此,组织应该不断且即时地了解其数据。这些数据将提高问题的识别和解决以及做出重要决策的速度。

3.数据操作


  • DataOps在发展方向上类似于DevOps的实践,但针对不同的流程。与DevOps不同,它通过跨组织的协作实践来实现数据集成和数据质量。DataOps专注于减少数据的端到端循环,从数据摄取、准备和分析开始,到创建图表、报告和见解结束
  • DataOps为不熟悉数据流的员工处理数据提供帮助。这使得他们可以更多地关注领域专业知识,而不是关注数据如何在组织中运行。
  • 3.1无服务器的兴起
    • 随着云计算解决方案在市场上的广泛应用,新的趋势和实践不断出现。DataOps实践旨在简化和加速数据流。这就是为什么DataOps工具包包含所谓的“无服务器”实践的原因。这种实施允许组织通过在基于云计算的基础设施中管理数据管道来减少硬件数量,轻松快速地进行扩展,并加快数据流更改。
  • 3.2更进一步:DataOps即服务
    • 实现数据的集成、可靠性和交付需要大量的精力和技能。数据工程师、数据科学家和DevOps工程师需要耗费时间来实施所有DataOps实践。市场上不断推出新产品,而这些产品能够利用组织的数据实施这些实践。这些产品提供了多种可组合和可扩展的DataOps实践,允许基于组织的数据开发复杂的数据流,还为组织的数据科学部门提供了API。

4.内存中的计算


  • 内存中计算是加快分析速度的另一种方法。除了实时数据处理外,它还消除了缓慢的数据访问,并将所有处理流完全基于存储在内存中的数据。这使得数据的处理和查询速度比任何其他解决方案要快100倍以上,这有助于组织制定决策并立即采取行动。

5.边缘计算


  • 边缘计算是一种分布式计算框架,可以在数据源附近进行计算。随着传输到云计算分析解决方案的数据量的增加,原始数据的延迟和可扩展性以及处理速度等问题也随之出现。边缘计算方法允许减少数据生产者和数据处理层之间的延迟,并通过将数据处理管道的部分移近原点(传感器、物联网设备)来减少对云平台的压力。
  • Gartner公司估计,到2025年,将有75%的数据将在传统数据中心或云平台之外进行处理。

6.数据治理


  • 数据治理是确保组织内信息有效使用的实践和流程的集合。安全数据泄露法规和GDPR法规的引入迫使组织更加关注数据。像首席数据官(CDO)和首席保护官(CPO)这样的新角色已经开始出现,他们负责根据法规和安全策略管理数据。数据治理不仅涉及安全和法规,还涉及组织使用的数据的可用性、有效性和完整性。
  • 数据量的快速增长以及法规和合规性要求的不断提高是全球数据治理市场大规模增长的原因。

7.数据虚拟化


  • 数据虚拟化集成了不同系统的所有组织数据,管理统一的数据以实现集中的安全和治理,并将其实时提供给业务用户。 
  • 当使用不同的数据源时,例如来自数据仓库、云存储或安全SQL数据库的数据,就需要组合或分析来自这些不同数据源的数据,以便基于分析做出见解或业务决策。这与ETL方法不同,ETL方法主要从其他源复制数据。数据虚拟化直接寻址数据源并对其进行分析,而无需在数据仓库中复制数据源。这节省了数据处理存储空间和时间。

8.Spark 将超越Hadoop


  • 市场需求总是不断变化,工具也是如此。在现代数据处理中,越来越多的工程趋势受到大数据基础设施的影响。值得关注的软件趋势之一是向云平台迁移。因此,人们看到数据处理从内部部署数据中心转移到提供数据接收、分析和存储等服务的云平台。
  • 有了这样的转变,并不是所有的工具都能跟上市场发展步伐。例如,大多数Hadoop提供商仍然只支持数据中心基础设施,而Spark这样的框架在数据中心和云平台中都感觉非常舒适。Spark正在不断发展和快速进步,以满足市场需求,为组织提供了采用混合云或多云的更多选择。

小结


  •  近年来的一些发展趋势(例如增强分析、内存中计算、数据虚拟化和大数据处理框架)仍然具有现实意义,并将对组织的业务发展产生重大影响。例如,内存中计算的速度是其他任何解决方案速度的100多倍。这有助于组织立即做出决策和采取行动。至于有助于节省数据处理存储空间和时间的数据虚拟化,到2022年,将近三分之二的组织将采用这种方法。
  • 新的趋势也在出现。像持续智能、边缘计算和数据操作这样的强大工具可以帮助改进业务并使事情更快地发生。例如,持续智能同时考虑了历史数据和实时数据。这会显著影响组织的决策方式以及决策的效率和速度。到2022年,50%以上的主要业务系统将基于实时分析环境做出业务决策。边缘计算等方法允许在传统数据中心或云平台之外处理数据。据估计,到2025年,组织75%的生成数据将在边缘进行处理。DataOps工具包中的无服务器实践已经使组织减少硬件数量,并方便快捷地进行扩展。将近50%的组织已经或计划在不久的将来使用无服务器架构。

盘点 |2020大数据十大关键词与趋势


2020大数据产业峰会·成果发布会于线上召开。会上,中国信通院云大所所长何宝宏发布了《2020大数据十大关键词》

关键词一:数据生产要素

  • 2020年4月,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》正式发布。由于数据是新型生产要素,具有无限复制、通用性强、流动性高、难确权等特点,传统的资源管理模式无法完全适配,数据要素市场的培育,需要新的制度来提供适宜的土壤,需要在法规、机制、技术等方面大胆创新。

关键词二:数据治理

  • 数据治理的目标是释放数据价值,其核心议题是保障数据安全,推动数据有序管理和流动,提升数据质量。近期国家各部门密集出台多项数据治理相关政策法规,数据治理重要性日益凸显。数据治理通过定义数据质量需求、定义数据质量测量指标、定义数据质量业务规则等环节,为深度学习等人工智能技术提供可信的数据输入。另一方面,人工智能技术的引入提升了数据治理工作的效率,在识别主数据、数据自动分析分级、维护元数据、提升数据质量、辅助数据建模等方面都有重要作用。

关键词三:隐私计算

  • 隐私计算主要分为多方安全计算和可信硬件两大流派,近期多方安全计算技术广受产业关注,多家企业推出了相关产品。根据信通院测试统计,截至2020上半年,一共有15款多方安全计算产品通过评测,产品化速度明显加快。

关键词四:一体化大数据平台

  • 大数据技术经过10多年的发展,发展出丰富的技术栈,超过100多款开源技术,覆盖查询引擎、计算引擎、存储引擎、数据集成、数据管理等多个方向,每一方向都有多种同类技术可供选择,给企业的集成使用带来了很大挑战。例如Cloudera的CDP、阿里巴巴的MaxComupte、星环的TDH、华为的FusionInsight,都是一体化大数据平台的典型代表。

关键词五:DataOps

  • DataOps(数据运营)概念借鉴于DevOps,已经连续两年入选Gartner数据管理的Hype Cycle,DataOps注重数据工程师、数据分析师、数据科学家、业务人员之间的协同,强调利用工具来实现数据生产的自动化,并建立监测和反馈机制,持续改进数据生产流程,最终形成应用的闭环。

关键词六:数据与分析能力的平民化

  • 数据与分析能力的平民化试图为企业的每一个小细胞提供分析决策支持,加快企业整体的创新和决策能力。这就要求企业建设积极的数据文化,搭建简单易用的数据服务和分析工具,容许业务人员发展数据技能并与他人共享成果。其核心能力包括形成按需可得的数据集,简单易操作的分析工具,以及建立完备的数据管控机制

关键词七:计算与存储分离

  • 存算分离正在成为大数据与云数据库架构变化的趋势。传统的存算一体模式下,数据可以“就地计算”,减少了网络开销,但在能力扩充方面需要同时进行,从而产生了资源浪费。在存算分离架构下,存储层和计算层可以根据需求分别进行扩展,解决了混合计算存储带来资源浪费问题,也可以更好的与云平台融合,适应云计算的发展趋势。

关键词八:分布式数据库

  • 进入2020年,国内数据库市场竞争加剧,更多厂商涌入赛道。在这之中,分布式数据库成为诸多厂商布局的热点。据统计,国内目前有30多款分布式事务数据库产品,其中大多数产品都是基于开源技术进行二次开发。云数据库厂商、创业企业和传统数据库企业三大势力,聚焦金融、电信、政府等行业,提供公有云和私有交付两种模式。

关键词九:图数据库

  • 2019年以来,国内图数据库产品研发速度迅速加快,两年内推出的图数据库与图计算相关产品超过了15款。特别是2020年以来,大型互联网企业(阿里云、腾讯云)纷纷推出图数据库和图计算的服务。图数据库赛道也诞生了诸多创业公司,并成为投融资热点。知识图谱、金融风控、公共安全等一些场景已经有了落地案例。

关键词十:大数据服务体系

  • 主流的大数据产品厂商非常重视服务生态的构建,纷纷联合外围服务企业,围绕自身的产品形成咨询、实施、治理、应用等服务体系。然而,企业的大数据服务能力高低不一,存在流程不规范,人员实施经验不足,项目管理混乱等问题,导致不少大数据项目以失败告终。信通院在中国通信标准协会TC601联合阿里、星环、数梦、百度、华为、数澜等30多家企业制定了大数据服务能力成熟度模型系列标准。该标准体系将大数据服务分为平台建设、数据工程、分析应用三类,总共形成63个子能力域,从技术、人员、流程等维度评价企业的服务能力。目前该标准已经定稿,马上进入评估阶段。 

参考资料


 

原文地址:https://www.cnblogs.com/tgzhu/p/14393120.html