工业互联网平台核心技术系列

工业互联网平台核心技术之一：数据集成与边缘处理技术：https://blog.csdn.net/iot_research/article/details/82662797

工业互联网平台核心技术之二：虚拟化技术 https://blog.csdn.net/iot_research/article/details/82721127

工业互联网平台核心技术之三：并行计算与分布式计算 https://blog.csdn.net/iot_research/article/details/82832025

工业互联网平台核心技术之四：一文读懂云计算 https://blog.csdn.net/iot_research/article/details/83044463

工业互联网平台核心技术之五：多租户技术 https://blog.csdn.net/iot_research/article/details/83478970

工业互联网平台核心技术之六：安全技术 https://blog.csdn.net/iot_research/article/details/83717865

工业互联网平台核心技术之七：运维技术-无监控，不运维 https://blog.csdn.net/iot_research/article/details/84203182

工业互联网平台核心技术之一：数据集成与边缘处理技术

工业互联网平台是面向制造业数字化、网络化、智能化需求，构建基于海量数据采集、汇聚、分析的服务体系，支撑制造资源泛在连接、弹性供给、高效配置的工业云平台。其本质是通过构建精准、实时、高效的数据采集互联体系，建立面向工业大数据存储、集成、访问、分析、管理的开发环境，实现工业技术、经验、知识的模型化、标准化、软件化、复用化，不断优化研发设计、生产制造、运营管理等资源配置效率，形成资源富集、多方参与、合作共赢、协同演进的制造业新生态。

工业互联网平台需要解决多类工业设备接入、多源工业数据集成、海量数据管理与处理、工业数据建模分析、工业应用创新与集成、工业知识积累迭代实现等一系列问题，涉及七大类关键技术，分别为数据集成和边缘处理技术、IaaS 技术、平台使能技术、数据管理技术、应用开发和微服务技术、工业数据建模与分析技术、安全技术。

工业互联网平台按层级分第一层是边缘，此层是通过大范围、深层次的数据采集，以及异构数据的协议转换与边缘处理，构建工业互联网平台的数据基础。一是通过各类通信手段接入不同设备、系统和产品，采集海量数据；二是依托协议转换技术实现多源异构数据的归一化和边缘集成；三是利用边缘计算设备实现底层数据的汇聚处理，并实现数据向云端平台的集成。

边缘计算已在《小白聊智慧制造之十四：一文轻松读懂边缘计算》详述，本篇不再涉及，主要谈谈数据集成。

一、设备接入方式

我们经常看到通过物联网实现设备联网。但设备究竟是如何联网的却语焉不详。今天我们来探讨下设备究竟是如何联网的。

设备接入是基于工业以太网、工业总线等工业通讯协议，以太网、光纤等通用协议，3G/4G/5G、NB-IOT等无线协议将工业现场设备接入到平台的边缘层。

设备联网有两种方式：

第一种方式：直接接入

直接接入网络需要满足一个要求，即设备本身具备联网的能力或者在设备端加入2G、3G、NB-IOT等通讯模组。具备通讯功能的设备，可以直接接入网络。

第二种方式：网关接入

设备或终端本身不具有联网能力，这就需要再本地组网后，再统一通过网关再接入网络。如终端通过ZigbeeLORA等无线组网，然后设备再通过网关统一接入到网络上。常用到的本地无线组网技术有ZigbeeloraBleMeoHsub-1GHZ等等。

二、网关

1、什么是网关

网关既然如此厉害，那么什么是网关呢？网关(Gateway)又称网间连接器、协议转换器。网关在网络层以上实现网络互连，是最复杂的网络互连设备，仅用于两个高层协议不同的网络互连。网关既可以用于广域网互连，也可以用于局域网互连。网关是一种充当转换重任的计算机系统或设备。使用在不同的通信协议、数据格式或语言，甚至体系结构完全不同的两种系统之间，网关是一个翻译器。与网桥只是简单地传达信息不同，网关对收到的信息要重新打包，以适应目的系统的需求。

2、网关的功能

简单地来说，网关就是一个处于本地局域网与外部接入网络之间的智能设备。网关的主要功能是网络隔离、协议转换和适配、数据内外传输，还有一项功能在工业互联网平台中很重要，就是边缘计算，它占据了50%左右的计算。而边缘计算大部分是通过网关或网关服务器来完成的。具体来说，网关主要功能包括：

广泛的接入能力
网络隔离
协议转换能力
边缘计算
3、网关工作过程（以例说明）

以ZigBee为例来探讨下网关。ZigBee 因其低成本、低功耗、组网灵活等众多优势，成为工业无线通信技术中备受关注的技术之一。ZigBee 是一种低速网络，传输速度为10KB/S～250KB/S，多样的互联方式使得组网方式灵活而稳健。采用ZigBee 协议，应用于工业现场短距离的无线控制、监测、数据传输等的以太网协议转换，实现远程监控、远程数据交互等。

可通过ZigBee 以太网网关直接访问或修改仪表数据，实现现场仪表的远程监控、远程诊断等当网关接入GPRS 或因特网后，无论你身处何地都可随时访问工业现场仪表数据，实现现场仪表的远程组态、远程诊断以及远程操作等功能，使世界范围内的不同传感监测网络可以信息共享。

一个典型的网关架构图：

当网关接收到一个正常发往本地IP 的以太网数据包后，经过协议判断送往上层UDP（TCP）处理，最后到网关的应用程序处理网关应用程序经过分析判断，确定需要转发给ZigBee 网络中的哪个节点，经过ZigBee 端的ARP 地址解析出对应的ZigBee 中的节点MAC地址，将相应的数据包送至该节点，完成一次数据通讯。同理，当ZigBee 端收到数据包后，通过同样的解析将数据包送至对应节点或设备实现ZigBee 节点的实时访问、修改、组态等。

三、数据传输方式

物联网的传输层主要负责传递和处理感知层获取的信息，分为有线传输和无线传输两大类，其中无线传输是物联网的主要应用。无线传输技术按传输距离可划分为两类：一类是以Zigbee、WiFi、蓝牙等为代表的短距离传输技术，即局域网通信技术；另一类则是LPWAN（low-power Wide-Area Network，低功耗广域网），即广域网通信技术。LPWAN又可分为两类：一类是工作于未授权频谱的LoRa、Sigfox等技术；另一类是工作于授权频谱下，3GPP支持的2/3/4/5G蜂窝通信技术，比如eMTC（enhanced machine type of communication ，增强机器类通信）、NB-IoT（ Narrow Band Internet of Things ，窄带物联网）。

局域网传输设备，应用于本地的连接技术，主要有BLE、Zigbee、Z-ware、NFC、Wifi/蓝牙等。

广域网传输设备，应用于广域和远程数据的连接技术，主要有3G/4G/5G、Ethernet、LTE、eMTC、NB-IOT等。

根据传输速率的不同，物联网业务可分为高速率、中速率及低速率业务。其中，高速率业务主要使用3G、4G 及WiFi技术，可应用于视频监控、车载导航等场景；中速率业务主要使用蓝牙、eMTC等技术，可应用于智能家居、储物柜等高频使用场景；低速率业务，即LPWAN(低功耗广域网)，主要使用NB-IoT、LoRa、Sigfox及ZigBee等技术，可能应用于智慧停车、远程抄表等使用频次低的应用场景。

根据麦肯锡咨询所调研的数据来看，全球物联网市场有大约60%以上都属于低速率业务，这类应用需要具有支持海量连接数、低终端成本、低终端功耗和超强覆盖等能力。由于自身的发展以及成本等问题，各个企业都在向低成本、低功耗等方向发展。而在低速率领域，中国电信企业如中国移动、中国电信等都主要以发展NB-IoT（窄带物联网）为主，而LoRa在中国电信类企业之外也是发展的重点。

四、数据解析方式

传感器和设备信息需要通过各种不同的协议实现数据接入的。协议转换分为两个方面。一方面运用协议解析、中间件等技术兼容ModBus、OPC、CAN、Profibus等各类工业通信协议和软件通讯接口，实现数字格式转换和统一。另一方面利用HTTP、MQTT等方式从边缘层将采集的数据传输到云端，实现数据的远程接入。

在转换协议中，主要有协议即用于短距离设备连接的本地协议 Modbus 以及支持物联网进行远程全局通信的可扩展互联网协议“消息队列遥测传输 (MQTT)”

ModBus

ModBus首次出现于 1979 年，是连接行业设备实际使用的标准协议。是一种纯粹的“软”协议，不依赖于任何通讯介质和通讯设备。ModBus 的核心是一个串行通信协议，采用主从模式，借助 RS-485，主从机之间的通信发生在指示功能码的帧中。该功能码可识别要操作的功能，如读取独立输入；读取先进先出队列；或执行诊断函数。然后，从机根据收到的功能码进行响应，该响应较为简单，由一组字节指示。因此，从机可以是智能设备，也可以是只有一个传感器的简单设备。

MQTT

MQTT 是一个开放的轻量级机器对机器协议，专为物联网交互设计。 MQTT 网络包含一个 MQTT 经纪人 (broker)，负责协调 MQTT 代理之间的交互。代理是发布器，负责发布供用户使用的信息。MQTT支持传感器、设备和云之间安全交互。

使用 Modbus 作为本地接口来管理设备，使用 MQTT 作为全局协议来扩展设备的范围，MQTT 和 Modbus 互相补充，实现IOT的互联互通。

五、数据接入架构

上图为数据接入架构图。设备或传感器的信息通过ModBus等协议将数据传输到网关，又通过MQTT等协议将数据传输到云平台，在云平台上进行数据解析与存储，再通过云计算成为管理和决策的重要依据。

结语

工业互联网平台，数据连接是第一步，是基础。基于海量工业数据的全面感知，通过端到端的数据深度集成构成网络的边缘层，再通过建模分析，实现智能化的决策与控制指令，形成智能化生产、网络化协同、个性化定制、服务化延伸等新型制造模式。
————————————————
版权声明：本文为CSDN博主「物联研究」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/iot_research/article/details/82662797

工业互联网平台核心技术之二：虚拟化技术

IaaS技术是一系列技术而非一种技术。在工业互联网IaaS层，是基于虚拟化、分布式存储、并行计算、负载调度等技术，实现网络、计算、存储等计算机资源的池化管理。根据需求进行弹性分配，并确保资源使用的安全与隔离，为用户提供完善的云基础设施服务。其中虚拟化技术是IaaS的关键技术。

实际上，我们通常所说的虚拟化是指服务器虚拟化技术。而除此之外，还有网络虚拟化和存储虚拟化技术等等。其中网络虚拟化应用于企业核心和边缘路由，利用交换机中的虚拟路由特性，用户可以将企业划分为使用不同规则和控制的多个子网，而不必再为此购买和安装新的机架或设备。与传统技术相比，它具有更少的运营费用和更低的复杂性。存储虚拟化则是将企业中的存储资源整合在一起，通过一台逻辑存储设备供用户访问。

一、虚拟化技术概念

虚拟化技术，通常是指计算元件在虚拟的基础上而不是真实的基础上运行。可以同时运行多个操作系统，而且每一个操作系统中都有多个程序运行，每一个操作系统都运行在一个虚拟的CPU或者是虚拟主机上；可以在相互独立的空间内运行而互不影响，从而显著提高计算机的工作效率。

二、虚拟化技术的分类

1959年，克里斯托弗（Christopher Strachey）发表了一篇学术报告，名为"大型高速计算机中的时间共享"（Time Sharing in Large Fast Computers），他在文中提出了虚拟化的基本概念，这篇文章也被认为是虚拟化技术的最早论述。

随着虚拟化技术的逐渐成熟，不断有新的厂商加入企业虚拟化市场的竞争之中，其中比较有代表性有VMware、Microsoft等。其中VMware一枝独秀，成为虚拟化技术最重要的厂商。

虚拟化技术经过数年的发展，已经成为一个庞大的技术家族，其技术形式种类繁多，实现的应用也有一个体系。但对其分类，一般的介绍比较含糊，分类属性不一。如将服务器虚拟化、硬件虚拟化、CPU虚拟化相提并论，但其实它们都属一个类别，只是按不同属性分类得出的不同名称。下面按照不同属性，对虚拟化做一个分类。

以应用的领域来划分：服务器虚拟化、存储虚拟化、应用虚拟化、平台虚拟化、桌面虚拟化。

以实现层次来划分：硬件虚拟化、操作系统虚拟化、应用程序虚拟化

1、基于硬件的虚拟化

硬件虚拟化就是用软件来虚拟一台标准计算机的硬件配置，如CPU、内存、硬盘、声卡、显卡、光驱等，成为一台虚拟的裸机，然后就可以在上面安装操作系统了。使用时，先在操作系统里安装一个硬件虚拟化软件，用其虚拟出一台计算机，再安装系统，做到系统里运行系统，并可虚拟出多台计算机，安装多个相同或不同的系统。

2、基于操作系统的虚拟化

操作系统虚拟化就是以一个系统为母体，克隆出多个系统。它比硬件虚拟化要灵活方便，因为只需在系统里装一个虚拟化软件，就能以原系统为样本很快克隆出系统，克隆出的系统与原系统除一些ID标识外，其余都一样。

看似与硬件虚拟化一样，都是虚拟多个操作系统出来，但与硬件虚拟化还是有很多不同之处。

（1）操作系统虚拟化是以原系统为样本，虚拟出一个近乎一模一样的系统；硬件虚拟化是虚拟硬件环境，然后真实地安装系统。它们虚拟的东西不一样。

（2）操作系统虚拟化虚拟的系统都只能为同样的系统；硬件虚拟化虚拟的系统可以为不同的系统，如Linux、Mac、Windows家族。

（3）操作系统虚拟化虚拟的多个系统有较强的联系，体现在：①可以为多个虚拟系统同时进行配置，更改了原系统就改了所有；②如果原系统损坏，会殃及所有虚拟系统。硬件虚拟化虚拟的多个系统是相互独立的，与原系统也无联系，原系统的损坏不会殃及虚拟的系统。

（4）操作系统虚拟化的性能损耗低，它们都是虚拟的系统，而非硬件虚拟化那样真实安装的实体，没有硬件虚拟化的虚拟硬件层，也大大降低了性能损耗。

3、基于应用程序的虚拟化

应用虚拟化技术的兴起最早也是从企业市场而来。一个软件被打包后，通过局域网很方便地分发到企业的几千台计算机上去，不用安装，直接使用，大大降低了企业的IT成本。

应用虚拟化的目的也是虚拟操作系统，但只是为保证应用程序的正常运行虚拟系统的某些关键部分，如注册表、C盘环境等，所以较为轻量、小巧。使用方法大体为：先安装虚拟化软件，此时已经搭建了一个虚拟化环境，然后接收来自网络的应用软件或安装应用软件到虚拟化环境里，最后使用应用软件。

三、虚拟化技术的四大特性

四、云计算时代的虚拟化
云计算的浪潮正席卷而来。通过提供灵活、自助服务式的IT基础架构，云计算促使信息处理方式发生了革命性的转变。在这场变革中，虚拟化技术发挥了决定性作用。它所带来的独立性、高度整合性和移动性，改变了当前的IT基础架构、流程以及成本。通过消除长期存在于应用层与物理主机之间的障碍，虚拟化使部署更为轻松便捷，工作负载的移动性显著增强。

虚拟化技术内容浩繁，对于非专业人士只需要了解整体的认知便可以了。虚拟化技术的云计算表面上看起来和一般的网站一样，但与一般的信息类网站不一样的是，用户需要获得的不是信息，而是计算和存储能力。

1、改变部署和应用

由于虚拟化技术能够节省投资、提高闲置计算资源的利用效率，同时其需要CIO对企业的IT基础设施进行重新规划、部署和管理，因此，虚拟化正在最大程度地改变企业IT基础设施的部署及运营。越来越多的企业，甚至是小企业，也开始尝试上云，而非自己布署。

2、向服务转型

云计算能给企业带来两大价值：一是企业可以获得应用所需的足够多的计算能力，而且无须对支持这一计算能力的IT基础设施付出相应的原始投资成本，现在很多企业往往都无法负担高额的基础设施投资成本；二是在需要时像购买服务一样购买这种计算能力，按照流量付费即可，用户不用担心计算设备与资源的日常维护开销和闲置成本。云计算改变了企业对计算资源的采购和使用方式，改变了对IT应用建设的模式。

五、两种服务器虚拟化架构

服务器虚拟化技术是指能够在一台物理服务器上运行多台虚拟服务器的技术，而且上述虚拟服务器在用户、应用软件甚至操作系统看来，几乎与物理服务器没有区别。除此之外，服务器虚拟化技术还应该确保上述多台虚拟服务器的数据是隔离的，虚拟服务器对资源的占用是可控的。

服务器虚拟化的两种构架

1、寄生架构（Hosted Architecture）

在操作系统之上安装和运行虚拟化程序，依赖主机操作系统对设备的支持和物理资源管理。

2、裸金属架构(Bare Metal Architecture)

直接在硬件之上安装虚拟化软件，再在其上安装操作系统和应用，依赖虚拟层内核和服务器控制台进行管理。

3、两种架构的对比图

寄居架构

裸金属架构

优点

简单，便于实现

不依赖主机操作系统，可以支持多种基于x86架构的操作系统，多种应用，更加灵活

缺点

安装和运行应用程序依赖于主机操作系统对设备的支持

虚拟层内核开发难度大

案例

GSX Server、VMware Server、Workstation

VMware ESX Server

六、虚拟化云计算管理平台架构

虚拟化技术主要是实现了对底层物理资源的抽象，使其成为一个个可以被灵活生成、调度、管理的基础资源单位。

1、资源管理平台

资源管理平台负责对物理设备和虚拟化资进行统一的管理和调度，形成统一的资源池，实现IaaS服务的可管、可控，其核心是实现对每个资源单位的生命周期管理能力和对资源管理调度能力。

对资源的生命周期管理，就是对资源的生成、分配、扩展、迁移、回收的全流程管理，关键基础包括虚拟机自动化部署、虚拟机弹性能力提供、资源状态监控、度量和资源的回收等。资源的管理调度能力则是指对资源的全局性管理与调度，包括模板管理、接口管理、调度策略管理、资源使用量的采集和度量等。

2、业务管理平台

业务管理平台的职责是将资源封装成各种服务，以方便易用的方式对外提供给用户，实现IaaS的运营。其中业务服务管理主要是将底层资源进行组合和打包，形成供最终用户购买的业务和服务。业务流程管理用于实现对用户注册、认证、服务开通以及使用、计费、结算等流程的配置与管理；计费管理根据资源监控与度量采集的历史数据统计用户对资源的使用量，并根据计费策略生成计费账单；用户管理主要负责用户的身份认证，业务订购关系管理等工作。

七、结语

纵观虚拟化技术的发展历史，可以看到它始终如一的目标就是实现对IT资源的充分利用。虚拟化技术是一种调配计算资源的方法，它将应用系统的不同层面的硬件、软件、数据、网络存储等一一隔离起来，从而打破数据中心、服务器、存储、网络数据和应用的物理设备之间的划分，实现架构动态化，并达到集中管理和动态使用物理资源及虚拟资源，以提高系统结构的弹性和灵活性，降低成本、改进服务、减少管理风险等目标。因为随着企业的发展，业务和应用不断扩张，基于传统的IT建设方式导致IT系统规模日益庞大，数据中心空间不够用、高耗能，维护成本不断增加。企业需要建立一种可以降低成本、具有智能化和安全特性并能够及时适应企业业务需求的灵活的、动态的基础设施和应用环境，并希望降低数据中心的运营成本，这时虚拟化技术应运而生。
————————————————
版权声明：本文为CSDN博主「物联研究」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/iot_research/article/details/82721127

工业互联网平台核心技术之三：并行计算与分布式计算

之所以将两种计算技术放在一起，是因为这两种计算具有共同的特点，都是运用并行来获得更高性能计算，把大任务分为N个小任务。但两者还是有区别的，关于两者的区别在后面说。

一、并行计算

1、并行计算概念

并行计算又称平行计算是指一种能够让多条指令同时进行的计算模式，可分为时间并行和空间并行。时间并行即利用多条流水线同时作业，空间并行是指使用多个处理器执行并发计算，以降低解决复杂问题所需要的时间。

并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程。为执行并行计算，计算资源应包括一台配有多处理机（并行处理）的计算机、一个与网络相连的计算机专有编号，或者两者结合使用。并行计算主要目的在于两个方面：

(1) 加速求解问题的速度。 (2) 提高求解问题的规模。

2、并行计算的原理

并行计算能快速解决大型且复杂的计算问题。此外还能利用非本地资源，节约成本 ― 使用多个“廉价”计算资源取代大型计算机，同时克服单个计算机上存在的存储器限制。为提高计算效率，并行计算处理问题一般分为以下三步：

将工作分离成离散独立部分，有助于同时解决；
同时并及时地执行多个程序指令；
将处理完的结果返回主机经一定处理后显示输出。
并行计算是相对于串行计算来说的，所谓并行计算分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术，而空间上的并行则是指用多个处理器并发的执行计算。

从上图可以看出，串行计算必须按步骤一步一步计算才能出来最终结果。而并行计算则要将问题分成N多个子任务，每个子任务并行执行计算。而每个子任务是非独立的，每个子任务的计算结果决定最终的结果。这个和分布式计算不同。

并行计算需满足的基本条件
并行计算机。并行计算机至少包含两台或两台以上处理机，这此处理机通过互联网络相互连接，相互通信。
应用问题必须具有并行度。也就是说，应用可以分解为多个子任务，这些子任务可以并行地执行。将一个应用分解为多个子任务的过程，称为并行算法的设计。
并行编程。在并行计算机提供的并行编程环境上，具体实现并行算法，编制并行程序并运行该程序，从而达到并行求解应用问题的目的。　　、

二、分布式计算

分布式计算概念
分布式计算是一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。分布式计算和集中式计算相对应的概念。

2、分布式计算的优点

分布式计算是在两个或多个软件互相共享信息，这些软件既可以在同一台计算机上运行，也可以在通过网络连接起来的多台计算机上运行。分布式计算比起其它算法具有以下几个优点：

（1）稀有资源可以共享。

（2）通过分布式计算可以在多台计算机上平衡计算负载。

（3）可以把程序放在最适合运行它的计算机上。其中，共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。

3、分布式计算原理

Hadoop计算框架是出现比较早的一个分布式计算框架，由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。

另外，边缘计算也是分布式计算的一种，前文《小白聊智慧制造之十四：一文轻松读懂边缘计算》有所表述，感兴趣的可以去看看。

三、并行计算与分布式计算的区别

并行计算和分布式计算既有区别也有联系。从解决对象上看，两者都是大任务化为小任务，这是他们共同之处。具体区别和联系如下表所示：

项目

并行计算

分布式计算

相同点

都是运用并行来获得更高性能计算，把大任务分为N个小任务
都属于高性能计算（High Performance Computing，HPC）的范畴
主要目的都是在于对大数据的分析与处理

不

同

点

时效性

强调

不强调

独立性

弱，小任务计算结果决定最终计算结果

强，小任务计算结果一般不影响最终结果

任务包之间关系

关系密切

相互独立

每个节点任务

必要，并且时间同步

不必要，时间没有限制

节点通讯

必须

不必须，甚至可以无网络

应用的场合

海量数据处理

模式类穷举法

如上表所示，并行计算的传统目的是提供单处理器无法提供的性能（处理器能力或存储器）；因此，它的目的是使用多处理器求解单个问题。而分布式计算的目的主要是提供方便，这种方便包括可用性、可靠性以及物理的分布（能从许多不同场所访问分布式系统）。在并行计算中，处理器间的交互一般很频繁，往往具有细粒度和低开销的特征，并且被认为是可靠的。而在分布式计算中，处理器间的交互不频繁，交互特征是粗粒度，并且被认为是不可靠的。并行计算注重短的执行时间，分布式计算则注重长的正常运行时间。

结语

并行计算、分布式计算以及网格计算和云计算都是属于高性能计算（HPC）的范畴，主要目的在于对大数据的分析与处理，但它们却存在很多差异。我们需要了解两者的原理、特点和运用的场合，对云计算的了解大有裨益。
————————————————
版权声明：本文为CSDN博主「物联研究」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/iot_research/article/details/82832025

工业互联网平台核心技术之四：一文读懂云计算

目前云计算越来越普及化，行业门槛很低，正向平民化方向发展。然而什么是云计算，你问问周围言必称云计算的，答案也是咿咿呀呀，或者不知所云。这就产生强大的反差，一方面云计算给人感觉非常高大上，高科技，深不可测的；另外一方面又成了人的口头禅了，做技术的，做文案的，做生意的，甚至做官员的，时常都从口里蹦出个“云计算”来。

前面我们探讨过虚拟化、分布式和并行计算，今天我们来了解下高大上的云计算。首先我们来看看云计算的前世今生。

一、云计算的前世今生

2006年8月9日，Google首席执行官埃里克·施密特（Eric Schmidt）在搜索引擎大会（SES San Jose 2006）首次提出“云计算”（Cloud Computing）的概念。云计算提出的愿景，是要像用水用电那样使用IT服务。建立了水厂发电厂集中提供水电，家庭不再需要挖水井和买发电机，只要通过水管和电线便可享受专业的更高水平的水电服务，且按需付费，若短期突然要大量用水用电，也无需担心资源不足，用多用少可自主决定。类比到IT，便是云计算服务提供商建设好大规模的IT基础设施，通过互联网（网线或无线）为企业提供服务器（虚拟机）、存储、应用程序等的租用，企业无需自己再建设IT基础设施，便可享受专业的更高水平的IT服务，且按需付费，若短期内业务访问量暴增需要更多的计算资源，也无需担心云计算服务提供商的资源不足，资源的租用可根据使用情况自动伸缩，企业只需按实际使用量付费即可。

云计算主要经历了四个阶段才发展道现在比较成熟的水平状态。这四个阶段依次是电厂模式、效用计算、网格计算，进而演进成现在的云计算。

电厂模式阶段：电厂模式就好比是利用电厂的规模效应，来降低电力的价格，并让用户使用起来更方便，且无需维护和购买任何发电设备。

效用计算阶段：在1960年左右，当时计算设备的价格是非常高昂的，远非普通企业、学校和机构所能承受，所以很多人产生了共享计算资源的想法。1961年，人工智能之父麦肯锡在一次会议上提出了“效用计算”这个概念，其核心借鉴了电厂模式，具体目标是整合分散在各地的服务器、存储系统以及应用程序来共享给多个用户，让用户能够像把灯泡插入灯座一样来使用计算机资源，并且根据其所使用的量来付费。但由于当时整个IT产业还处于发展初期，很多强大的技术还未诞生，比如互联网等，所以虽然这个想法一直为人称道，但是总体而言“叫好不叫座”。

网格计算阶段：网格计算研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多低性能的计算机来处理，最后把这些计算结果综合起来攻克大问题。可惜的是，由于网格计算在商业模式、技术和安全性方面的不足，使得其并没有在工程界和商业界取得预期的成功。

云计算阶段：云计算的核心与效用计算和网格计算非常类似，也是希望IT技术能像使用电力那样方便，并且成本低廉。但与效用计算和网格计算不同的是，在需求方面已经有了一定的规模，同时在技术方面也已经基本成熟了。

二、什么是云计算

云计算(cloud computing)是一种基于因特网的超级计算模式，在远程的数据中心里，成千上万台电脑和服务器连接成一片电脑云。因此，云计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心，按自己的需求进行运算。

美国国家标准与技术研究院（NIST）定义：云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池（资源包括网络，服务器，存储，应用软件，服务），这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。

狭义的云计算
狭义的云计算是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。这种特性经常被称为像水电一样使用IT基础设施。

2、广义的云计算

广义的云计算是指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的，也可以是任意其他的服务。

三、云计算的技术及特点

大规模、分布式
一般具有相当的规模，世界上靠前的云服务商（包括Google、Amazon、微软、阿里云等）都拥有上百万级的服务器规模，而依靠这些分布式的服务器所构建起来的“云”能够为使用者提供前所未有的计算能力。

2、虚拟化

云计算采用虚拟化技术，用户并不需要关注具体的硬件实体，只需要选择一家云服务商（具体可以参阅）。用户只需要注册一个账号、登陆到控制台、去购买和配置需要的服务（云服务器、云存储、CDN等等），再为你的应用做一些简单的配置之后，你就可以让你的应用对外服务了，这比传统的在企业数据中心部署一套应用要简单方便得多。而且，你可以随时随地通过你的PC或移动设备来控制你的资源，这就好像是云服务商为每一个用户都提供了一个IDC(Internet Data Center)一样。

3、高可用性和扩展性

云计算供应商一般都会采用数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性。基于云服务的应用可以持续对外提供服务（7*24小时），另外“云”的规模可以动态伸缩，来满足应用和用户规模增长的需要。

4、按需服务，更加经济

用户可以根据自己的需要来购买服务，甚至可以按使用量来进行精确计费，这能大大节省IT成本，而资源的整体利用率也将得到明显的改善。

5、安全

网络安全已经成为所有企业或个人创业者必须面对的问题，企业的IT团队或个人很难应对那些来自网络的恶意攻击，而使用云服务则可以借助更专业的安全团队来有效降低安全风险。

四、云计算的分类

云计算按层级分可以分为三类：

Iaas（基础设施即服务Infrastructure as a Servic），如阿里云、亚马逊AWS、微软Azure；

Paas（平台即服务Platform-as-a-Service），GAE（谷歌）、阿里云、敢为云；

Saas（软件即服务Software-as-a-Service），如根云、敢为云

具体的层级就不展开说了，需要了解，可以去百度。需要说明的是，这个划分不是那么刀切般清晰，原因在于云计算厂商的服务延伸。随着时间的推移，这种延伸将会越来越深入，跨界的现象将会更常见。

五、云计算的发展趋势

Gartner2018年6月发布的2017年全球公有云IaaS市场份额分析报告中显示，亚马逊AWS、微软Azure、阿里云位列全球公有云IaaS市场前三甲。世界排名前五的云计算厂商中，美国独占4席。

对于云计算平台而言，Gartner指出，云计算平台需要加强自身硬件包括但不局限于数据中心的扩建和扩充，同时提出了更高的要求：未来云计算更倾向于云生态建设，云计算不是孤立的，需要与AI、大数据和物联网等技术做更多的结合和交流。

对于云计算霸主地位的亚马逊在未来也不能坐享其成，高枕无忧，稍不留神便会被反超；对于云计算寡头之外的云计算平台，无疑需要更深入的耕耘，特别是对致力于深耕垂直行业的云计算平台，提出了更高的要求：

具有对云计算的掌控能力
具有扩展行业应用和计算能力
具有提供一站式解决方案能力
具有满足差异化需求能力
具有提供定制化服务能力
具有专注所属领域纵深发展能力
总体而言，云计算将是多寡头和垂直领域云服务商并存的局面。

六、结语

云计算是一个产生于IT 领域的概念，但其将在物联网时代发扬光大。云计算从一个比较模糊的技术术语，到早期亚马逊的Cloud Drive实践，到各大行业巨头目标盯紧了云计算这块大“肥肉”，不过短短的十年。随着物联网领域的需求不断扩大，云计算的发展将不可阻挡地实现跨越。
————————————————
版权声明：本文为CSDN博主「物联研究」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/iot_research/article/details/83044463

工业互联网平台核心技术之五：多租户技术

多租户管理技术，是云平台使能技术之一，通过虚拟化、数据库隔离、容器等技术实现不同租户应用和服务的隔离，保护其隐私与安全。

一、多租户技术概念

多租户技术（multi-tenancy technology）或称多重租赁技术，是一种软件架构技术，它是在探讨与实现如何于多用户的环境下共用相同的系统或程序组件，并且仍可确保各用户间数据的隔离性。

在多租户技术中，租户（Tenant）是指使用系统或计算资源的用户，包含在系统中可识别为指定用户的一切数据，比如在系统中创建的账户与统计信息（Accounting Data），以及在系统中设置的各式数据和用户所设置的客户化应用程序环境等，都属于租户的范围。

多租户的资源是按照服务请求，动态创建的。租户租借计算资源，是和服务提供商签订的服务协定，有一定的时间限制（租户可以任何时候，任何地点来申请或取消对计算资源的使用）。服务提供商必须按照协定动态地进行部署，满足租户的需求。

租户间共享资源越多，基础资源的利用率越高，单位资源成本越低，租户间隔离性越差。

二、虚拟网络拓扑

在云计算中，服务器虚拟化将传统的物理服务器虚拟化成若干个虚拟服务器，每个虚拟服务器运行着独立的操作系统。每个租户拥有虚拟服务器资源池中的一个虚拟服务器或一组虚拟服务器。多租户网络必须能够满足虚拟机之间的隔离需求，每个租户在虚拟的资源环境中，必须有自己的独立标识，即租户ID，又叫T－ID；同时每个租户都必须有自己的独立的网络链路；即虚拟网络拓扑。

在多租户网络中，每个租户有不同的应用，所以，云服务提供商必需确保每个租户的服务质量。如对带宽的保证，在流量拥塞的时候确保最低带宽，实现拥塞避免等。所以在多租户网络中，每个用户的QoS策略及其流量策略非常重要。

在多租户网络中，租户的虚拟服务器的部署并不一定都集中在一个数据中心，而是大部分分布在不同的数据中心，有的需要跨越城域网甚至广域网。在这种情况下，多租户网络必须能够跨越互联网实现租户的互联互通。

三、多租户技术

技术上，多租户技术可以通过许多不同的方式来切割用户的应用程序环境或数据。

数据面（data approach）：供应商可以利用切割数据库（database），切割存储区（storage），切割结构描述（schema）或是表格（table）来隔离租户的数据，必要时会需要进行对称或非对称加密以保护敏感数据，但不同的隔离作法有不同的实现复杂度与风险。

程序面（application approach）：供应商可以利用应用程序挂载（hosting）环境，于进程（process）上切割不同租户的应用程序运行环境，在无法跨越进程通信的情况下，保护各租户的应用程序运行环境，但供应商的运算环境要够强。

系统面（system approach）：供应商可以利用虚拟化技术，将实体运算单元切割成不同的虚拟机，各租户可以使用其中一至数台的虚拟机来作为应用程序与数据的保存环境，但对供应商的运算能力要更要求。

四、多租户技术实现方式

多租户技术的实现重点，在于不同租户间应用程序环境的隔离（application context isolation）以及数据的隔离（data isolation)，以维持不同租户间应用程序不会相互干扰，同时数据的保密性也够强。

应用程序部份：通过进程或是支持多应用程序同时运行的装载环境（例如Web Server，像是Apache或IIS等）来做进程间的隔离，或是在同一个伺服程序（server）进程内以运行绪的方式隔离。
数据部份：通过不同的机制将不同租户的数据隔离，Force是采用中介数据（metadata）的技术来切割，微软 MSDN 的技术文件则是展示了使用结构描述的方式隔离。
五、多租户中的关键网络技术

虚拟交换机技术
虚拟交换机技术就是解决不同虚拟机之间相互通讯的一种交换机系统。它不同于普通的物理交换机，是一种软件模块，位于虚拟机和服务器的网卡之间，将不同的虚拟服务器虚拟网络接口和服务器的物理网卡接口连接起来，按照不同的转发逻辑形成的一种软件转发的交换机系统。

分布式租户跨越互联网技术
在云服务提供商或私有云的环境中，租户的数目非常多，每个租户的网络又必须严格隔离。所以常用的4k的 VALN数目不能满足需求。nvGRE草案提出了Tenant-ID，用于标识租户的网络，Tenant-ID有24位，最多可以支持1600万的租户。可以满足大型数据中心租户的要求。

解决了租户的虚拟机之间通讯需要跨越互联网的问题。当租户的虚拟机需要迁移或者租户的网络中虚拟机之间需要相互通讯时应用该协议，使用GRE隧道承载租户二层网络，这种承载网络技术又叫做Overlay网络。

六、多租户三种方案对比

方案1：独立数据库

这是第一种方案，即一个租户一个数据库，这种方案的用户数据隔离级别最高，安全性最好，但成本也高。

优点：

为不同的租户提供独立的数据库，有助于简化数据模型的扩展设计，满足不同租户的独特需求；如果出现故障，恢复数据比较简单。

缺点：

增大了数据库的安装数量，随之带来维护成本和购置成本的增加。这种方案与传统的一个客户、一套数据、一套部署类似，差别只在于软件统一部署在运营商那里。如果面对的是需要非常高数据隔离级别的租户，可以选择这种模式，提高租用的定价。

方案2：共享数据库，隔离数据架构

这是第二种方案，即多个或所有租户共享 Database，但是每个租户一个 Schema。

优点：

为安全性要求较高的租户提供了一定程度的逻辑数据隔离，并不是完全隔离；每个数据库可以支持更多的租户数量。

缺点：

如果出现故障，数据恢复比较困难，因为恢复数据库将牵扯到其他租户的数据；如果需要跨租户统计数据，存在一定困难。

方案3：共享数据库，共享数据架构

这是第三种方案，即租户共享同一个Database、同一个 Schema，但在表中通过 T-ID 区分租户的数据。这是共享程度最高、隔离级别最低的模式。

优点：

三种方案比较，第三种方案的维护和购置成本最低，允许每个数据库支持的租户数量最多。

缺点：

隔离级别最低，安全性最低，需要在设计开发时加大对安全的开发量；数据备份和恢复最困难，需要逐表逐条备份和还原。

如果希望以最少的服务器为最多的租户提供服务，并且租户接受以牺牲隔离级别换取降低成本，这种方案最适合。
————————————————
版权声明：本文为CSDN博主「物联研究」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/iot_research/article/details/83478970

工业互联网平台核心技术之六：安全技术

这七项技术散见于以前的文章之中，本篇主要谈谈安全技术。

一、工业互联网平台的安全威胁

由于早期的工业控制系统都是在相对独立的网络环境下运行，在产品设计和网络部署时，只考虑了功能性和稳定性，对安全性考虑不足。随着工业控制系统网络之间互联互通的不断推进，以及工控控制系统和工业设备接入互联网的数量越来越多，通过互联网对工业控制系统实施攻击的可能性越来越高，而每年新发现的SCADA、DCS、PLC漏洞数量也不断增加，这些都为工业互联网带来巨大的安全隐患。

从2011年以后工业控制系统的各种漏洞每年都在高速的增加，这些漏洞将会成为攻击工业控制网络的一种主要途径，通过这些漏洞攻击可以完成获取系统权限、修改工程数据和控制流程、非法关闭现场设备等操作，造成重大的生产事故和经济损失。

来自外部网络的渗透
工业互联网会有较多的开放服务，攻击者可以通过扫描发现开放服务，并利用开放服务中的漏洞和缺陷登录到网络服务器获取企业关键资料，同进还可以利用办公网络作为跳板，逐步渗透到控制网络中。通过对于办公网络和控制网络一系列的渗透和攻击，最终获取企业重要的生产资料、关键配方，严重的是随意更改控制仪表的开关状态，恶意修改其控制量，造成重大的生产事故。

帐号口令破解
由于企业有对外开放的应用系统(如邮件系统)，在登录开放应用系统的时候需要进行身份认证，攻击都通过弱口令扫描、Sniffer密码嗅探、暴力破解、信任人打探套取或社工比较合成口令等手段来获取用户的口令，这样直接获得系统或应用权限。获取了用户权限就可以调取相关资料，恶意更改相关控制设施。　　

利用移动介质攻击
当带有恶意程序的移动介质连接到工程师站或操作员站时，移动介质病毒会利用移动介质自运行功能，自动启动对控制设备进行恶意攻击或恶意指令下置。一方面造成网络病毒在企业各个网络层面自动传播和感染，靠成业务系统和控制系统性能的下降，从而影响企业监测、统筹、决策能力。另一方面会针对特定控制系统或设备进行恶意更改其实际控制量，造成生成事故。

PLC程序病毒的威胁　　
通过对工程师站及编程服务器的控制，感染(替换)其相关程序，当PLC程序的下发时，恶意程序一起被下发到PLC控制设备上。恶意程序一方面篡改PLC的实际控制流，另一方面将运算好的虚假数据发给PLC的输出，防止报警。通过这种方式造成现场设备的压力、温度、液位失控，但监测系统不能及时发现，造成重大的安全事故。　　

利用工业通信协议的缺陷
Modbus、DNP3、OPC等传统工业协议缺乏身份认证、授权以及加密等安全机制，利用中间人攻击捕获和篡改数据，给设备下达恶意指令，影响生产调度，造成生产失控。　　

利用无线网络入侵
控制网络通过DTU无线设备通过802.11b协议连接到管理区的网络，通过对网络无线信息的收集，侦测WEP安全协议漏洞，破解无线存取设备与客户之间的通讯，分析出接入密码，从而成功接入控制网络，控制现场设备，获取机要信息，更改控制系统及设备的控制状态，造成重大影响。

二、工业互联网平台安全的要求

工业互联网实现了设备、工厂、人、产品的全方位连接，因此工业互联网安全建设必须从综合安全防护体系的视角对其进行统筹规划。从工业互联网的整体架构来看，应该在各个层面实施相应的安全防护措施，并通过入侵检测、边界防护、协议分析、行为分析、安全审计、容灾备份、态势感知等各种安全技术与安全管理相结合的方式实现工业互联网的安全防护，形成对工业互联网安全的“监测、报警、处置、溯源、恢复、检查”工作闭环。

三、工业互联网的安全防护能力
工业互联网平台应在云基础设施、平台基础能力、基础应用能力的安全可信方面应制定五个基本计划活动：

1、识别（Identify）：识别的管理系统，资产，数据和功能的安全风险。

2、防护（Protect）：对平台实施安全保障措施，确保工业互联网平台能够提供服务。

3、检测（Detect）：对平台使用、维护、管理过程实施适当的持续性监视和检测活动，以识别安全事件的发生。

4、响应（Respond）：对平台使用、维护、管理过程制定和实施适当的应对计划，对检测到的安全事件采取行动。

5、恢复（Recover）：对平台使用、维护、管理过程制定和实施适当的活动及维护恢复计划，以恢复由于安全事件而受损的任何能力或服务。

四、工业互联网安全的防护思路

当前的信息安全处于持续攻击的时代，需要完成对安全思维的根本性切换，即应该充分意识到安全防护是一项持续的处理过程，即从“应急响应”到“持续响应”。基于这一思路，工业互联网平台应在安全方面制定五个基本计划活动，分别是识别，包含，检测，响应与恢复。

1、安全风险识别：安全风险识别是总体设计的基础，通过对整个系统进行详细分析，识别出各个部分的安全隐患，之后根据实际情况制定明确的设计方案。

2、安全职责划分：安全职责划分是整体方案的基础，需理清工业云各方安全责任边界对整个活动中的安全事件进行详细的责任划分设计。

3、分区分域分级设计：工业云平台环境相对复杂，涉及多类业务，多类系统，因此在安全防护上需要进一步细化安全域的划分以及不同安全域、不同安全级别的访问控制设计。

4、云安全防御：防御能力指一系列策略、产品和服务，可以用于防御攻击。这个方面的关键目标是通过减少被攻击面来提升攻击门槛，并在受影响前拦截攻击动作。

5、云安全检测：检测能力用于发现那些逃过防御网络的攻击，该方面的关键目标是降低威胁造成的“停摆时间”以及其他潜在的损失。检测能力非常关键，因为安全管理人员应该假设自己已处在被攻击状态中。

6、云安全运维与安全管理：实现安全运维操作的分级管理，对不同级别的用户予符合其安全职责划分的操作或审计权限，实现安全运维。坚持日常安全运营与应急响应相结合，以数据为驱动力，以安全分析为工作重点。

7、云安全响应：响应能力用于高效调查和补救被检测分析所发现的安全问题，提供入侵取证分析和根本原因分析，并产生新的防护措施以避免未来出现安全事件。

8、云安全恢复：工业互联网云平台与通常IT环境下的云相比，更加重视恢复能力，一旦监测到系统遭受攻击，云安全响应中心应立即开启系统恢复功能，防止数据丢失，应用错误，减少对工业系统带来的损失。
————————————————
版权声明：本文为CSDN博主「物联研究」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/iot_research/article/details/83717865

工业互联网平台核心技术之七：运维技术-无监控，不运维

运维管理是工业互联网平台使能技术之一，在平台中的地位极其重要。在工业互联网平台的运维管理中，我们经常听到关于运维的话题：“无监控，不运维”。

随着云计算和互联网的高速发展，大量应用需要横跨不同网络终端，并广泛接入第三方服务，平台系统架构越来越复杂。快速迭代的产品需求和良好的用户体验，需要运维管理者时刻保障核心业务稳定可用。

一、运维管理的痛点和难点

运维工程师在运维中过程中经常遇到运维工作如下的痛点和难点：

面向业务的运维，不但关心单点物理资源的运行状态，更关心整个业务系统的健康状态
如果企业使用了大量的API和模块化应用，那么需要关注每个接口的性能变化情况和指标
对于运维主管及企业管理层来说，特别需要上墙的监控大屏
4、运维需要每周、每月查看报告趋势分析，但传统运维工具数据导出困难

5、需要第一时间转雀和快速发现故障节点，减少业务中断带来的损失

二、运维管理

三、资源管理

（一）、物理资源监控

物理资源状态监控。提供可按照资源池、集群对物理设备的资源状态、如计算、存储、网络等运行状态进行监控。
故障告警及通知。

2、故障告警及通知。支持Email或者短信、微信等告警的实时通知消息。

3、资源库存及资产管理。支持对物理设备库存及资产管理，需要扩充及时提供运维管理人员。

4、故障分析报表。可按照故障级别、事件类别出具故障的分析报表，便于改善服务。

（二）业务资源监控

（1）业务资源状态监控。可按照服务如虚拟主机、云数据库、块存储等进行资源状态监控。

（2）业务资源容量监控。对业务资源层的资源容量进行分别监控，可设置容量告警阈值提醒资源扩容。

（3）运维操作记录。记录运维相关的操作日志且存档期不少于半年。

三、运维管理一般流程和功能

运维管理流程图

制定云服务运维管理流程，包括：服务台、事件管理、问题管理、变更管理、配置管理、发布管理、知识库管理、报表管理。

云服务运维管理系统应提供以下功能：

（1）监控管理，通过对各种物理资源、虚拟化资源数据的监控，将资源以用户可见的资源池形式提供给上层应用。统一资源管理，支持发现其管辖范围内的物理设备（包括服务器、存储设备、交换机）以及它们的组网关系。支持将这些物理设备进行池化管理，提供给应用管理模块使用。

（2）权限管理，可以创建和管理系统中管理员帐号、管理员所承担的角色和管理员管理区域，实现系统的分权分域的功能。系统支持对用户进行访问控制，支持用户组、分权、分域、密码管理，便于维护团队内分职责共同有序地维护系统。

（3）告警管理，是确保系统正常运行的重要活动，包括：系统故障预防设计、故障检测和处理等。告警管理是故障管理的重要部分，便于运维人员进行故障定位，保证系统稳定运行。

（4）拓扑管理，提供一个可视化界面，呈现全系统的所有资源信息。支持常用设备自动发现和识别，系统还对网络类型有很好的兼容性，可以很好的发现

VPN、VLAN网络拓扑，还支持按照规则识别不同的设备类型（如三层交换机），方便更准确的呈现拓扑。

（5）日志管理包括日志记录、查看、审计。

（6）软件管理，支持云操作系统软件预安装和预置、软件自动化批量安装、软件升级和补丁更新等功能。

（7）统计报表管理，可以让管理员查看虚拟机登录、分配以及运行状态信息，有助于系统优化，调整提升。报表可以根据要求定制，内容主要包括之前描述过得监控内容，包括CPU、内存、网络流量、数据库性能、中间件性能等各类性能报表和故障报表。

（8）资产管理，是运维管理系统的核心功能，能够实现对云平台相关的软硬件信息资产信息的全面管理，同时，对资产信息进行实时监控变更等功能，满足企业对资产管理的需要。

（9）工单管理，系统提供完整的工单管理的功能，支持创建工单的流转流程。支持手工创建工单，也可以在告警响应动作中创建工单；支持以工单方式实现对告警事件的应急响应、工作任务分配、工作任务管理，可以进行流程定制和流程查看，工作流可以跨多个中心进行联动。

（10）计费管理，不同的云服务按照各自的计费项计量并收费的能力。

（11）安全管理，是对数据、账号等IT资源采取全面保护，使其免受犯罪分子和恶意程序的侵害，并保证云基础设施及其提供的资源能被合法地访问和使用。

（12）对系统数据均实现多副本保存或其他冗余备份机制。

（13）可实现云服务运维管理系统的自动化管理。

四、运维监控平台设计思路

构建一个智能的运维监控平台，必须以运行监控和故障报警这两个方面为重点，将所有业务系统中所涉及的网络资源、硬件资源、软件资源、数据库资源等纳入统一的运维监控平台中，并通过消除管理软件的差别。

数据采集手段的差别，对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制，最终实现运维规范化、自动化、智能化的大运维管理。

智能的运维监控平台，设计架构从低到高可以分为6层，三大模块，如下图：

1、数据收集层：位于最底层，主要收集网络数据、业务系统数据、数据库数据、操作系统数据等，然后将收集到的数据进行规范化并进行存储。

2、数据展示层：主要是将数据收集层获取到的数据进行统一展示，展示的方式可以是曲线图、柱状图、饼状态等，通过将数据图形化，可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势，并作为运维人员排查问题或解决问题的依据。

3、数据提取层：主要是对从数据收集层获取到的数据进行规格化和过滤处理，提取需要的数据到监控报警模块，这个部分是监控和报警两个模块的衔接点。

4、报警规则配置层：主要是根据第三层获取到的数据进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。

5、报警事件生成层：位于第五层，主要是对报警事件进行实时记录，将报警结果存入数据库以备调用，并将报警结果形成分析报表，以统计一段时间内的故障率和故障发生趋势。

6、用户展示管理层：位于最顶层，是一个Web展示界面，主要是将监控统计结果、报警故障结果进行统一展示，并实现多用户、多权限管理，实现统一用户和统一权限控制。

在这6层中，从功能实现划分，又分为三个模块，分别是数据收集模块、数据提取模块和监控报警模块，每个模块完成的功能如下：

1、数据收集模块：此模块主要完成基础数据的收集与图形展示。数据收集的方式有很多种，可以通过SNMP实现，也可以通过代理模块实现，还可以通过自定义脚本实现。常用的数据收集工具有Cacti、Ganglia等。

2、数据提取模块：此模板主要完成数据的筛选过滤和采集，将需要的数据从数据收集模块提取到监控报警模块中。可以通过数据收集模块提供的接口或自定义脚本实现数据的提取。

3、监控报警模块：此模块主要完成监控脚本的设置、报警规则设置，报警阀值设置、报警联系人设置等，并将报警结果进行集中展现和历史记录。常见的监控报警工具有Nagios、Centreon等。

运维管理平台主要有三大部分组成，分别是数据收集模块、监控报警模块和数据提取模块。

其中，数据提取模块用于其他两个模块之间的数据通信，而数据收集模块可以有一台或多台数据收集服务器组成，每个数据收集服务器可以直接从服务器群组收集各种数据指标，经过规范数据格式，最终将数据存储到数据收集服务器中。

监控报警模块通过数据抽取模块从数据收集服务器获取需要的数据，然后设置报警阀值、报警联系人等，最终实现实时报警。报警方式支持手机短信报警、邮件报警等，另外，也可以通过插件或者自定义脚本来扩展报警方式。这样一整套监控报警平台就基本实现了。

结语

运维监控平台是工业互联网平台运维工作中不可或缺的一部分，如何构建适合自己的运维监控平台，每个公司的需求不一样，每个运维面对的痛点也不尽相同，但，有了监控，有了充足的数据，一切以数据说话，运维就不再是背锅侠了。
————————————————
版权声明：本文为CSDN博主「物联研究」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/iot_research/article/details/84203182