《Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests》论文笔记

1. 摘要

　　尽管深度神经网络(DNNs)在视频异常检测(VAD)方面取得了很大的进展，但现有的解决方案通常存在两个问题：

　　(1) 视频中事件的定位不能既准确又全面

　　(2) 对语义和时间上下文的研究不足

　　为了解决这些问题，我们采用了教育中普遍存在的cloze test，并提出一种名为"visual cloze completion(VCC)"的方法来进行异常检测。具体来说，VCC首先定位每个video，并将其封装到一个时空立方体(STC)中。为了实现精确、综合的定位，外观和运动被作用互补的线索来标记与每个事件相关的物体区域。对于每个标记区域，其归一化序列补丁是由当前帧和相邻帧提取出的，并将其堆叠到一个STC中。将STC中的每个补丁和补丁序列分别与视觉上的"word"和"sequence"进行比较，我们故意删除某个单词(patch)，以产生一个VCT。然后，我们通过训练DNNs来完成VCT，通过视频语义来推断被擦除的补丁及其光流。同时，VCC充分利用时间上下文，在时间上下文中交替删除每个补丁，并创建多个VCT。此外，我们提出了本地级、事件级、模型级和决策级的解决方案来增强VCC，这可以进一步探索VCC的潜力，并产生显著的性能以提高受益。大量的实验证明VCC在异常检测中性能较好。

2. 介绍

　　异常行为检测(VAD)旨在自动检测出监控视频中的异常事件。对市政管理，交通监控，应激反应等各种安全关键场景有着巨大的潜在价值，是学术界和工业界的热门课题。一般情况下，VAD是指检测到偏离正常生活iguana的可疑视频事件，经过多次尝试，VAD仍然是一个具有挑战性的任务。其主要归因于异常事件的三大特征：

稀缺：由于异常事件相比正常事件发生的概率低得多，通常很难收集到足够的异常事件数据
含糊不清：异常事件是指所有与正常观察结果不同的时间，因此无法列举所有潜在的异常事件进行训练
不可预测性：预测即将发生的异常事件的确切形式是不切实际的。

　　由于上述特点，对异常事件的直接建模是不切实际的。因此VAD通常遵循单分类的设置：

在训练阶段，异常事件被认为是严格未知的，而只收集正常数据。（通常是高可访问性的）。这些正常数据大致用一个公共标签进行标注，即正常事件中的子类不被区分，所有它们都被标记为正/正常。然后用粗略标记的正态数据建立一个正态性模型。
在推理阶段，不符合该正态性模型的视频事件将被视为异常事件。由于异常和正常子类都没有标签，VAD通常被认为是一种标签很少学习的半监督任务，而强大的监督学习并不能直接适用于VAD。相反，它通常通过一些无监督或自我监督的方法来解决。

　　在文献中，VAD解决方案可以分为经典的VAD方法和最近基于DNN的VAD方法。经典的VAD依赖于手工制作的描述符从视频事件中提取轨迹或纹理等低级特征，然后将特征输入VAD的经典异常检测模型

在学术界和工业界是一个很有吸引力的课题。相比之下，基于DNN的VAD受到了DNN在大型视觉任务[27]中的成功的启发。它不仅避免了复杂的特性工程，而且实现了优于经典VAD的性能。尽管基于DNN的VAD已经取得了显著的成功，并在最近的研究中发挥了主导作用，它仍然面临着两个突出的问题：

虽然VAD的目标是检测异常视频事件，但现有的基于DNN的VAD方法实际上无法实现视频事件的精确和全面定位。早期VAD工作的标准做法是通过具有一定过滤规则[51,66]的多尺度滑动窗口提取视频事件，不能正确定位前景对象，产生明显不精确的定位。由于dnn可以处理高分辨率的原始视频，许多最近的方法，如[32,42,68]，只是通过每帧学习而忽略了事件本地化。然而，这种方法被发现容易遇到几个问题，例如由于前景深度和前景-背景不平衡[30,79]而引起的尺度变化。很少有人工作，[19,21]也注意到这样的问题，并利用在通用图像数据集上预先训练的对象检测器。它提高了精度，但又引发了另一个致命的“封闭世界”问题：预先训练好的探测器无法识别新的前景物体，从而导致了非全面的定位。更重要的是，由于VAD的性质，许多异常事件的主题本质上是新颖的。因此，对视频事件的不理想定位往往会降低后期的学习过程。
由于视频事件本质上是一个高阶的时间概念，现有的基于DNN的VAD方法通常不能充分利用该活动的视频语义和时间上下文，如下图，基于DNN的VAD遵循两种学习范式(重建或框架预测)，但两者都有自己的问题。
- 基于重建的方法重建正常事件，并将重建的不好的事件视为异常事件。然而简单的重建将导致DNN只记忆low-level的特征，而不是记忆重要的语义，而DNNs的大容量往往使得异常事件都能重建。
- 相比之下，基于帧预测的方法旨在从之前的帧中预测一个正常视频帧，而预测效果较差的帧被认为异常帧。预测可以通过简单地记忆低水平的细节来避免减少训练损失。然而，它通常只通过单帧的预测对每个视频帧进行评分，而具有异常事件有价值线索的时间背景则不参与预测过程。因此，这两种学习范式都不是基于DNN的VAD的一个足以让人满意的解决方案。

　　与最近许多专注于搜索更好的DNN架构以进行重建或框架预测的努力不同，我们受到了语言研究中流行的凝块测试的启发，并提出了一种新的范例，称为视觉凝块完成(VCC)。如图1所示，VCC的核心思想是训练DNNs以完成一些列视觉阻塞测试(visual cloze test-VCTs)，其主要包含两个步骤：

提取视频事件以构建VCTs，为了精确而全面地提取视频事件，我们利用外观和运动作为互补的信息来定位与每个视频事件相关联的前景对象区域。从每个定位的区域中，从当前帧和时间上相邻的帧中提取一个归一化的补丁序列，然后堆叠成一个时空立方体(STC)来封装视频事件。将STC中的每一个"patch"与一个"word"进行比较，我们可以将STC的整个补丁序列看成是一个描述视频事件的"sequence"，通过这种方法，可以通过删除sequence(STC)中的某个"word"来构造一个VTC。
学习完成VCTs。具体来说，DNNs通过推断被擦除的patch来回答VCT，这需要DNNs处理视频语义(如高阶部分)而不仅仅是低级的细节。同时，VCC还配备了VCT类型集成和模态集成两种集成策略：
- VCT类型集成使VCC能充分利用视频事件的时间上下文。它通过交替删除STC中的每个补丁来创建多种类型的VCT以完成。通过这种方式，必须考虑视频事件的时间上下文中的每个补丁，然后将使用由一个视频事件构建的所有可能的VCT来计算异常分数。
- 模态集成需要DNN来推断被擦除的patch和光流，其包含了丰富的运动语义。如外观-运动相对应。通过这种方法，所提出的VCC参数能够有效地处理上述两个问题，以获得更好的VAD性能。

　　本文提出了【71】的初步版本，与其相比，我们主要从以下几个方面扩展了原创工作：

在定位水平上，我们利用估计的光流，而不是【71】使用的时间梯度，作为定位异常视频事件的运动线索。光流使定位结果对噪声具有鲁棒性，从而减少人为和被误解的视频事件。
在视频事件层面上，我们设计了一种空间局部化的策略，旨在缓解前景深度引起的尺度变化问题。它将视频分为几个不重叠的空间区域。从每个区块中提取的视频事件分别进行建模，这使得DNN可以处理具有可比规模的视频事件。
在模型层面上，我们设计了一个名为时空UNet(ST-UNet)的新的DNN体系来执行VCC。与【71】中使用的标准UNet相比，ST-UNet合成了一个循环网络结构，在STC中积累时间上下文信息，并生成高水平的特征图，这有助于所提出的VCC范式学习更丰富的视频语义。
在决策层面上，我们进一步设计了一个混合分数指标和分数整改策略，证明了这是一种简单但高效的绩效提高策略。
在实证评价层面上，我们在各种基准数据集上进行了更广泛的实验，以证明VCC的有效性，并提供了更深入的讨论和分析。综上所述我们的主要贡献如下：
- 我们首先明确阐述精确和全面的视频事件定位的必要性，并且我们提出利用外观和运动作为视频事件提取的互补信息，克服了"closed-world"的问题，为VAD奠定了坚实的基础
- 我们首次提出通过构建和完成VCTs来进行异常检测，这为重建或框架预测范式提供了一个很有前途的替代方案。
- 我们提出将VCT分别装备VCT类型集成和模态集成策略，以充分利用视频事件中的时间上下文和运动信息。
- 我们进一步提出了本地化级、事件级、模型级和决策级的解决方案来进一步增强VCC，这使得我们能够充分利用VCC的潜力，以获得明显的性能增益。

　3. Basic VCC

　　在本节中，我们经介绍所提出的VAD范式的基本框架:Visual cloze completion(VCC)。基本VCC由两个基本部分组成：视频事件提取和视觉凝块(visual cloze completion)。每个部分的动机和细节将被介绍：

3.1 视频事件提取

3.1.1 Overview

　　视频事件的适当表示是良好的VAD性能的基础。为此，我们只是简单地假设一个视频事件应该包括一个对象(即前景对象)及其在一个时间间隔内的活动。因此，一个自然地解决方案是使用V表示的时空立方体来包围一个视频事件。为了建立一个STC，视频框上的空间区域被标记为感兴趣区域(ROI)，其应该使用一个边界框标记。使用该ROI的位置b，一个带有D块patches的补丁序列(p1,p2,...,pd)是从当前帧和其相邻(D-1)帧提取出来进行该对象描述的。由于DNNs通常需要固定大小的输入，我们将这些补丁的大小调整为(hxw),并将其堆叠为新的(hxwxd)patches：(p1', p2',...,pd')，在本文中，D通常被设置为一个小值5或10来表示一个小区间，这便于我们假设视频事件的主题在时间间隔内安全地停留在ROI中。

3.1.2 Motivation

　　为了提取高质量的STC来表示视频事件，关键是定位前景对象的ROI，从而使得提取相应的视频事件成为可能。本文认为，该定位应该既精确又全面。更具体来说，精确地定位期望一个前景对象的整个区域被一个紧凑的便捷框所覆盖，而边界框包含最小的无关背景。综合定位要求所有前景对象的提取都不被遗漏。然而，现有的VAD方法很难同时精确和全面的定位，我们在图2中直观的说明了这一点：经典的滑动窗口策略通常会将一个前景对象分割成几个窗口(如图a)，(b)展示出只基于运动特征的定位，其不能区分不同的物体，并会提取过多的不相关的背景；(c)展示出只基于外观特征的定位，其往往会忽略新的或者模糊的物体；(d) 展示出提出的基于外观+运动特征能同时实现精确和全面的定位。

　　为此，我们重定义一个视频事件被定义一个前景对象及其活动。因此，在提取ROI时，需要同时考虑来自物体中的外观特征和其活动中的运动特征。外观特征可以使用通用目标检测器，其能有效地利用外观线索进行定位。通过对微软COCO[29]等大规模真实数据集的通用知识，预先训练好的探测器能够以高度精确的方式提取大多数日常物体（如人类和车辆）。然而，由于致命的“封闭世界”问题，只有外观线索的RoI提取是不全面的。为此，运动线索为定位省略的前景对象提供了有价值的遗漏信息，使我们能够克服“封闭世界”问题，完成更全面的RoI提取。更重要的是，基于运动特征的ROI提取不应该是一个孤立的过程--当使用运动特征时，应该对已经被外观特征定位的ROI进行过滤，这样可以减少冗余计算，并鼓励更精确地定位省略的前景对象。受这些想法的启发，我们提出了一种新的基于外观和特征的ROI提取模型如图3所示。视频事件提取模型：

(1) 基于外观特征的ROI提取(绿色)用预先训练好的目标检测器提取，并基于高效阈值进行过滤。

(2) 基于运动特征的ROI提取(红色)：

首先将运动特征图按大小二值化为二进制映射
然后从二进制映射中减去基于外观的ROI中突出显示的像素
最后运用轮廓检测、阈值分析和二值映射，得到基于运动的ROI。

(3) 时空立方体(STC)提取(黄色)：对于每个ROI，提取当前帧和(D-1)之前帧的补丁，然后调整D补丁的大小并堆叠到一个STC中，该STC包含一个视频事件。

3.1.3 基于外观特征的ROI提取

　　给定一个原始视频帧Ia和预先训练对象探测器模型M，基于外观的ROI提取的目标是通过前景对象的外观特征获得一个ROI集合Ba,Ba⊆R4,每个条目bap∈Ba指的是一个边界框。注意边框由其左上角和右下角的顶点坐标表示，这是一个四维向量。如图3中的绿色模块所示，我们首先将Ia输入模型M，通过选择那些置信度高于阈值t的输出边界框，获得初步的ROI集合Ba。丢掉模型M的输出累标签，即M只用于提供局部化信息，没有细粒度的类信息被利用。然后我们引入了两个有效地规则来过滤明显不合理的ROI：
　　(1) ROI区域阈值Ta-->能够过滤足够小的ROI

　　(2) 重叠率：移除与Bap中有较大嵌套或者显著重叠的ROI

　　这样我们可以确保通过外观线索提取的ROI能够准确定位日常事件的大多数前景对象。

3.1.4 基于运动特征的ROI提取

　　为了定位在“封闭世界”之外的那些前景对象，基于运动的RoI提取的目的是生成一个基于运动线索的补充边界框集Bm。如图3中红色模块所示，我们首先引入了一个运动映射Im，它包含当前帧上每个像素运动的大小，作为我们的运动线索。为了获得Im，最直接的方法就是计算连续两帧之间的时间梯度。有了这样的特征映射，我们可以简单地用阈值Tb将运动图二值化，并得到一个强烈运动的ROI区域，我们建议从映射中减去基于外观的ROI-->Ba而不是直接应用二进制映射，这使得基于运动特征的ROI提取有如下好处：

　　(1) 首先，基于外观特征的ROI的减法使得我们能够关注那些被遗漏的前景对象，并为他们产生更精确的ROI，否则多个对象的重叠将共同产生大而不精确的ROI

　　(2) 第二，减法可以避免冗余计算

　　(3) 我们提出轮廓检测以得到轮廓及其相应的边界框bm，同时使用简单的滤波规则(ROI区域阈值Ta和最大长宽比阈值Tar)以获得ROI几何Bm。基于两个互补的ROI集合，最终的ROI集合，最终的RoI集由B=Ba∪Bm生成，算法1和图3总结了整个RoI提取过程。利用这些ROI，我们能够提取高质量的STC来表示视频事件，然后为DNN构建VCT来解决异常检测。

3.2 VCT(Visual Cloze Tests)

3.2.1 Motivation

　　精确、全面地提取视频事件后，下一步就是基于视频中的正常事件学习基于DNN的正态模型。然而，常用的重构或帧预测范式不能充分利用语义和时间上下文信息。为了解决这个问题，我们提出了一种新的范式，训练DNN以完成VCT。VCT在我们的VCC方法中起着核心作用。

　　VCT的灵感来自"cloze test"，这是语言教育中广泛使用的测试方式。它要求学生完成一个不完整的文本，其中某些单词或阶段被故意抹去。通过这种方式，cloze test可以测试学生对单词或短语中的语义的掌握程度，以及他们利用上下文信息的能力。在自然语言处理(NLP)领域，类似的想法被探索为一种有效的预训练技术，从而使得能从文本中学习到更丰富的语义信息。考虑到视频语义和上下文信息对于鉴别异常视频事件也至关重要，我们自然被启发设计vct作为计算机视觉中的阻塞测试的对应物。由于我们假设一个视频事件被一个STC包围，因此STC的补丁序列自然对应于一个描述视频事件的视觉“句子”，而一个补丁可以看到一个视觉上的“单词”。有了这样的模拟方法，就可以通过从STC中擦除任何补丁来构建VCT。为了完成这个VCT，DNNs需要给出一个推断的补丁，它应该尽可能接近。这种学习范式有利于VAD，主要集中在两方面：

　　（1）为了完成这样的VCT，我们鼓励dnn在STC中捕获视频语义。例如，考虑一个描述一个正在行走的人的视频事件。DNNs必须注意STC中一些关键的高层部件（如转发腿和摆动臂）的运动，以实现良好的完成。这使得VCT成为一个比重建更有意义的任务，因为后者倾向于记忆低水平的细节，以减少训练损失。

　　（2）由于STC是VCC中的基本处理单元，并且STC中的任何补丁都可以被删除以创建一个VCT，因此我们可以很容易地通过擦除每个可能的补丁来构建多个VCT

　　通过这种方式，通过考虑此上下文中的每个补丁，可以充分利用时间上下文。相比之下，基于帧预测的VAD方法只考虑单个帧的预测误差来评估异常，这涉及到视频事件中有限的时间上下文信息。一般来说，完成一个VCT基本上需要解决两个任务，外观完成任务和运动完成任务，然后配备两种集成策略。如图所示4，我们将在下面详细介绍vct的每个方面。

Fig. 4: 构建VCC的基本流程：(1) 构建i型VCT(蓝色)：删除STC的第i个补丁来构建i型VCT，而删除的补丁被用作外观完成的目标。(2) 外观完成(绿色)：要完成VCT，DNN将VCT中的补丁作为输入，并学习生成已删除的补丁。(3) 运动不全(红色)：一个DNN以VCT作为输入，并学习生成与被擦除的补丁对应的光流补丁。

3.2.2 外观特征补充

　　由于外观特征补充的目标是标准化的小补丁，我们发现通过上式(1) 中的简单的外观损失足以为VCT提供高质量的补全工作。相比之下，许多基于DNN的VAD方法都是基于框架的，需要对抗训练方法来提高生成的质量，这对于我们的外观完成是不必要的。根据经验，我们注意到不同的p值实际上表现相似，我们简单地采用最常用的p=2的情况，即均方误差(MSE)损失，需要注意的是，DNN f(a)只处理i型VCT集合中的VCT，这使得这使得f(i)a更加专业化，更容易训练。否则，VAD的性能将会下降。

　　由于DNN被训练来完成由正常事件创建的VCT，我们认为那些对应于未完成的VCT的视频事件在推断中是异常的。为此，我们可以灵活地选择任何分数度量S(i)a(˜p(j,i)，p(j,i))，如均方误差(MSE)或峰值信噪比(PSNR)[32]，来衡量完成质量，并计算补丁p(j,i)的异常分数。事实上，我们的初步工作[71]表明，选择S(i)a(˜p(j,i)，p(j,i))作为MSE证明对异常评分非常有效，但我们将表明，结合不同指标的混合分数可以提高VAD的性能

3.2.3 运动特征补充

　　由于运动是视频的另一个重要属性，我们也打算在构建和完成视频转换时考虑运动信息。为此目的，可以利用密集的光流作为视频中每像素运动的高度可访问性和有效的表示。具体地说，它估计了像素在两个时间间隔为dt的连续帧之间(x、y)位置的运动位移(dx、dy)，假设其满足

　　其中P（xy、t）表示时间t位置(x, y)的像素强度。光流可以通过经典的方法或基于DNN的方法[16]来计算。为了提高效率，我们通过预先训练过的FlowNetv2模型[20]来估计密集的光流。通过估计每一帧的光流图，我们可以得到Vj中视频块相对应的光流斑块，并且将其调整为尺寸为hxw的补丁，运动补全需要一个来通过推断被删除的补丁的光流补丁，如，以便使得推断出的光流尽可能接近原本光流。和外观特征补全类似，使用运动损失

　　同样地，我们也采用，并在推理过程中使用相同的方法来定义运动特征异常得分，在补充完运动特征后，我们鼓励DNN从VCT中提供的时间上下文推断出运动统计数据，这使得模型可以考虑更加丰富的视频语义，如前景物体的外观运动的对应关系等。i型VCT的外观和运动补全特征如图4所示。

3.2.4 集成策略

　　集成是一种强大的技术，它将多个模型组合成一个更强大的模型。我们建议为vct配备两种集成策略，以充分释放其潜力：

　　(1) VCT类型集成。为了充分利用VAD的时间上下文，在计算视频事件的异常得分时，都应该涉及到视频事件的时间上下文中的每个补丁。为此，我们注意到一个STC将产生D个不同的vct，从而可以在时间上下文中考虑每个补丁来完成。因此，我们建议通过一组分数来计算一个视频事件的最终出现异常分数，这些分数是通过完成由该事件创建的所有不同类型的vct来获得的：

　　同样，VCT类型集成也适用于计算最终运动分数

　　(2) 模态集成。由于外观特征和运动特征都是VAD的重要线索，我们需要融合外观补充和运动补充的结果，以得到总体异常得分。为简单期间，我们使用和的加权和来计算视频事件Vj的总体异常分数

　　其中，表示训练集中所有正常事件的外观得分和运动得分的均值和标准差，用来将外观得分和运动得分归一化为同一量表。除了这种简单的加权策略之外，其他复杂的后期融合也适用于实现更好的模态集成性能。对于帧得分，所有事件在一帧上的最大值被视为帧得分。

4. 改进的VCC

　　基本的VCC已经能够实现相当令人满意的VAD性能，但仍有改进的空间。在本节中，我们将分别详细介绍本地化级、事件级、模型级和决策级的解决方案，以增强VCC。这些解决方案可以组合到VCC的增强版本中，从而实现显著的性能提高。

4.1 本地化级的增强(Localization-level Enhancement)

　　正如我们3.1.4中介绍，基于运动的ROI提取需要计算运动map Im,这是通过光流计算中得到的，然而，用时间梯度计算Im存在两个主要缺点：

　　(1) 前景物体的出现对时间梯度的大小产生显著影响，从而使他们反映运动的可靠性不高。例如，两个速度相同的行人在穿着不同颜色的衣服时，可能会产生不同的时间梯度

　　(2) 时间梯度容易受到低水平噪声的影响。由于光照或摄像机轻微振动等各种因素，这些噪声在现实世界的视频中普遍存在。受低水平噪声的干扰，时间梯度可以在运动图中产生大量的低水平伪影(下图中a)。尽管有基于规则的过滤，一些工件仍被误解为RO

　　基于上述观测结果，我们建议采用光流作为更精确的运动线索。与时间梯度相比，光流有几个优点：

　　(1) 首先，光流对外观不那么敏感，因为它是基于对应关系，而不是基于强度的变化。因此，它可以成为反映运动的一个更准确的线索。

　　(2) 其次，通过预先训练的FlowNetv2模型估计的光流，对于低噪声的[20]，由于FlowNetv2的相关层，对低噪声的鲁棒性更强。

　　(3) 第三，光流已经被计算为运动完成的目标(见秒。3.2.3)，所以实际上不需要额外的计算。

　　相反，如图所示。5(b)，当光流图用作Im时，我们可以得到一个更平滑的二值图，具有更少的低水平伪影来表示运动区域，并有效地去除被误解的RoIs。因此，通过光流改善运动线索能够通过更精确的运动基于RoI定位来增强VCC，从而获得更好的性能。此外，光流的鲁棒性也使确定二值化阈值Tb变得更容易，因为Tb的值可以在不同的数据集之间统一，而不管对象的外观和场景的差异如何。请注意，人们还可以探索更有效的运动线索。

4.2 事件级增强(Event-level Enhancement)

　　在许多现实场景中，VAD受不同前景深度的影响。在不同的深度下，相同类型的视频事件可能表现出不同的大小和尺度，这对建模和推理提出了重要的挑战。例如，在来自UCSDped1数据集的一个典型场景中(见图。6)左下角行人的尺寸和运动（光流）幅度明显大于右上角。因此，来自同一类别的视频事件（行人步行）似乎具有不同的特征，这扩大了类内的差异，削弱了VAD的单类学习。所提出的视频事件提取方法通过将所有roi归一化为相同的大小，在一定程度上缓解了这一问题。但是，它没有从根来解决这个问题，原因有两个：第一，进行空间归一化，而运动幅度不能通过空间插值来调整。其次，当进行上采样进行归一化时，前景对象将被模糊。

　　为了缓解这一问题，我们设计了一种空间定位的训练策略。如图6所示。空间定位策略的核心思想是将视频帧划分为几个局部空间区域，a.k.a-赛跑者起跑时脚底所撑的木块。由于每个块只能覆盖一个局部的空间区域，我们可以安全地假设该块中的所有前景对象共享相似的深度。后来，对一个块中的视频事件以单独的方式进行建模或测试，以便使得DNN只能处理具有类似规模的视频事件。为了将视频事件分配给一个块，一个简单而自然地标准是将其分配给视频事件的边界框具有最大重叠的块。在此基础上，我们建议在下面引入一些简单的定理来有效地确定视频事件的分配。

算法1：给定一个二维平面上任意的二维矩形b，将该平面均匀地划分为任意大小的矩形局部区域，如果矩形b的几何中心和第k个局部区域Rk满足，则b和Rk的重叠区域满足：

　　上述结论可以推广到任何n维超空间，其中n为正整数。

　　定理1的证明见附理1.1。定理1揭示了我们可以简单地通过检查视频事件的边界框的中心来确定视频事件是否属于一个块(图6中的红点)，因为它保证了最大程度的重叠。注意，定理1仅适用于视频被均匀地分割成像图6中这样的矩形块时。然而，更细粒度的不规则划分也同样使用：你可以简单地从训练视频中选择一帧，并且手动将框架划分为几个不规则的块，以更好地描述不同空间区域的深度，这实际上需要最小的成本和劳动力。由于监控录像通常有固定的背景，这个划分可以在以后的过程中得到解决。在本文中，我们只是针对不同前景深度的视频采用常规分割。

4.3 模型级增强(Model-level Enhancement)

　　正如3.2讨论的，我们的目标之一是充分利用VAD的视频和事件上下文信息。基于这个目标，我们提出了VCC作为一种新的VAD学习范式，这是一种范式级的解决方案。然而，使用标准的UNet更强调块的空间信息，而没有明确地建模STC中块之间的时间相关性。因此，开发一个为此目标专门定制的模型级解决方案是很自然的。为此，我们设计了一个名为时空UNet(ST-UNet)的新的DNN架构，它更与我们的VCC范式兼容。具体来说，ST-UNet的核心思想是将一个卷积的长短期记忆(CLSTM)[53]模块合成到UNet模块中。对于i型VCT，每次第t个补丁被输入CLSTM模块进行计算，分别对应输入门，遗忘门和输出门的控制信号：

　　其中Wpe，Wpf，Wpo，Whf，谁是可学习的卷积内核，并且是，bf，bo表示相关的偏差。H(i)j，t−1表示前一个补丁p0j，t−1的高级嵌入，引入时涉及时间历史信息的影响，⊗表示卷积操作。利用I(i)j、t、F(i)j、t来控制过去和现在信息的流入和外流量，它们记录在C(i)t−1和˜C(i)j、t中，CLSTM模块中的当前单元状态C(i)j、t可以计算为

其中，Wpc、Whc和bc表示卷积权值和偏差，◦为阿达玛乘积。利用单元状态C，和输出门的控制信号，计算当前补丁的高阶嵌入为：

　　通过这种方式，将VCT 中的每个补丁依次输入CLSTM并将其转换成高阶嵌入，不仅期望将当前补丁抽象为具有更吩咐语义的高级嵌入，而且还涉及到补丁的时间历史信息。由于包含更丰富的语义和时间上下文信息，我们可以收集所有高级嵌入，并计算第j帧视频事件的的整体嵌入，使用融合函数

　　F（·）可以通过各种方法实现，例如元素运算符或卷积层，而我们简单地选择F（·）作为元素求和。使我们能够最大限度地记录来自VCT的视频语义和时间上下文信息。因此，然后将输入UNet模块，以获得来自stc的原始补丁，而不是来自VCT的完成结果：

　　其中，Ua和Um分别表示外观和动作完成的情况。与VCC[71]采用标准UNet的初步工作相比，所提出的ST-UNet具有三个优点：首先，引入CLSTM模块使我们能够在模型层面上明确地建模stc中补丁的时间相关性；其次，模型可以将VCT中所有补丁的高级嵌入融合到整体嵌入中；第三，通过将整体嵌入而不是原始补丁注入UNet模块，鼓励DNNs更好地利用高级视频语义完成VCT。我们后来的评估表明，使用ST-UNet作为DNN架构在VCC中不断优于UNet。

4.4 决策级优化(Decision-level Enhancement)

　　在决策阶段，异常评分的计算和后续处理也会对VAD的性能产生显著影响。对于异常评分指标，我们的初步工作[71]表明，MSE可能是VCC的一个有效的异常评分指标。然而，研究表明，MSE存在一些弱点，如它高度强调每像素误差和高层结构的疏忽。由于这些弱点，MSE可能过于关注低层次的差异，而不能全面反映两个补丁之间的一些高级结构差异。因此，我们建议引入结构相似性(SSIM)作为MSE的补充评分度量。SSIM的计算方法如下：

　　其中和分别表示被删除的补丁和预测的补丁的像素强度的平均值和标准差，表示被删除的补丁和预测的补丁的像素强度之间的协方差，而c1和c2是常数。最终得分由MSE和SSIM组合计算，同时适用于外观和运动完成。

　　除了能更好地反映完成质量的混合异常分数指标外，基于后处理的分数校正是细化所得异常分数的另一种有效方法。分数校正的动机源于观察到视频事件是连续的，因此相邻视频帧的异常分数应该是接近的。因此，我们可以很自然地用之前的时间相邻帧所产生的异常分数来纠正当前视频帧的异常分数。假设第1帧及其前W帧的异常分数为Sl、Sl−1、···Sl−W，我们提出下面计算修正异常分数Sˆl的一般公式为：

　　其中为非负值权重。是一个归一化因子。有多种方法可以设置权重，例如，可以设置，其中为0<q≤1。当q<1时，认为更接近当前帧的帧对整正更重要。当q=1时，后处理等同于时间处理移动平均。此外，我们还可以设置来得到一个一维高斯或中值滤波器。我们将在以后的实验中比较不同类型的校正策略，结果表明，即使是最简单的分数校正形式，也能产生很好的纠正异常分数。