Computer Science

Computer Vision - Introduction

初探计算机视觉

CV在AI领域的地位

视觉相当于人脑的大门，是人类感知外界世界的最主要途径。该生理构造决定真实世界中的信息主要以视觉信息为主。所以，如果不能处理视觉信息的话，整个AI领域就几乎无法研究真实的世界。而作为AI领域中的子领域，CV就承担着处理视觉信息的任务。其地位不言而喻。

视觉，它相当于说芝麻开门。大门就在这里面，这个门打不开, 就没法研究真实世界的人工智能。

CV与ML的关系

CV是一个领域，下辖很多子问题，就像物理学。而ML基本是一个方法和工具，就像数学和统计学。所以，ML这种方法可以运用到CV这个领域中，二者并不是并列关系。

机器学习中的 “机器”就是统计模型，“学习”就是用数据来拟合模型。是由做计算机的人抢占了统计人的理论和方法，然后，应用到视觉、语音语言等 domains。

学习搞来搞去，最丰富的数据是在视觉（图像和视频）。现在这次机器学习的一些大的动作和工程上的推广工作，还是从计算机视觉这边开始的。

计算机视觉的发展太工程化、功利化了，逐步脱离了科学的范畴。这是短视和危险的。最近又受到机器学习来的冲击。

CV的三个源头

神经科学家：David Marr : 学科开创者

CV的三个层次：表达、算法、实践

表达：是什么问题？想要得到什么答案？

在表达的层次，我们问一下这是个什么问题呢？如何把它写成一个数学问题。任务是什么？输出是什么？这是独立于解决问题的方法的。

算法：解决问题时使用什么算法？

对这个数学问题去求解时，可以选择不同的算法，可以并行或者串行。

实践：一个算法如何在硬件上实现？

一个算法如何在硬件上实现，可以用CPU，DSP，或者神经网络来实现。

CV的分析体系：整体的语义解释

理清视觉到底要计算什么。Marr提出了一个系列的表达，从primal sketch（首要简约图），到2 ½ D sketch（深度简约图），到3D sketch。这里面还包含了纹理、立体视觉、运动分析、表面形状、等等。比如说我要估计一个物体的深度和形状，我就估计它的光照，和物理材料特性；还有，三维几何形状怎么去表达？他试图去建立一个完整的体系。

现在的视觉就基本上被很多人错误地看成一个分类问题，你给我一张图像，我说这个图像里有一只狗或者没有狗，狗在哪儿都不知道。头在哪？脚在哪？不知道。Marr框架是有秩序的，现在的秩序在做深度学习的人眼中还不存在，或者没有忙过来。各人做各人的分类问题，比如说有人算这个动物分类，有的人算这个家具的分类。各种分类以后，他们之间怎么样的关系呢？要对这个图像或者场景要产生一个整体的语义解释。

CV的本质：“计算”的过程

我们以前用贝叶斯方法（以及现在的深度网络）认为视觉就是表达成为一个后验概率，寻求一个最优解。这个解就是图像的解释。这个求解过程就会终止。可是Marr说的这个事情，它不是单纯去求一个解，而是一个连续不断的计算过程。我给你一张图像，你越看、越琢磨，你可能看到的东西会越多。

视觉是受任务驱动的。而任务是时刻在改变之中。……如果说人工智能往前发展机器人，要从机器人的角度来用视觉的话，那么它就有很多不同的任务。我现在做饭，我在打球，我在欣赏风景，这个时候我看到的东西是完全不一样的。我怎么样通过这千千万万的任务，而不是简单一个分类，来驱动我的计算的过程，来找到我的需求，来支持我目前的任务。……研究视觉要从一个agent（执行者）的角度，带着任务进来的这么一个人或机器人，主动地去激发视觉

计算机科学家：傅京孫(King-Sun Fu): 理论践行者

学科和学会的建设，工程师培养

他和其他人于1973年组织了第一届国际模式识别会议（ICPR），并担任主席。会议后来演变成国际模式识别学会IAPR，在1976年成立，并被选为其主席。他重组了另外一个IEEE学会下面的模式识别委员会，并于1974年成为其第一任主席，创办了IEEE模式分析和机器智能（PAMI）会刊，并于1978年担任第一任总编。这是目前计算机视觉和相关领域最权威的一本期刊了。很多中国学生现在不知道，这个领域的老大本来是华人。目前，国际模式识别学会IAPR设立了一个傅京孫奖，作为终身成就奖，是模式识别的最高荣誉。

据说他的实验室是一个Chinatown。1978年中国打开国门，中国最早的一批中科院的计算机人员都到他那里进修，在普渡。所以他对中国计算机的发展，可以说是一个贡献非常巨大的人。

句法模式识别(Syntactic Pattern Recognition)

我们这个世界的模式，一个最基本的组织原则是composition。一张图像就像语言、句子符合语法结构，视频中的一个事件也有语法结构。寻找一个层次化、结构化的解释是计算视觉的核心问题。

Marr计算过程的表达 : 形式语言

语法结构对计算过程有了规范和表达的途路。……这个表达支撑了自底向上或自顶向下的计算的过程。

数学家：Ulf Grenander: 数学奠基者

模式分析的基础 : 数理模型

当你要去识别、分析一个模式，比如一个动物，人脸，一个事件，你首先要建立一个数理模型，这个模型通过随机数据来拟合，也就是当前的机器学习。

建模的理论和方法

一整套建模的理论和方法。把代数、几何、概率整合起来。

一些算法

很多蒙特卡洛算法都是他和这个学派的人提出来的。

Wiki - Computer Vision

Definition

Dealing with how computers can be made for gaining high-level understanding from digital images or videos
Seeking to automate tasks that human visual system can do

Typical Tasks

acquiring, processing, analyzing and understanding digital images
extraction of high-dimensional data from real world in order to produce numerical or symbolic information

Recogntion

Object recognition
Identification
Detection

Motion analysis

Egomotion : Understanding the motion of itself. The estimation of egomotion is important in autonomous robot navigation applications.
Tracking
Optical flow ：the pattern of apparent motion of objects, surfaces and edges in a visual scene caused by the relative motion between an observer and a scene.

Scene reconstruction

Computing a 3D model of the scene by some images or videos

Image restoration

The aim is the removal of noise from images.

Applications

Recogntion

Content-based image retrieval
Pose estimation : estimating the position or orientation of an object
Optical character recogniton(OCR)
2D Code reading : such as data matrix and QR codes
Facial recognition
Shape recognition technology(SRT) : like people counter system

Computer Science

Computer Vision - Introduction

初探计算机视觉

CV在AI领域的地位

CV与ML的关系

CV的三个源头

神经科学家：David Marr : 学科开创者

CV的三个层次 ：表达、算法、实践

CV的分析体系 ：整体的语义解释

CV的本质 ：“计算”的过程

计算机科学家：傅京孫(King-Sun Fu): 理论践行者

学科和学会的建设，工程师培养

句法模式识别(Syntactic Pattern Recognition)

Marr计算过程的表达 : 形式语言

数学家：Ulf Grenander: 数学奠基者

模式分析的基础 : 数理模型

建模的理论和方法

一些算法

Wiki - Computer Vision

Definition

Typical Tasks

Recogntion

Motion analysis

Scene reconstruction

Image restoration

Applications

Recogntion

CV的三个层次：表达、算法、实践

CV的分析体系：整体的语义解释

CV的本质：“计算”的过程