因素空间从概率论、模糊集走向人工智能---汪培庄

因素空间从概率论、模糊集走向人工智能

(写于2018年春节)

汪 培 庄

 

        戊戌之春,乾坤祥泰,回顾卯戌,因素空间已经成长了36年。或短或长,且苦且乐,能不写一点什么传给朋友和学生么?思想凌乱,点点都存谬误,段段都有空白,只图抛砖引玉,盼君点石成金。笔墨春秋,写一点能留在人工智能史上的东西,方无愧于时代之恩赐也。

(1)人工智能的视野在不确定性

        发射卫星与识别一张照片上的景物相比,谁的智能含金量高?显然前者高于后者。但是,前者不是而后者却是人工智能感兴趣的课题,这是为什么?我们都知道:如果N=1,则信息量I(p)=0, 这里,N是可选择的答案数目。N若等于1,就只有唯一的答案而无需机器进行选择, 此时的概率分布p已不是随机性的了,这个定义规定确定性下的信息量为零。不是说确定的知识不含信息,而是人工智能所计算的范围不包括已经转化成知识的那一部分,它只计算尚未转化成知识的信息。这样,信息量就只能被理解成一种可转化为新知识的信息容量。我们姑且不去评说这样定义信息量是否全面,但起码可以看到信息科学鼻祖们对人工智能所期盼的创新特色,他们把确定性视为信息向知识转化的终点;而起点永远放在不确定的视野里。因素空间的初衷也正是从研究不确定性开始的。

        我1957年在北师大毕业留校。59年大跃进,教育部向北大、北师大等校下达了在我国高校开设概率论课的任务。在严士健先生的带领下,我参加了概率讨论班、编写讲义和开设概率论课的全过程,1960年暑假,教育部在银川举办了西北地区高校教师讲习班,由我讲授概率论。这段经历使我深入思考了随机性和概率的本质,萌发了因素概率论的思想。下面的论述并非我当初的思想原貌,我在最近作了一些提升:

(2)因素概率

        没有无目标的学科,'目标'是个因素,它统领着一个变化值域X(目标)={生存,求知,学习、预测,控制,…},叫性状空间。因素与性状是不同层次的东西,但又是相对的。把生存当做因素再细分,又有X(生存)={衣,食,住,行,…}。因素随着问题的变化而形成层次系统。学科与学科思维中的因素决定了学科和学科思维的内容、意义和方法,因素空间的作用首先是要建立一套因素体系来引领知识大厦的建立。

        若以预测事件的发生为目标,把预测试验当因素f, 叫做'试验',出现了试验空间X(f)={a1,…,an},这里,a1,…,an表示在试验条件下所可能发生的结果,每次试验必有且仅有其中的一个结果发生。

        随机性是由于n>1, 且试验因素不充分而导致的事件发生的不确定性。尽管条件不充分,这不充分的条件也对每个事件都刻下了一个肯定度,何以为证?我们先按古典概率来定义对称性试验因素。

        定义 扔一枚硬币,掷一颗骰子,从装着同形球的袋子中取出一球,…,所有这些具有对称性结果的因素叫做对称性的试验因素。

        我们提出:

        对称性原理 如果其它因素不干扰对称性的话,对称性试验因素保证诸结果之发生必具有相同的肯定度:

P(a1)=…=P(an)=1/n                                (*)

这里的附加条件十分重要,例如掷一枚硬币,尽管钱币性状是两面对称的,但若手的动作(影响结果的一个重要因素)有意地偏向正面,这就破坏了对称性,原理(*)就不能成立。避免干扰的办法很简单:硬币的初始位置必须设计公平。

        定义AX(f)所生成的事件体。由(*)在A上所扩张出来的概率P叫做对称因素f下的概率,简称为因素概率。

现有概率论在应用中没有明确的条件界定。说大坝经得起百年一遇的洪水,这百年一遇的概率是在什么条件下界定的?没有严格界定的概率将会带来不可逆料的风险。因素概率有明确的条件界定,这就是因素f的对称性。

        因素概率实质上是一种逻辑概率,它反映事物间的因果关系,是本质,必然得到频率试验的支持。

现在有人提到主观概率,这并不是一个贬义词,它反映了认识主体的主观能动性,值得研究。因素概率并非主观概率,但却可为它提供逻辑依据。

        因素概率的应用范围并非狭窄,大多数数据都可视为因素概率,这有下一原理:

        数据平权原理。若无特殊假定,一个样本集的所有样本点都是平等的,具有相同的权重。

        什么是特殊假定?假定样本是一组专家的评分,而这组专家的评定水平是不一样的,这时,数据平权原理就不正确。读者会问,特殊情况怎么能假定呢?是,不应假定而需要进行具体的判断,但是情况太复杂,不像前面因素干扰对称性那么简单。我们很难判断一组样本点是否真正平权,只能假定。这不能不说是因素概率理论在运用中的隐患。消除隐患的唯一办法是细致地标明数据的出处、作者、时间、地点、名目等信息。

        若数据平权原理成立,则对于一个大小为n的样本集来说,每个样本点都带着1/n的概率落在因素空间里,在性状空间中形成一个样本分布。值得强调的是,平权的样本点落在性状空间里就不一定再是均匀分布的了,各种各样的分布都成为可能。

        多因素的试验空间则承载了性状的联合分布,由它描绘因素之间的因果关系。

3)因素概率的母体分布

        由样本生成的分布不是真正的概率分布,其中的概率都还带有随机性。只有让样本的个数不断增加,考察样本分布的极限性质,才可以得到真正的概率分布,即母体分布。现有的概率分布都可按此途径重新认证。有些领域,如遥感数据还有许多未知的分布,都可按数据平权的思想用Monte Carlo方法来获取新的分布类型和表达式。

        可以用物理仪器度量的试验因素都以一个实数区间作为试验空间,如果样本分布在此区间中是多峰分布的,便可以结合实际需要按峰分割性状,将试验空间变为离散型,供人工智能进行内涵描述。(这只是硬性分割,至于模糊分割,要等模糊集来进一步完善)。这一工作叫做因素空间的标定,没有标定,因素空间的坐标架子就没有搭起来。

        同类型的概率分布叫做一个型(Style),每个型中带有参数,最重要的参数有两个:一个是样本平均值,一个是样本均方差。这两个参数起两个作用:1. 数据处理的泛化。对所有样本点作线性变换,使这两个参数分别变成01,则同型分布合而为一。这就是图像数据处理中的泛化原理; 2. 以这两个参数为隐参数,在最优化的格式下求解或者迭代,所得到的就是分类和学习中所追寻的关键因素。人工智能说穿了,就是寻找隐藏的因素,隐参量就是隐因素。

4)贝叶斯原理

        用条件概率可以实现逻辑推理,它反映因素之间的关系。因素甲对因素乙有多大的影响,因素乙对因素甲也有多大的影响,因素甲对因素乙没有影响,因素乙对因素甲也没有影响,贝叶斯原理要反映因素之间的这样一种对称关系,其最本质的应用是逆向推理。从条件看目标,因素甲离条件因素近,因素乙离目标因素近,正向推理是演绎,若甲如何如何,则乙如何如何; 逆向推理则是启发, 要想使乙如何如何; 该让甲如何如何?这是因素空间为贝叶斯原理所保留的一个研究空间。现在的贝叶斯原理主要还是用在信息增益和缩小随机性的问题上。

        贝叶斯原理若因素甲对因素乙的条件概率全都知道,当因因素乙取定一个状态时,便可计算出因素甲在乙状态下的条件分布。这个条件分布必定带来信息增益,我们可以用它取代因素甲原有的概率分布,使随机性减小。

        例 U={a,b,c,d,e},其中装的是5个球。考虑两个因素,一个是球号f: f(a)=1, f(b)=2, f(c)=3, f(d)=4, f(e)=5一个是球的颜色g: g(a)=, g(b)=, g(c)=, g(d)=, g(e)=黑。因素g在因素f下的条件分布全都知道:

P(g=|f=1)=1P(g=|f=1)=0

P(g=|f=2)=1P(g=|f=2)=0

P(g=|f=3)=1P(g=|f=3)=0

P(g=|f=4)=0P(g=|f=4)=1

P(g=|f=5)=0P(g=|f=5)=1

        现在对因素g做了一次观察,所得的结果是g(u)=黑。假定因素p是均匀分布,即P(f=i)=1/5,应用贝叶斯公式,我们可以计算出因素fg(u)=黑下的条件分布:

P(f=1|g=)=P(f=1)P(g=|f=1)/Sip(g=|f=i)P(f=i
=(1/5)0/[(0+0+0+1+1)/5]=0

类似地有

P(f=2|g=)=P(f=3|g=)=0, P(f=4|g=)=P(f=5|g=)=1/2

        用此条件分布取代原有的均匀分布,因素f的分布变为(0,0,0,1/2,1/2)如果我们把零概率的结果从试验结果中去掉,便有X(f)={d,e}, 原来N=5, 现在N=2了。这就是随机性向确定性的转化。这样来运用贝叶斯原理有什么意义呢?假定a-e5个嫌疑犯,现在从罪犯车身上找到一个特征:黑色,以此特征来重新求出他们的嫌疑分布,一下子就把嫌疑的圈子缩小了。如果我们把罪犯问题改成购物喜好问题,在网上怎样吸引顾客?怎样在一瞬间抓住顾客特点从众多的商品中推荐几项来抓住他?也可应用同样的原理。

        能否连续地根据证据的落实而迭代地用新的条件分布取代旧分布而将N压缩到1呢?仅就颜色这个因素而言,既然已经查实罪犯u的颜色证据是黑的,就不能改成是白的。若再用黑色作条件,所得的条件分布也不再变化。但若对另一个因素取证,用贝叶斯条件分布便可进一步缩小范围,不难证明,只要因素足够充分,如此迭代可以实现随机性向确定性的转换,直到N=1, 把罪犯捉拿归案。

        概率分布是Shannon信息的研究对象,概率分布有着智能的内涵。有关熵和信息量在因素交互作用的表现方面有一套理论正待深入。鲁晨光在信息优化和假设检验方面的工作使我很感兴趣,他的理论想得很细而且都落实在应用中。

(附)我的概率缘分

        Kolmogorov的基本空间W在概率论中是不加定义的名词,我却专门把W当做因素空间来加以研究。研究的中心是随机性与确定性的相互转化。人工智能现在虽然唱响概率统计和隐马尔科夫过程,但这并不表示概率论能就是新时代的数学突破口。如果是,人工智能早就腾飞了。现在对概率统计的应用还只是在拼计算速度,不惜成本地蛮算,虽然下笔有神,但还有很多内容可以填充。

        我对概率论的研究到1966年中止,文革后在耗散结构理论方面还延续了几年,在庐山(1978)、大连(1979)和西安(1980)三地连续召开的三届全国物理学年会上,我都应邀在大会上作主旨报告,介绍马尔科夫过程在耗散结构理论中的应用。但在这段时期里,我的主攻方向已经转到了模糊数学。

        下面再回顾我用因素空间搞模糊数学的思路:

5)模糊落影理论

        论域U在模糊集理论中是不加定义的名词,我却专门把U当做因素空间来加以研究。研究的中心是模糊性与清晰性的相互转化。

        模糊性是给定概念由于描述因素不充分而导致的边界划分的不确定性。不充分的条件对事物的隶属存在着一定的肯定度,呈现覆盖频率的稳定性。隶属度是广义的排中律。

        用因素空间分别研究随机性和模糊性的结果,发现了两种不确定性之间的对偶性。概率模型是"圈圈固定,点子在变",模糊模型是"点子固定,圈圈在变",这在数学上正好是论域(地)和幂(天)的关系。地上的模糊模型可以转换成为天上的随机模型,这就是我所提出的模糊落影理论。我将序,拓扑和测度三种数学结构提到幂上,建立了多种超拓扑,生成多种超可测结构, 它们在天上形成多种随机集,再按不同方式落到地上而形成多种主观性的非可加测度。其中包括现在流行的四种:信任测度(Belief), 似然测度(Plausibility), 反信任测度(Anti-belief)和反似然测度(Anti-plausibility)。它们的定义很繁难,用随机落影理论来定义却极为简单:

        假设H是在2U上定义的-一个s-域。对于U的任何子集A,记

[A_o={B|Bsubseteq A}, A^o = {B|Asubseteq B}, A_o^c = {B| B otin A_o}, A^{oc}={B|B otin A^o}]

AoAo分别叫做A的滤和理想)

        定义p是在H上的概率,记

$$mu_{BL}(A)=p(A_o), mu_{PL}(A)=p(A^o), $$

$$mu_{ABL}(A) = 1- p(A_o), mu_{APL}(A) = 1- p(A^o), (A in 2^U),  (**)$$ 

它们分别被称为2U上的信任、似然、反信任和反似然测度。

        不难验证,它们都不再具有概率的可加性;它们被称为非可加性测度,是主观性度量的特产。模糊测度也被包括在其中,是一种反似然测度。

        模糊落影理论不仅给四种非可加测度给出了简明的定义,而且还对每一种测度,证明了在天上存在着唯一确定的概率分布来实现对这种测度的落成。

        落影基本定理任意给定一种非可加性测度m (属于BLPLABLAPL),在H上必有且只有一个概率p,使下落关系(**)得以成立。

        没有这个存在唯一性定理,模糊集合论和Dwmpster—Shafer的证据理论在实际应用中都失去了坚固的基础。这一定理的证明难度很大,要将测度扩张定理中的扩张起点从半环前移到交系。这一研究成果是为带博士研究生而写的,所有成果都集中在北师大出版社1985年出版的"模糊集与随机集落影"一书中,为1988年在模糊推理机的国际竞争中领先作了充分的理论准备。但遗憾的是,由于后来忙于模糊计算机的研制,所有理论成果都来不及整理和向国外发表。

(6)模糊数学的型、式、表

        直到现在为止,模糊数学都没有做到像概率论那样有型有式有表。型就是概率分布的类型,如二项分布,普瓦松分布,正态分布等,式是指这些分布的数学表达式,表是供人按概率精度来查置信限的表格。这些工作在模糊数学中都没有。所以,我们对社会的服务是不到家的。因素空间是模糊集理论的深化方向。这一套工作必须用模糊落影理论,必须用这一理论来指导和普及区间统计。

        天地的关系是幂与集的关系。地上有n个元素, 天上就有2的n次方那么多个元素。统计起来困难极大。解决问题的诀窍是考虑背景幂。什么是背景幂?设U=[0,1], 我们不考虑U的一切子集,我们只考虑U 的一切子区间:

[P_I([0,1])={Ain I| Asubseteq [0,1]}.]

这里 I表示由区间构成的集合,叫做背景。背景幂把幂限制在背景里。这样的限制在实际中是把集值统计限制为区间统计。当初张南纶调查"青年"这一模糊概念时用的就是区间统计,是合理的。这一限制就大大节约了统计量。让我们看一个例子:

         U={a,b,c,d,e,f,g} P(U) 包含256个子集,但若限制成连字,则

|PI(U)|=1+8+7+6+5+4+3+2+1=73

加上空连字,只有74个元素。若把总量为1的概率分配在以下5个连字上:

cde 0.4 bcde 0.2 dcf o.2 bcdef 0.2

则此随机连字在U上的模糊落影是

0 0.4 0.8 1 1 0.4 0
a   b    c   d  e   f  g

这就是随机集落影的简单模型。

        在以区间为背景幂的简化下,实数域上隶属曲线只取决于区间左右端点这两个随机变量的变化。如图所示,隶属曲线的左右两端正是随机区间左右两端点分布密度的左右分布函数。

        如果我们把隶属曲线分成两半,只关心隶属曲线的尾部,就可以把隶属曲线与随机变量的分布函数等同起来。不难证明下面的定理:

        隶属曲线与概率分布函数转换定理 隶属曲线左(右)尾的表达式等于随机区间左右端点分布密度的左(右)分布函数。

根据这一定理,便可借助概率密度而定出隶属曲线的尾型。主要有以下三种:

  1. 负幂型隶属曲尾  若分布密度是隶属曲线左(右)尾的分布密度是

(p(x)=q/(x-a)2} (x<a) (x>a)

则隶属函数的左()尾表达式是

m(x)=c/(a-x) (-c<x<a-1/c )

(m(x)=c/(x-a) (a+1/c<x<c ))

        2. 负指数型隶属曲尾 若分布密度是隶属曲线左()尾的分布密度是

p(x)=e-q(a-x) (x<a)

(p(x)=e-q(x-a) (x>a))

则隶属函数的左()尾表达式是

m(x)=cq(e-q(a-x)-1) (-1/e<x<a-e)

(m(x)=cq(e-q(a-x)-1) (a+e<x<1/ec=1/q(e-qe-1))

        3. 对数型隶属曲尾 若分布密度是隶属曲线左()尾的分布密度是

p(x)=q/(a-x) (x<a)
(p(x)=q/(x-a) (x>a))

则隶属函数的左()尾表达式是

m(x)=c(lnq(1/e)-lnq(a-x)) (-1/e<x<a-e)  c=-1/2lne

(m(x)=c(lnq(x-a)-lnq(1/e)) (a+e<x<1/e)  c=1/2lne)

负指数型/对数型应当成为模糊分布的常态。

        逻辑回归就是负指数/对数型的隶属曲线:

        设L={xk=(xk1,…,xkn; yk)}(k=1,…,K)是一组平权的医学数据,数据xk1,…,xkn代表第看k个测试者的n种病理因素指标; yk=1(有某病)0(无某病)。每个数据带着1/K的概率落在Rn的一个超矩阵中,我们把这个矩阵等分为若干个格子,记fi1in为落入以i1,…in为足码的格子中有病样本点与落入样本个数之比(即频率),省略写成fi。在医学上把fi/(1-fi)叫做似然比。在此请注意,对似然比取对数,令yi=lnfi/(1-fi),它在n维格子点上变化。我们要用一n维超平面来拟合它:

        设y=q1x1+…+qnxn-a=qx-a

(q1,…,qn;a)=Argmin(y-yi)2.

容易证明,所得的拟合隶属曲面的方程是

m(x)= eqx-a /(eqx-a +1)

m(x)叫做逻辑回归隶属曲面(也可叫对数回归隶属曲面),搞隶属回归的目的是要根据隐参数q1=(q1,…,qn)各个分量的大小来判断哪些病理因素重要哪些不重要。对数回归是第一个但却尚未被公认的隶属曲面的型(它比我在本文中提出的型早),不被公认的原因是提出和应用者多非搞模糊的人士,他们没有把这种拟合曲面归入模糊隶属曲面,但他们却一致强调,涉及到概念的是非判断时应该用此曲面,这其实就是隶属曲面的特征。逻辑回归函数就是某类概念在特定性状空间上的隶属函数。

        模糊数学有了自己的典型分布,就不难建立相应的表格供人查找模糊推理的置信限。老外写文章已经用两限成风,一个是概率判断犯第一种错误的置信限,有根有据,另一个是信度限,指模糊判断的底线,但缺少根据。能否做到有型、有式、有表,这是模糊数学走向成熟的标志。希望国内青年学子发扬工匠精神,扎扎实实地做好此事。

7)郭嗣琮评分数系

        模糊集在人工智能中应用的一个重要方面是打分。数据分为两种类型:物理测量的数据和人脑加工过的数据。后者主要是专家打分,它是人脑的决策过程,包含着模糊性,需要用模糊数学。

        物理测量数据都有计量单位,如厘米、克、秒、元等,打分的计量单位就是分,它代表着各种各样的度。单因素的评分空间是区间$[0,1]$,每次打分是$[0,1]$中的一个模糊数。多因素的评分空间是$[0,1]^n$是$n$个模糊数在权重上的加权综合。这就需要对模糊数的运算和综合建立一个数学系统。叫做评分系统。

        关于模糊数的运算,郭嗣琮的结构元理论对模糊数做出了重要贡献。按照他的理论,固定一个三角模糊数$E$称为结构元。任何一个模糊数$A$, 都存在唯一的单调函数$f$, 使有

$$A(x)=f(E(x))=E(f^{-1}(x)).$$

        根据郭嗣琮的理论,我们将结构元$E$固定为在支集$[-1,1]$上取值$E(-1)=0$,$E(0)=1$,$E(1)=0$的三角模糊数。又固定一类单调函数簇

$f_a(y)=a+0.ay$, $(0<y<+infty; 0<a<+infty)$, 这里,$0.a=a/10$. 由这簇单调函数就在$R^+=(0,+infty)$上由$E$生成了一个模糊数系 

[(N)=N(0,+infty)={[a]=f_a(E)|0<a<+infty}={a+0.aE|0<a<+infty}] 

其中每个模糊数$[a]$是一个三角模糊数,中心是实数$a$,半径是$0.a$。这个数系中的任意两个数可以相加:

[[a]+[b]=[a+b]=(a+b)+0.(a+b)E.]

当$b<a$, 还可以做模糊数的减法:

[[a]-[b]=[a-b]=(a-b)+0.(a-b)E.]

        模糊评价的分数域是程度集合,应该是$(0,1]$。但是按照主观性测度和隶属度类型的要求,最好是负对数/指数型。假如$xin (0,1]$代表评分值,令$y=-ln x$,亦即$x=e^{-y}$,$y$的值域正好在前面所说的值域$(0,+infty)$中变化。我们所需要的评分模糊数系是$N=N(0,1]$, 它可以由前面的数系$(N)$来定义:

[N={[x]|ln{f_{ln x}(E)in (N)}}.]

或者,

[N={[e^{-y}]|[y]in(N)}]

从单因素评分到综合评判是一个加权的过程。给定权重$w_1,ldots,w_n$,先在($N$)中对评分$[y_1],cdots,[y_n]$加权,得到

$$[b]=[w_1y_1+cdots+w_ny_n,]$$

再回到系统$N$, 得到

$$b^*=[x_1^{w_1},cdots, x_n^{w_n}]$$

 

        郭嗣琮评分系统强调了下面的原则:

        评分综合原则主观性评分综合,几何平均优于算术平均,指数加权优于算术加权。

这一原则的道理很深刻。现在直觉模糊集、犹豫模糊集所用的评分决策就是用的这一原则,鲁晨光在投资组合中也强调这一原则。在数学上,它体现了值域的切换,在$[0,1]$区间上,两个小数点挤在一起作比较或运算,分辨率差,通过负对数变换,在$R^+$上,分辨率就大大提高了。

        下面再继续回顾我们用因素空间搞数据科学和人工智能的要点。

8)因素空间为人工智能而生

        因素空间的思想虽然在60年代就萌生了,但在1982年才发表第一篇正式文章。当时是为模糊数学而写的。但是,我的目标是用数学搞人工智能。我搞模糊数学的原因就是因为模糊数学能把数学引向人工智能。我写"模糊集合论及其应用"一书前后用了三年时间(1979-1982, 83年才在上海科技出版社出版),花了那样长的时间,就是为了从当时纷乱的局面中理出一条用模糊集描写智能之路。

        我总说1982年是不平凡的一年,因为在这一年形式概念分析,粗糙集和蔡文教授的开拓学都同时问世。和以往的数学分支不一样,这几个学派都明白的声称要以知识和智能描述为己任。这似乎可以被视为智能数学的关键之年。但是欧阳合博士告诉我,以范畴理论为工具的Topos 理论更早更深刻地宣照了智能描述的宏图。我在1980年曽发表过一篇模糊集范畴的文章,并没有真正搞懂范畴理论的深刻内涵,欧阳的介绍很具吸引力。Topos将成为我要朝拜的下一个景点。在范畴理论方面,邹开其教授是行家,袁学海教授的学生毕业论文就是因素空间与Topos关系探讨。

        粗糙集的创始人也是KDD(知识数据发现)的倡导者,他们有明确的应用背景和目标。走得最早最好,理所当然地成为关系数据库的数学基础。我是2012年到了辽宁工程技术大学,在成立智能工程与数学研究院之后才开始关注数据科学的。形式概念分析和粗糙集的成就使我惊叹不已。由于目标的一致性,他们的概念和表格与因素空间如此相似。但是我发现他们虽涉足了因素,却没有深入到因素空间的核心,做到浅层就随现象飘散了。我认为三者是一致的,但深度不同。因素空间能说清楚他们所有的问题,比他们看得更深,叙述得更简单,运算得更快,因素空间能为粗糙集的样本提供母体理论的分析空间。当然,我所比较的不是词汇、花样与名目。比较的核心是如何描述智能。

        2012年以前发表的因素空间的文章,涉及了智能描述的一般性问题。主要是想为模糊计算机的设计提供一些数学构想。其中最珍贵的是李洪兴教授关于概念内外夹逼和变权综合决策的一系列文章(包括许多合作者)。决策的深度已经到了方程和参数控制的程度。刘增良教授关于因素神经网络的书是一本具有前瞻性和概括性的著作,解决了因素空间的学习和应用落实的问题。值得提及的是:洪兴近年来一直忙于四级倒摆控制和相关更本质的数学定理。控制理论是因素空间的实践基础,先后除张洪敏、洪兴和增良以外,陈永义教授、何平教授和彭先图、张志明、张大志、张星虎、李晓忠、吴植翘等学者都做过不可磨灭的贡献。

 (9)因素库的基本理论

        2012年以后的因素空间论文,建立了因素库理论的初步框架,主要是:

        1. 因素数据库。以因素空间$(U, X_F)$为知识单元,根据任务在论域$U$上确定因素集合$F$, 进行概念生成和因果推理两种思维运算,并随时根据任务约简因素。在这两种算法的基础上建立思维各个环节(分类、识别、预测、评价、决策、行为、控制)的答问系统,回答一切属于本知识单元的智能问题。

        2. 因素藤。将不同知识单元链接成网,形成与知识、脑记忆同构的因素神经网络。它是因素神经网络发展的目标。

    因素神经网络的核心是要在各个单元中培育出背景关系或背景分布,由它决定了概念生成、因果推理和本单元的一切知识。背景分布的培植过程就是因素性状样本(除去对象,无关隐私)的叠加过程,可以分布式地进行。由此突出了数据在因素库中的地位,数据是培植的对象和主体。

        3. 因素神经网络要能实时地处理大数据,关键是背景基的提取。背景基是背景分布的无信息损失的压缩,具有核心的研究价值。现在我们只有刘海涛等所提的内点判别式是一个近似公式,本质上还是一个开问题。汪华东建议参考支持向量机的对偶理论,我感到支持向量机的数学思想比我想的深刻,与之相比,因素空间的理论还需要拔高。

        4. 包延科老师对因素空间的定义有新的提法,特别是他提出的莫比乌斯对称性很值得研究。

        5. 石勇教授将因素空间作为中科院大数据实验室的数学理论基础;金智新教授、郭嗣琮教授建立了煤矿安全因素空间理论和实用系统;王犀、郑宏杰总工建立了以因素空间为基础的金融推理软件;黄崇福教授提出的智联网以因素空间为数学基础,他的学生郭君尝试建立了一个因素空间智联网;曾繁慧教授和程奇峰博士和包延科老师指导的研究生写出了多篇理论和应用论文,其中,将因素空间成功应用于心血疾病的防治系统;刘增良教授的学生曲国华博士对因素空间理论和应用也有颇具新意的工作。钟育彬教授的研究生将因素空间用于图像识别。

 (10)怎样寻找隐藏的关键因素?

        已有的这些文章都是在有了关键因素以后如何生成概念,如何归纳出因果律以进行推理,如何学习、评价和决策的问题。但现实最需要回答的迫切问题却是怎样寻找解决问题所需要的关键因素?

        图像识别,每个像素就是一个因素,一张图若有$256 imes 256$个像素,就有$256 imes 256$个因素。这么多的因素都不是识别图像的关键,关键的因素是特征,特征是特殊的一类因素,它们是隐藏着的。我们要把隐藏的关键因素显明出来,叫做隐因素化显。

我们把隐因素设为参数,隐因素的化显就是对隐参数进行优化求解,这是寻找隐因素的主要思路。

        决策是对诸备择方案的一种选择。有四个最重要的因素,第一是目标,由它引出语用信息,第二是环境和条件,由它提供语法信息,弟三是行动,它的性状空间就是决策方案,第四个因素是反馈或监督,它的性状是对行动的评价(打分),引导行动朝向目标。

        决策模型与学习模型是相通的。如果把决策因素改为学习的结果,决策模型就变成了学习模型。打分就变成了监督,不打分就是无监督学习。反之,把学习结论改成决策因素,学习模型就变成了决策模型。决策与分类模型的相互转化也是这样。决策模型与分类、预测、控制、搜索等模型的相互转化也亦复如是。所以,决策模型是思维过程的一个通例。

        决策过程的最简单形态是隐参数的优化,此时优化求解的过程与第四因素无关。第四因素起作用是当最优解无法用公式表达出来,优化变为一个过程。用因素空间来定义决策模型如下:

        1 优化决策模型

        在目标函数中设立隐参数向量,如果这个参数向量所表达的是连接语法和语用的语义信息,则决策问题就是对目标函数球极值,所解得的参数向量就是决策的结果。这个过程叫做因素的显化过程。决策过程就是寻找隐因素的过程。

        2 因素决策过程

        定义决策过程是一个三元组$(F, A,d_{t(t=1,2,cdots)}, e)$, 其中,条件因素$F$提供语法性状空间$X_F$,行动因素$A$提供行动方案集$X(A)={a_1,ldots,a_n}$,对每一时刻$t, d_t:X_F ightarrow X(A)$, 是决策者在时刻$t$的行动,$D={d|d:X_F ightarrow X(A)}=X(A)^{X_F}$ 是一切行动的集合,$e: D ightarrow D$是反馈因素对行动的调整。

        这个一般性模型能否简化?它与优化模型怎样统一?下面要给出一个简化的统一模型。统一的焦点是:决策就是加权!设$F={f_1,ldots, f_n}$是语法因素集。${f{w}} = {w_1,ldots, w_n}$叫做$F-$权重,如果$w_igeq 0, w_1+ldots+w_n=1$。${f{w}}={w_1,ldots, w_k}$叫做有序化的,如果$w_1geq ldots geq w_k$且$w_{k+1}=ldots=w_n=0$。当$k<n$时,有序化的权重就降维。

        3 权重决策过程

    决策过程是一个权重确定的随机过程。最简单的,一个权重马尔科夫过程。

        定义一个权重马尔科夫过程是一个三元组$(W,D,E)$, 其中$W$是$F-$因素有序化权重的排序集。$D$是一个从$W$到$W$的转移概率矩阵,$E$是对$D$元素的评分矩阵。$D_t$随着评分修正而变,当$t$增大时,如果$D_t$趋向稳定,其稳定分布决定一个权重 $f{w}$,它就是决策过程的解,由它可直接或间接地求得行动方案。

       深度学习是以寻找隐因素为目的的神经网络,因素神经网路是以因素为节点、具有学习功能的神经网络。二者有密切的联系。刘增良教授正在探讨这方面的奥秘,打开深度学习的黑箱。

原文地址:https://www.cnblogs.com/huadongw/p/8486555.html