大数据的未来--个人信息/情报/认知服务的思考

1.未来大数据的一切都都关于人

　　...不论述

2.大数据收集困难和高风险

现在的大数据的来源，都是通过自有平台收集用户数据的，对于没有平台的企业很难有机制和渠道获取稳定的数据来源，

有说通过法律和制度来，规范关于人的大数据使用，在这之前，唯一可行的方向是，把用户大数据使用，做成服务的必选功能，要使用服务，必须接受隐私风险。

3.对大数据的利用方式

现在的大数据都是由各种数据聚合出一类关于人的结论然后拿给企业使用
我想大数据应用还有另一类
利用网上的大数据，告诉某类人、甚至某个人，世界发生着什么，未来要发生什么

4.科幻大片

如果从网上下载一个专属的虚拟人物(虚拟机器人/虚拟助理/终生人工智能伴侣）到手机
刚开始这个角色需要你教导（配置，类似早期的语音识别控制的学习阶段）才能帮你在互联网上你做一些简单的事情，
随着你教导的更多更好（对你的习惯，兴趣爱好，思维模式，接收度等信息的收集）和基于大数据的挖掘和分析能力的增加，它的智力越来越高，能做一些更复杂的任务（作为入口，代表你在互联网活动），
直到很多年后，它的智力超过你，它能告诉你，世界发生着什么，未来要发生什么，它了解你的年龄，了解的行为习惯，了解你的经济能力，了解你缺点，时刻为你服务，扩展你的人生，使你的人生不局限于经验（网上有），思维（网上有），能更好的生活下去（帮你发现机会）。

类似的东西，后来才发现微软小冰二代已经在着手做了，可能愿景和目的不一样，但轮廓有了。

5.认知需求

我们成长的时候，家长常常说“你懂点事吧”，但如何“懂事”没有人能教给我们，也没有告诉我们如何去做（去阅读书籍，去体验生活，经历人生）；

我们毕业了，工作了，在社会上依然遇到，“各种成功学大师”，“各种领域专家”，“各种百家讲坛老师”，“各种转世神棍”，大行其道；

这一切都是因为，人有认知的需求。

6.认知培训

基于这个需求，“认知服务”即使做不到自动，就算做人工服务，也能在现在的教育市场（学校，兴趣培训，英语培训，等技能培训）杀出一条出路

7.认知模式与三分的认知世界

莱考夫(George Lakoff)在 [女人、火和危险的事物]（[Women fire and dangerous things]）一书中，
认为理念化的认知模式（idealized cognitive models 简称ICMs）是结构复杂的感知整体，是对世界的整体表征，它的价值在于对输入信息进行重组。ICMs并不客观存在的，而是人类实践和经验的高度概括和总结，并且可以为以后的实践提供参考。根据lakoff的论述，IMCs有四种：命题模式，意向图式模式，隐喻模式和转喻模式，它们的关系如下：

命题模式是出发点和归宿，意象图式模式是基础，转喻模式和隐喻模式是建立在命题模式和意象图式模式上的认知事物的过程和方式，并且二者相互作用。

任一认知主体的认知世界整体可以划分为三个部分：“信念世界”、“怀疑世界”和“无知世界”。我们用Wb表示信念世界，Wd表示怀疑世界，Wu表示无知世界。Wb、Wd、Wu是三个命题集合，他们的元素是相应的认知命题。简单地说，信念世界是由认知主体相信的命题构成，这些命题构成认知主体的信念；怀疑世界里的所有命题是认知世界说怀疑的，认知主体认为这些命题是“假的”或“不可能的”，这些命题可称为“疑点”；认知主体从来没有“考虑”过的命题构成无知世界的内容，这些命题（以及它们的负命题）或者仍没有进入认知主体的视野之中，或者虽然进入了认知主体的视野之中但认知主体不知道其意义，此时，认知主体对之既不相信又不怀疑，这些命题可称之为“盲点”。

8.认知互联网世界进而认知现实世界

互联网世界一直是现实世界的映射，越来越多的现实世界事物在互联网世界建立了数字化的映射,大数据的未来，就是通过这些大数据分析现实世界发生了什么，未来要发生什么，有可能到那时，数据获取能力的不平等将取代资本，脑力，智慧的不平等。

9.包装的产品---认知的世界+个性数据=具有类似主人人格的终生人工智能伴侣

10.通过逻辑推理认知世界--亚里士多德的三段论

亚里士多德给出的经典的“Barbara”三段论：

如果所有人（M）都是必死的（P），（大前提）
并且所有希腊人（S）都是人（M），（小前提）
那么所有希腊人（S）都是必死的（P）。（结论）
如，

所有人都是必死的。（普遍原理）
苏格拉底是人。（特殊陈述）
苏格拉底是必死的。[把特殊（小）代换入一般（大）]
又如，

法律规定这种行为要负法律责任，

他/她做出了法律规定的这种行为

他/她要负这个法律责任”

从上面可看出，三段论由三个部分组成：大前提、小前提和结论，它在逻辑上是从大前提和小前提得出来的。大前提是一般性的原则。小前提是一个特殊陈述。在逻辑上，结论是从应用大前提于小前提之上得到的。

与之相对的是隐喻，
草（P）会死（M）.
人（S）会死（M）.
人（S）是草（P）.
这是另一种形式的三段论，是逻辑谬论：这种形式的三段论是逻辑上无效的，但即使是这种逻辑上无效推理，也是人工智慧的表现。

要取得认知互联网世界的能力，可以从哲学获得理论支持，例如从“三段论”和“三分的认知世界”，

我们利用有限个的”大前提集合[命题集合]“组成”初始的信念世界“，大前提，小前提，对应[意象图式模式] 逻辑推导是“命题模式”，最终的结果是“命题被认为是真的，继而加入“信念世界”。

利用隐喻[信念世界中存在的命题集合+新的命题]，推导出“怀疑世界”，那么剩下的就是“无知世界”，对于这个世界，随着现实世界的数字化程度越来越高，互联网世界对现实世界的映射会越来越完整，“无知世界”会越来越小。

比如，

水果是可以吃的[ 信念世界存在的命题]

苹果是水果[ 信念世界存在的命题]

苹果是可以吃的[要认知的命题]->[加入信念世界]

苹果是可以吃的[信念世界存在的命题]

苹果是红色的[信念世界存在的命题]

西红柿是红色的[隐喻]

西红柿是可以吃的[要认知的命题]->[加入怀疑世界]

11.需要什么机制和技术

不需要建立自有资料库，只需要有结论和认知过程

需要有情报收集的能力（与各个情报来源建立通道，能识别相同情报）

需要有对情报的认知能力（归类，推到，三个世界的命题集合）

xuybin：标题很大，内容不成体系，纯属思考笔记，若转载注明出处http://www.cnblogs.com/xuybin/p/3966022.html

12.云计算+大数据+数据挖掘+认知能力+学习机制

需要多久才能成长出为1个2~3岁儿童的智能，它的极限是那？

13.分词--词性标注--语言理解--信念世界--逻辑推理--怀疑世界--互联网学习回馈确认机制-大数据级别的认知世界（人类记忆）--认知能力

只要求认知水果这类事物，甚至是水果中的苹果这个事物，需要多久，多深的技术，多大的投入？

14.与搜索引擎技术的区别

搜索引擎的目的是进行相关度排序，面对的是一个整体的互联网数据；认知服务通过互联网对现实世界进行认知，被认知的对象本身就是可以分类的，且数量是有限的。可以说从出发点上，认知服务比搜索站在更高一个层次。

15.与百度大脑、谷歌大脑、等人工智能的区别

传统的人工智能是，通过“神经网络”，“机器学习” “深度学习”等技术和理论，实现像人类大脑一样思考,像人类大脑一样学习。

目标是，从源头、原理、数学理论上突破，取得彻底的普遍的人工智能大脑，在实施的过程中不断把新的发现，新的方法应用于它们现有的产品中去，提前为人类服务（但也许会像语音识别技术一样走入语义识别这样的歧途）。

认知服务的目标是，收集互联网的信息，通过认知后，得出现实世界发生的什么（首先要解决这个世界是什么样的？），认知的过程是手段，

在当前人工智能发展不成熟的阶段，该手段可以不完美，认知出的结果，可以是不正确的，偏执的，神经质的，甚至是反人类的，只要有一套认知机制

结合包装的产品（游戏、娱乐），现阶段还是有市场的（看看微软小冰的轰动和反响），产品占领市场后，可以慢慢的改进认知手段。

补充：引用19节的观点“技术的有效性要比科学的完整性更重要”

16.认知服务的价值--技术价值，个人/社会价值，商业/产品价值

了解技术深度，广度，积累技术壁垒，程序化认知模式，和认知过程

扩展个人的生活领域，“无知世界”缩小，程序化认知模式，和认知过程中，提高自己的认知水平

核心技术，跨界，适合任意包装产品，作为终生人工伴侣，和人的关系密切，可以形成收集个人数据并利用的闭环。

2014-9-12更新

17.虚拟客服产品--低层次的分词，分类知识库[特定领域和行业]

我今天看到一个厂家做的东西，他们已经做了10年，还是在底层打转，申请了一些专利，但应用也只做到虚拟客服这个阶段，

它的名字叫做“小i机器人”，它的解决方案、产品服务，
可以认为是具有认知服务的壳，做的是传统知识库问答的事，貌似存活得很好，而且获得了以下6个专利：

一种实现网页自动客户服务的方法和装置
一种对分享信息进行相应操作的方法、装置和设备
一种用于进行语音识别的方法、装置和设备
一种基于人工智能的知识问答快速处理系统
一种客服系统及客服信息推送方法
一种实现自动应答的系统及方法

其中第三个专利，2013年被苹果申诉无效[因为Sir,不过该专利真心没有价值，只是把语音识别的一般过程+后端知识数据库结合一下就是一个专利，这还有活路吗]，但没有成功，2014年苹果把专利局和该公司一起告上法院，一审宣判败诉，现在等待二审。

2014-9-15更新

18.未来的操作系统--智能和个性化的裸机平台

百度百科上关于“操作系统”的解释

操作系统（英语：Operating System，简称OS）是管理和控制计算机硬件与软件资源的计算机程序，是直接运行在“裸机”上的最基本的系统软件，任何其他软件都必须在操作系统的支持下才能运行

未来操作系统可能不再是一个呆傻、被动的运行媒介（除了自身更新），

可能是一个集成全天候待命（无关机动作，即时唤醒）、自主决策（自动更新，发起和管理任务，硬件故障诊断）、智能交互（语音,图像、传感器交互）、认知服务一系列功能的集合体，直到有一天“电脑”媲美“人脑”时，就不需要操作系统了，只需要“终生智能人工伴侣”。

在这2个阶段，你都不需要知道硬盘，CPU、内存这些概念，你面对的就是一个能够为你提供服务的虚拟角色，有一天基于ta在网上获取的最新认知[ta的组成硬件过时了]，和你自身的经济条件或预算，ta建议你升级硬件或者ta直接在电商下单，要求工作人员上门来进行更换服务。

这一切很遥远，我也没法验证，但如果是这样的话，那么“让计算机认知互联网世界，进而理解人的世界，更具人性化，个性化”是变革的第一步。

19.大数据时代的认知计算--中国工程院院士李德毅

今天发现一篇2013年11月的文章，原来“科学家”早就看到了该问题，也许有企业正在做。

感概，这个时代，那个行业那个领域都饱和了，更别提一个想法（曾经被千万个人想到过）了，重要的是做，去做你没有做过的，别人没有做好的。

有时候，就当看看热闹，看得懂，也不错。

http://www.csdn.net/article/2013-11-13/2817475-MDCC-Big-Data-Cognitive-Computing

这篇文章很长，自己总结以下几点：

认知可不可以计算？这是个严肃的问题，科学界争论了几十年，作者认为，是可以的，至少部分可以。

科学是技术的先导，这句话不再是绝对的，随着IT技术的发展，技术也可以成为科学的先导，认知科学的发展还得靠认知计算。

大数据时代，技术的有效性要比科学的完整性更重要，人为本的认知物联网的时代已经到来。