标记由物联网中的物体产生的原始数据的方法及系统

本发明公开涉及标记由物联网中的物体产生的原始数据的方法及系统。所述方法包括：包括：对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息；获取所述相关的Web消息所包含的地址信息；基于所获得的地址信息确定与所述各种事件接近的物体；以及使用所述相关的Web消息的至少部分内容作为元数据，标记由所确定的接近物体产生的原始数据。通过使用本发明，使得可以给人类难以理解的来自各种各样物体的原始数据添加自然语言的元数据，以便可以使用自然语言来进行检索和进行数据挖掘。

技术领域

[0001] 本发明公开涉及数据处理技术，尤其是，涉及一种标记由物联网中的物体产生的原始数据的方法及系统。

背景技术

[0002] 物联网(Internet of Things, IoT)被认为是互联网的下一次重要革命。所谓的物联网就是把诸如感测设备之类的物体装备到街道、公路、建筑、供水系统以及家用电器等各种真实物体上，通过互联网联接起来，进而运行特定的程序，达到远程控制或者实现物与物的直接通信。物联网将连接对象的范围从电子设备扩展到真实世界中的各种各样的物体，即通过装备在各类物体上的射频识别(RFID)、传感器、二维码等，经过接口与无线网络相连，实现人与物体的沟通和对话，也可以实现物体与物体互相间的沟通和对话。例如，在不远的将来，家用电器、医院设备、甚至T恤衫都可以联网和在网络上被访问，就像网页和远程服务器一样。结果，所有真实世界中的物体都可以通过联网被监控和操作，并且其行动可以被编程以给人类提供方便。

[0003] 在物联网中，给定一个事件，如何获得记录相关信息的传感器是一个问题。例如，给定查询"汽车追尾"，如何找到记录这种事件的摄像头。这种物联网搜索对于物联网来说，是非常重要的应用。不同于当前的WWW网络，构建IoT搜索引擎存在以下挑战:

[0004] 首先，真实世界中的物体具有指数量级的总数。互联网对象将编码50万亿至100万亿个物体。每个人都被1000到500个物体包围着。对于当前的搜索引擎，巨大的数据量是负担不起的。而据统计，在2008年谷歌公司的搜索引擎仅索引10亿个网页。

[0005] 其次，物联网中的各种物体所获得的原始数据可能具有图像、视频、音频、数字数据序列、小波等的格式，基本上没有元数据可用于描述这些原始数据的语义，且计算机本身也不能理解这些数据文件的内容。也就是，所获得的原始数据难以传递人类的观点和情感，而人类也难以理解这些原始数据。面对丰富的原始数据，人们却难以通过自然语言对相关信息进行查询、对原始数据之间的关联性进行挖掘等。

[0006]目前存在对于原始数据进行深层次处理的技术，但是由于IoT中的诸如传感器之类的物体的总量巨大，所以使用诸如计算图象技术的深层次处理来提取语义注释在计算上是负担不起的。此外，即使利用深层次处理，由于诸如查询之类的应用的灵活性，需要建立大量的模型来处理各种应用。这种实现也是不可取的。

[0007] 图1是示出了现有技术中实际应用与物体产生的原始数据之间的问题的示意图。如图1所示，用户使用人类语言在网络上对传感器数据进行查询。但是，即使存在大量的原始数据文件，由于用户的自然语言查询和传感器的原始数据文件之间存在巨大的鸿沟，并且原始数据文件也几乎没有元数据来描述其语义，因此用户不能得到期望的查询结果。因此，如何将自然语言查询与原始数据联系起来以便于进行数据的搜索和挖掘以及数据关联性的挖掘等等是现有技术中存在的一个技术问题。

[0008] 因此，现有技术中需要标记由物联网中的物体产生的原始数据以便进行进一步数据处理的技术。

发明内容

[0009] 为了解决现有技术中存在的上述问题中的至少一个，而提出了本发明公开。根据本发明公开的一个方面的一个实施例提供了一种利用Web消息来给原始数据加标记以使原始数据具有描述其语义的元数据从而帮助理解原始数据的内容的技术方案。

[0010] 本发明的发明人注意到诸如博客和微博之类的Web消息正在被广泛地应用。本文中提及的"Web消息"是指具有广泛性和相关性的网络上传递的内容。所谓的"广泛性"是指Web消息的内容多种多样，涉及到现实世界中发生的各种事情以及人类的思想等等，以及Web消息的用户可以使用诸如移动终端或固定终端之类的各种设备在网络上随时发布Web消息。Web消息可以包括文本、文档、图标、照片、音频、视频等等。所谓的"相关性"是指Web消息的内容与所关心事件有关，例如Web消息的发布时间与所关心事件的发生时间之差在预定范围内且都是关于相似的事件，则认为Web消息与所关心事件具有相关性。此外，对于本发明而言，Web消息是具有用户在发送Web消息时的地址信息的Web消息。

[0011] 微博是Web消息的一个典型示例。微博是一种允许用户及时更新的简短文本(通常少于140字)并可以公开发布的博客形式。微博服务包括诸如Twitter、Yahoo、Sina、Sohu 、163 等。

[0012] 微博最近日渐繁荣，并且已经吸引了大量用户。根据2010年4月的统计数据，作为微博的代表性网站的Twitter具有100多万注册用户且每天还有30多万的新用户。每天平均发布5千5百多万条Twitter微博，内容无所不包。在所有这些Twitter微博中,超过37%是通过移动设备发布的，并且其实际发布的位置也大部分可以被获得。

[0013] 由于Web消息的普遍使用(换言之，具有相关性和广泛性)和知道位置的特征，发明人设想了利用Web消息来丰富传感器数据的语义。具体而言，本发明通过识别Web消息与传感器之间的关系，然后分配相关的Web消息的至少一部分内容作为标签以注释传感器数据的语义来填平了人类理解与物体获得的原始数据之间的鸿沟，从而解决了现有技术中存在的问题。更进一步地，可以利用这些语义标记来支持对传感器数据的搜索和挖掘功能以及其它对原始数据的应用。

[0014] 本发明公开的实施例可以以包括方法或系统的多种方式实施。下面讨论本发明公开的几个实施例。

[0015] 作为一种标记由物联网中的物体产生的原始数据的方法，本发明公开的一个实施例至少包括:对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息；获取所述相关的Web消息所包含的地址信息；基于所获得的地址信息确定与所述各种事件接近的物体；以及使用所述相关的Web消息的至少部分内容作为元数据，标记由所确定的接近物体产生的原始数据。

[0016] 作为一种标记由物联网中的物体产生的原始数据的系统，本发明公开的一个实施例至少包括:用于对获得的Web消息进行相关性检测以获得与各种事件相关的Web消息的装置；用于获取所述相关的Web消息所包含的地址信息的装置；用于基于所获得的地址信息确定与所述各种事件接近的物体的装置；以及用于使用所述相关的Web消息的至少部分内容作为元数据，标记由所确定的接近物体产生的原始数据的装置。

[0017] 作为一种在物联网中搜索物体的方法，本发明公开的一个实施例至少包括:使用自然语言输入查询项；以及使用所述查询项，基于物联网中的物体的元数据，产生搜索结果；其中所述元数据是使用上述方法产生的。

[0018] 作为一种在物联网中搜索物体的设备，本发明公开的一个实施例至少包括:用于使用自然语言输入查询项的装置；以及用于使用所述查询项，基于物联网中的物体的元数据，产生搜索结果的装置；其中所述元数据是使用上述系统产生的。

[0019] 作为一种网络上使用的搜索引擎，本发明公开的一个实施例至少包括:用于接收用户输入的模块；上述系统；以及用于根据用户输入和由所述设备产生的信息来进行检索的模块。

具体实施方式

[0027] 下列讨论中，提供大量具体的细节以帮助彻底了解本发明。然而，很显然对于本领域技术人员来说，即使没有这些具体细节，并不影响对本发明的理解。并且应该认识到，使用如下的任何具体术语仅仅是为了方便描述，因此，本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。

[0028] 根据本发明公开的一个实施例，提供了通过识别Web消息与物联网中的物体之间的关系，然后分配相关的Web消息的至少一部分内容作为标签以注释相应物体所产生的原始数据的语义来解决现有技术中存在的至少一个问题。更进一步地，可以利用这些语义标记来支持对传感器数据的搜索和挖掘功能以及其它对原始数据的应用，例如，使用自然语言来查询原始数据。

[0029] 值得注意的是，本文中的术语"物体"指的是能够产生数据并将所产生的数据传送给其它物体的任意器件、装置、设备或系统。例如，物体可以是感测装置，诸如射频识别(RFID)、读取器、二维码、摄像头、传感器等，物体也可以是搭载有RFID、、读取器、二维码、摄像头、传感器等的独立设备，诸如具有RFID的笔记本电脑、具有温度传感器的电冰箱、具有二维码的T恤等。

[0030] 图2示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生的原始数据的处理200。

[0031] 在步骤202，处理200开始。

[0032] 在步骤204，对接收到的Web消息进行相关性检测以获得与所关心事件相关的Web消息。步骤204可以通过多于一个过滤步骤来实现。根据本发明公开的一个实施例，可以包括两个过滤步骤:

[0033] (I)基于内容的过滤:

[0034] 步骤204可以包括内容过滤步骤以过滤出内容上相关的所有Web消息并丢弃其它消息。由于要用与物体所记录的事件有关的信息来标记物体，所以基于内容的过滤可以是根据默认选项(诸如，最常见的用户查询选项列表、热点事件的列表、交通事件的列表、最常用的关键词列表等)，从大量的Web消息中查找出内容匹配的条目。这可以使用基于关键字匹配的倒排表技术来实现。

[0035] (2)基于时间的过滤:

[0036] 步骤204可以包括时间过滤步骤以过滤出时间上相关的所有Web消息并丢弃其它消息。基于时间的过滤可以包括以下两个步骤:

[0037] 2.1基于发布时间的过滤:也就是，只保留出发布时间与所关心事件的发生时间相关的Web消息。时间过滤步骤是为了从接收到的Web消息中过滤出Web消息的发布时间与所关心的事件发生的时间在预定时间范围内的Web消息，并丢弃时间不相当的其它Web消息。例如,所关心事件的发生事件是当天早晨8:00左右。时间过滤步骤只保留当天7:30〜8:30这个时间段内发布的Web消息。

[0038] 存在时间范围可能是由于发布Web消息的用户可能是移动的，在他看到事件的发生和他实际发布Web消息之间存在时间差；也可能是由于用户看到事件后经过一段时间才发布相关的Web消息；或者也可能是由于网络拥塞、无线网络不稳定等等而导致的时间差。该预定时间可以是预设的，也可以由用户/系统设置。

[0039] 2.2即时性过滤:在发布时间过滤的基础上，再次使用即时性进行过滤，从而只保留在规定的时间范围内所发布的描述现在情况的Web消息。例如，当天早晨8:00之后发布的Web消息可能包括诸如"昨天发生的XX"之类的内容。但是，这些内容显然不是发布的即时信息，而是过期信息，应该过滤掉。而像"刚刚发生的XX"则属于即时信息，应该保留。

[0040] 即时性过滤步骤可以通过结合现有的分词和分类技术来实现。根据本发明的一个方面，提出了一种结合了现有的分词和分类处理的内容过滤引擎。举例而言，首先可以选取2，000条Web消息。人为地将这些Web消息分类为现在、过去、将来和其它。对于每个Web消息中的每一句子，首先将其分词。例如，一个Web消息仅包括一句话"我现在在看电影。"。经过分词，变为"我/现在/在/看/电影。"。

[0041] 将每一个分词作为特征，构建基于机器学习算法的分类器。可以使用SVM(Support Vector Machine)算法,ME(Maximum Entropy)算法等等。这样对于没有进行人工标注的Web消息，可以使用这个分类器进行自动识别，将其标注为现在、过去、将来和其它中的一类。只有标注为现在的Web消息保留下来，其余的都删除掉。但是，值得注意的是本发明不限于以上处理过程，而是本领域技术人员可以根据自己的需求，可以使用其它的分词和分类技术。

[0042] 虽然以上以特定顺序示出和描述了各个过滤步骤，但是本领域技术人员应当理解本发明不限于该特定顺序，而是可以根据需要以任意顺序执行基于内容的过滤和基于时间的过滤。

[0043] 在步骤206，对Web消息进行地址信息检测以获得包含地址信息的Web消息的地址信息，并且丢弃不包含地址信息的Web消息。

[0044] 需要说明的是，不是所有Web消息都包括地址信息，而是发布Web消息的用户可以选择是否公开其当前的地址信息。如果用户选择公开其地址信息，则所发布的Web消息就包括地址信息，否则就不包括地址信息。

[0045] 地址信息通常是GPS地址数据的形式，但是通过使用第三方服务，Web消息的地址信息也可能是文字描述的形式，诸如"XX街与YY街路口"。可以通过Web浏览器提供的API接口获得用户发布该消息时的地址信息。但是如果获得的地址信息是文字描述，根据本发明公开的一个实施例，则需要将文字描述转换成GPS地址数据。该转换可以使用现有技术中的转换工具，在此不作详细描述。

[0046] 根据本发明的另一个实施例，可以从Web消息的内容中过滤出地址信息，然后再将该地址信息转换成GPS地址数据。例如，Web消息可能是"现在，崇文门大街到长安街的路口发生了拥堵，车辆行驶缓慢。"。可以从该消息中提取出地址信息"崇文门大街到长安街的路口"。结合已有的地图信息，则可将该地址信息转换成GPS地址数据。

[0047] 在步骤208，基于所获得的Web消息的地址信息，检测IoT中与所关心事件接近的物体。

[0048] 对于本领域技术人员而言，IoT中每个物体的位置(诸如，GPS地址数据)都是已知的。可以通过Web消息的地址信息和物体的已知的位置信息来确定与所关心事件相关的物体。例如，确定二者之间的直线距离最小的物体为接近的物体。

[0049] 但是，如前所述，由于用户可能是移动的，也可能在看到事件之后一段时间才发送Web消息而这时其位置已经发生改变等等，所以用户在发送Web消息时所处的位置与可能记录所关心事件的物体的位置可能存在差异。从而仅仅凭借一个或几个Web消息的地址信息和物体的已知的位置信息可能难以确定与所关心事件接近度较高的物体。

[0050] 根据本发明公开的一个实施例，提出了使用现有的曲线拟合技术来从IoT中的数量巨大的物体中确定出与所关心事件接近度较高的物体。

[0051] 根据本发明公开的一个实施例，接近性检测步骤可以包括以下操作:

[0052] 第一步骤:从所获得的Web消息中提取出从同一用户发布的Web消息的地址信息。t匕如，发布相关消息的可能有100个用户，从中提取出同一个用户最近6个小时内发布的Web消息的地址信息。

[0053] 第二步骤:针对每一个用户，使用其所发布的Web消息的地址信息进行曲线拟合，以获得其位置曲线。

[0054] 图3是示出了根据本发明的一个实施例的基于每一用户所发的Web消息的地址信息使用曲线拟合所获得的曲线的示意图。如图3所示，空心圆代表一条Web消息的一个地址信息，每一条曲线是基于来自同一用户的Web消息的地址信息所拟合出来的曲线。在图3中，实心圆代表IoT中的物体。虽然图3中仅仅示出了一个物体，但是本发明不限于此，如前所述，物体的数量可以多得多，本领域技术人员可以根据需要对其进行选择。

[0055] 第三步骤:基于物体的位置数据和各个曲线之间的距离关系，确定接近的物体。

[0056] 可以使用以下公式来确定物体的位置数据和各个曲线之间的距离关系:将物记为Χι，X2，...Xm，曲线表为

[0057]

[0058] 其中distance(Xi，Dj)代表第i个物体到第j条拟合曲线的最短距离，其中，i代表第i个物体，其是从I到M之间的整数值，M是用户根据需要所选取的接近物体的总数；j代表第j个拟合曲线，其中j是从I到N之间的整数值，N是通过曲线拟合所获得的曲线的总数;Max代表取最大值的函数，Min代表取最小值的函数。

[0059] 使用上述公式，选取物体到各个曲线的距离中的最大距离作为该物体的特征距离，然后选取所有物体中特征距离最小的物体作为与所关心事件最接近的物体。更进一步地，可以按照该特征距离从小到大来对相应的物体进行排序，以表示各个物体与所关心事件的接进度。

[0060] 例如，还以图3为例，曲线拟合的结果是，基于用户A的地址信息拟合出两条曲线I和2，基于用户B的地址信息拟合出一条曲线3。假设存在有多个物体。其中各个物体到

三条曲线的距离中的最大距离分别为5、3、5、6、9、8.......则选取具有最大距离的最小值

3的物体作为最接近物体，如图3所示。

[0061] 这个方法的最大好处在于公式在现有技术中是简单的且已被标准化，并且可以容易地获得实现其的工具。

[0062] 当然，本发明不限于此，本领域技术人员也可以根据其需求使用其它距离公式。可以使用例如平均距离最小值，也就是，使用一个物体到各个曲线的距离的平均值作为其特征距离，并选取特征距离最小的物体作为最接近的物体。还可以使用例如最大距离的平方最小值，也就是，使用一个物体到各个曲线的距离中的最大距离的平方值作为其特征距离，并选取特征距离最小的物体作为最接近的物体。

[0063] 在步骤210，利用Web消息的至少一部分，对所确定的接近物体的原始数据进行标记。

[0064] 例如，一个用户在2011年9月23日7时56分发布一条Web消息为"看到了四车追尾，太惨了！"，并且最接近的摄像头为新街口西口的摄像头。则可以用Web消息中的"追尾"和时间"2011/9/23 7:56"，来作为新街口西口的摄像头所获得的原始数据文件vsd.vso的元数据，对其进行标记。

[0065] 更进一步的，可以针对各个接近的摄像头进行排序，例如，生成包括如下内容的Web页面:

[0066]追尾 2011/9/23 7:56 新街口西口 vsd.vso

[0067] 新街口西街东口 vsf.vso

[0068] 新街口西街西口 vsg.vso

[0069] 用户可以点击相应的视频文件观看。也可以通过自然语言"追尾"、"2011年9月23日"等来进行数据检索。

[0070] 在步骤212，处理200结束。

[0071] 如前所述，Web消息的数量是指数级的。如果每一次执行处理200，在步骤204开始是对网络上的所有Web消息进行处理的话，那么处理所需的时间和计算成本较大。

[0072] 根据本发明的一个实施例，在步骤202和步骤204之间可以包括一个预处理步骤。所述预处理步骤可以使用现有的索引技术来实时地索引网络上发布的所有Web消息，然后在步骤204中基于索引取出与所关心事件在内容上相关的Web消息。

[0073] 举例而言，可以使用分词技术对每一个Web消息实时地进行分词，根据预先建立的关键词库，确定Web消息中是否出现至少一个关键词，然后，建立出现某一关键词的Web消息与关键词库中该关键词之间的链接来进行索引。

[0074] 还以Web消息为"汽车追尾"为例，将该消息分词为"汽车/追尾/"。那么使用"汽车"，"追尾"作为索引词，构建倒排表，通过搜索"汽车"或者"追尾"，都可以得到这条消息。

[0075] 然后，在步骤204中使用该链接将与关键词相关的Web消息快速地提取出来以供进一步处理。

[0076] 此外，图2中虽然使用了箭头线来指示各个步骤，但是本发明不限于此，而是可以以其它顺序执行图2中的各个步骤。例如，步骤204和206的执行顺序可以相反。

[0077] 图4是示出了根据本发明公开的一个实施例的用于标记由物联网中的物体产生的原始数据的系统400的方框图。

[0078] 根据本发明的一个实施例的系统400包括Web消息搜索引擎401、相关性检测器407、地址信息检测器409、接近性检测器411和标记器411。相关性检测器407包括内容过滤器403和时间过滤器405。

[0079] Web消息搜索引擎401是可选的，其不是实现本发明所必需的。Web消息搜索引擎401用于实时地索引网络上发布的所有Web消息。

[0080] 相关性检测器407用于检测与各种事件相关的Web消息。内容过滤器403用于过滤出内容与各种事件相关的Web消息。时间过滤器405用于过滤出发布时间与各种事件的发生时间在预定范围内的Web消息，并且进行即时行过滤以获得在规定的时间范围内所发布的描述现在情况的Web消息。其它Web消息将被丢弃。

[0081 ] 地址信息检测器409接收来自相关性检测器407的相关Web消息，并提取这些Web消息中的地址信息。地址信息可以是使用API从Web消息提取的，也可以是从Web消息的内容中过滤出来的。地址信息可以具有GPS数据格式或文本格式。地址信息检测器409可以包括一个转换器(未不出)，用于转换所述地址信息的格式，例如从文本格式转换成GPS数据格式。

[0082] 接近性检测器411用于基于来自地址信息检测器409的地址信息，确定与所发生的事件最接近的物体。具体的实施方式在上面已经进行了详细描述，在此不再重复。

[0083] 标记器413用于基于相应的Web消息，来标记来自所确定的最接近的物体的原始数据。

[0084] 根据本发明的一个实施例，标记的结果可以以网页、文档、文本等形式发布，以供进一步的处理。例如，搜索引擎可以使用该标记的结果进行搜索，以便为使用自然语言进行查询的用户快速地提供相关的查询结果。

[0085] 图5是示出了根据本发明的一个实施例实现的搜索处理示例的流程图。图5示出的是本发明在查询上的一个应用。

[0086] 如图5所示，用户可以使用"追尾"来查询所发生的追尾事件。内容过滤器403找出与关键词"追尾"链接的网页并给出这些在内容上与用户的查询条件有关的网页。时间过滤器405过滤掉不在所需时间范围内的所有Web消息，并对剩余的Web消息进行处理。时间过滤器405还基于Web消息的内容进行即时行过滤，以过滤掉与现在情况不相关的Web消息。例如，用户需要的今天的追尾事件，因此，包括"昨天....追尾"或"很久以前....追尾"的Web消息不是所关心的，从而去除这些消息。

[0087] 地址信息检测器409从剩余的Web消息中获取其中的地址信息。如上所述，IoT中的物体的位置信息是已知的，预存在数据库中。接近性检测器411检测出与所关心的事件相关的物体。标记器411使用Web消息的至少一部分来对各个物体进行标记以表明各个物体获得的原始数据的语义。通过使用所述标记，可以将自然语言的查询与原始数据关联起来，从而给用户提供诸如:"返回的查询结果:诸如正在或已经监控到"追尾"的摄像头，用户可以连接到该摄像头并浏览其数据"。

[0088] 当然，用户还可以基于标记对原始数据之间的关联性进行挖掘。例如，可以找出与一次追尾有关的所有摄像头，以便获得与该追尾的发生过程有关的数据。

[0089] 图6是示出了根据本发明的一个实施例实现的搜索引擎的方框图。图6示出的本发明的一个实现的具体例子。

[0090] 如图6所示，搜索引擎包括了图4所述的系统400。此外，搜索引擎用于接收用户输入的模块601和用于根据用户输入和由系统400产生的信息来进行检索的模块602。然后，所获得检索结果被返回给查询用户。

[0091] 以上对本发明的基本思想进行了描述，本领域技术人员应当理解:本发明提供了以下优点中的一个或多个:

[0092] 可以组合Web消息和IoT以提供可理解的IoT。

[0093]-分配Web消息给相关"物体"

[0094]-用元数据丰富物体的观测

[0095] 一其以自然语言而不是以定量的数据、图像、视频等；

[0096]-其传递情感观点而不是中性数据；

[0097]—其反映不同人的不同观点。

[0098] 用Web消息丰富"物体"

[0099]-识别即时微博贴子与"物体"之间的关系

[0100]-分配这些贴子作为标签给"物体"

[0101]-支持对物体的搜索和挖掘功能

[0102] 一用户可以用自然语言查询来进行搜索

[0103]—检索相关的微博贴子

SRC=https://www.google.com.hk/patents/CN103092880A