语意搜索的神话与现实

近年来,人们一直谈论语意搜索,任何能够同 Google 抗衡的技术都倍受关注,尤其那些期待已久的语意搜索技术。但不管人们在这方面获得了何种进步,我们仍然对结果失望,在与 Google 做的并列搜索结果对比中,我们发现二者的差别并不大。

例如,当我们问,法国的首都是哪里?两种搜索技术都返回正确答案,巴黎。同样,我们在 Google 中搜索的时候,不管使用自然语言还是缩写式搜索语言,返回的结果都差不多。我们都知道语意搜索技术很强大,但强大在哪里?本文中我们会看到问题出在我们的搜索提问方式不对。

自然语言搜索引擎为我们提供了一个和 Google 一样的搜索框,我们在这个搜索框中输入搜索问题的时候,不自觉地使用了那些最原始的提问方式,如,法国的首都是哪里,我们很少问,同时在 Pulp Fiction 和 Saturday Night Fever 中主演的是哪个演员?,或者,那两个接收国外政治献金的美国议员是谁?我们输入的问题太简单,这无法体现语意搜索的强大,我们下面会谈到 Google, SearchMonkey, Powerset 以及 Freebase 等搜索技术在语意技术上的对比。

我们要解决的问题

第一个困惑来自这样的事实,就是,语意搜索已经被推向可以解决一切问题的位置,从以 Google 为代表的现代搜索问题,到一些计算机根本无法解决的问题,更严重的是,目前语意搜索只能在一个狭小的范围内做得比较好,就是那些牵扯到对复杂数据进行推理的查询。

象上图中显示的那样,基础查询,Google 很容易处理,不幸的是,自然语言在这里几乎没有优势,Google 可以准确的回答达芬奇的生日,但它没有办法理解用户输入的名词和动词,也没有办法因此提高搜索质量。

我们在观察语意搜索能完美解决的问题之前,先让我们看看最困难的部分。在理解语意之外,有一些计算上的挑战,有一个延续了很久的对语意 Web 的误解是,既然我们可以注解 Web,那我们就能够解决那些超级复杂的问题,这是不对的。我们在计算上有一些本质的限制,那些可能有很多解决方法的问题未必会因为我们以 RDF 表现数据就能得到解决。

一个好消息是,有一些问题对语意搜索来说是得心应手的,就是那些我们已经通过关系数据库完美解决了的问题。我们经常忘记了语意技术是来帮助我们在整个 Web 世界表现关系数据的,所以,就不奇怪语意搜索将超越关系搜索。

当前的语意搜索商

但语意搜索并不是我们问问题,因为 Web 事实上是一堆非结构化 HTML 页,语意搜索与这些 HTML 页背后的数据有关。这其中最极端的例子是 Freebase 。 Freebase 可以通过文字搜索进行访问,但更主要通过 MQL (Metaweb 查询语言)访问。使用 MQL,你可以从 Freebase 查询任何东西。

Powerset 从某个方面来说,仅仅是关系数据库,它基于特定的结构信息。Google 则全然是统计意义上的频度问题,几乎没有语意思在内。Yahoo! 最近发布的 SearchMonkey 是对二者有趣的结合,它并不在结果集中加入任何东西,而是使用语意注解,来表现更丰富,更交互,更有用的用户界面。

Hakia 和 Powerset 是在这些技术上最努力的公司,他们企图建立一个类似 Freebase 的结构,然后使用自然语言进行查询。不同的是,Hakia 面向整个 Web,而 Powerset 只面向 Wikipedia

Hakia, Powerset 和 Freebase 到底有多大区别

现在有一个问题,上面提到这几种技术中哪些是不同的,哪些从本质上是一样的?我们先从简单的入手,从搜索的核心技术来说,Yahoo 的 SearchMonkey 和 Google 以及其它搜索没有什么不同,不同的是展示层。SearchMonkey 通过将搜索结果以最好的方式展示给用户,而为用户创建一个更好的使用体验。

但 Hakia, Powerset 和 Freebase 的情形却复杂的多,从表面看,这些技术都不一样,Hakia 让你搜索整个网络,Powerset 只限于 Wikipedia (和 Freebase),Freebase 自己拥有两种界面,搜索框式界面和查询语言式界面,这就是问题所在,自然语言界面与其背后的数据展示没有任何关系。

事实上,所有这些语意搜索技术允许用户输入复杂的问题,然后将这些查询问题进行分析并向数据库进行查询。本质上,Hakia, Powerset 和 Freebase 是数据库,他们都是一种自然语言处理引擎,将用户的问题翻译成对数据库的查询。

要彻底看清这些技术的内部,不妨想一想 Freebase 和它的查询语言 MQL。和自然语言不同,MQL 允许各种查询结构,MQL 不会产生歧义,这种类似 JSON 的语言允许用户构造精确的查询语句。我们说 Powerset 允许自然语言查询并不是说 Powerset 的内部有一个数据库,当然,它的内部有一个和 Freebase 搜索框后面的数据库类似的东西,真正不同的是他们搜集集合数据的方式以及用户的体验。

 

搜索的未来:用户界面是一切

也许语意搜索最大的革命是用户界面,首先,Powerset 正确地认识到语意是用户界面最上面的一层,用户在 Powerset 搜索的时候,一个可以进行上下文关联的工具会意识到结果的语意,并提供一些有用的信息来帮助用户完成搜索体验。

但我认为 Powerset 犯的最大错误也是用户界面,那个和传统搜索一模一样的搜索框应当去掉,提供一个简化的搜索界面会伤害 Powerset,Hakia 以及 Freebase。

联想到 Powerset ,它使用了一种总体上更好的方式同网络中最好的资源 Wikipedia 进行交互,但批评着是怎么说的,Powerset 是 Google 杀手吗,不是。

但,如果 Powerset 缩小自己的搜索范围会呢?如果 Powerset 用另一种界面替换那个搜索框,或者告诉用户在 Powerset 找那些 Google 无法简单找到的东西会怎么样呢?这些新公司为什么要改进那些已经存在了10年的技术,而不是为那些 Google 解决不了的问题提供方案?

结论

语意搜索是一种过分抬高了人们的期望值的技术,我们都误以为这些技术是 Google 的替代品,会带来更好的搜索结果。事实上不是,这些技术的出现,是为了解决目前 Google 等传统搜索引擎所无法解决的问题,那些复杂的,牵扯到推理的,将整个 Web 当作数据库进行查询的问题。

本文国际来源:http://www.readwriteweb.com/archives/semantic_search_the_myth_and_reality.php
中文翻译来源:COMSHARP CMS 官方网站





评论
...
发表评论


用户


评论(不超过1000字)


 3 + 6 = ? 请将左边的算术题的结果填写到左边的输入框  


  发送给朋友| 打印友好
7 x 12 小时服务热线
0532 - 83669660
微信: comsharp
QQ: 13885509
QQ: 592748664
Skype: comsharp