语意搜索的神话与现实 - 基于 COMSHARP CMS

近年来，人们一直谈论语意搜索，任何能够同 Google 抗衡的技术都倍受关注，尤其那些期待已久的语意搜索技术。但不管人们在这方面获得了何种进步，我们仍然对结果失望，在与 Google 做的并列搜索结果对比中，我们发现二者的差别并不大。

例如，当我们问，法国的首都是哪里？两种搜索技术都返回正确答案，巴黎。同样，我们在 Google 中搜索的时候，不管使用自然语言还是缩写式搜索语言，返回的结果都差不多。我们都知道语意搜索技术很强大，但强大在哪里？本文中我们会看到问题出在我们的搜索提问方式不对。

自然语言搜索引擎为我们提供了一个和 Google 一样的搜索框，我们在这个搜索框中输入搜索问题的时候，不自觉地使用了那些最原始的提问方式，如，法国的首都是哪里，我们很少问，同时在 Pulp Fiction 和 Saturday Night Fever 中主演的是哪个演员？，或者，那两个接收国外政治献金的美国议员是谁？我们输入的问题太简单，这无法体现语意搜索的强大，我们下面会谈到 Google, SearchMonkey, Powerset 以及 Freebase 等搜索技术在语意技术上的对比。

我们要解决的问题

第一个困惑来自这样的事实，就是，语意搜索已经被推向可以解决一切问题的位置，从以 Google 为代表的现代搜索问题，到一些计算机根本无法解决的问题，更严重的是，目前语意搜索只能在一个狭小的范围内做得比较好，就是那些牵扯到对复杂数据进行推理的查询。

象上图中显示的那样，基础查询，Google 很容易处理，不幸的是，自然语言在这里几乎没有优势，Google 可以准确的回答达芬奇的生日，但它没有办法理解用户输入的名词和动词，也没有办法因此提高搜索质量。

我们在观察语意搜索能完美解决的问题之前，先让我们看看最困难的部分。在理解语意之外，有一些计算上的挑战，有一个延续了很久的对语意 Web 的误解是，既然我们可以注解 Web，那我们就能够解决那些超级复杂的问题，这是不对的。我们在计算上有一些本质的限制，那些可能有很多解决方法的问题未必会因为我们以 RDF 表现数据就能得到解决。

一个好消息是，有一些问题对语意搜索来说是得心应手的，就是那些我们已经通过关系数据库完美解决了的问题。我们经常忘记了语意技术是来帮助我们在整个 Web 世界表现关系数据的，所以，就不奇怪语意搜索将超越关系搜索。

当前的语意搜索商

但语意搜索并不是我们问问题，因为 Web 事实上是一堆非结构化 HTML 页，语意搜索与这些 HTML 页背后的数据有关。这其中最极端的例子是 Freebase 。 Freebase 可以通过文字搜索进行访问，但更主要通过 MQL （Metaweb 查询语言）访问。使用 MQL，你可以从 Freebase 查询任何东西。

Powerset 从某个方面来说，仅仅是关系数据库，它基于特定的结构信息。Google 则全然是统计意义上的频度问题，几乎没有语意思在内。Yahoo! 最近发布的 SearchMonkey 是对二者有趣的结合，它并不在结果集中加入任何东西，而是使用语意注解，来表现更丰富，更交互，更有用的用户界面。

Hakia 和 Powerset 是在这些技术上最努力的公司，他们企图建立一个类似 Freebase 的结构，然后使用自然语言进行查询。不同的是，Hakia 面向整个 Web，而 Powerset 只面向 Wikipedia。

Hakia, Powerset 和 Freebase 到底有多大区别

现在有一个问题，上面提到这几种技术中哪些是不同的，哪些从本质上是一样的？我们先从简单的入手，从搜索的核心技术来说，Yahoo 的 SearchMonkey 和 Google 以及其它搜索没有什么不同，不同的是展示层。SearchMonkey 通过将搜索结果以最好的方式展示给用户，而为用户创建一个更好的使用体验。

但 Hakia, Powerset 和 Freebase 的情形却复杂的多，从表面看，这些技术都不一样，Hakia 让你搜索整个网络，Powerset 只限于 Wikipedia （和 Freebase），Freebase 自己拥有两种界面，搜索框式界面和查询语言式界面，这就是问题所在，自然语言界面与其背后的数据展示没有任何关系。

事实上，所有这些语意搜索技术允许用户输入复杂的问题，然后将这些查询问题进行分析并向数据库进行查询。本质上，Hakia, Powerset 和 Freebase 是数据库，他们都是一种自然语言处理引擎，将用户的问题翻译成对数据库的查询。

要彻底看清这些技术的内部，不妨想一想 Freebase 和它的查询语言 MQL。和自然语言不同，MQL 允许各种查询结构，MQL 不会产生歧义，这种类似 JSON 的语言允许用户构造精确的查询语句。我们说 Powerset 允许自然语言查询并不是说 Powerset 的内部有一个数据库，当然，它的内部有一个和 Freebase 搜索框后面的数据库类似的东西，真正不同的是他们搜集集合数据的方式以及用户的体验。

搜索的未来：用户界面是一切

也许语意搜索最大的革命是用户界面，首先，Powerset 正确地认识到语意是用户界面最上面的一层，用户在 Powerset 搜索的时候，一个可以进行上下文关联的工具会意识到结果的语意，并提供一些有用的信息来帮助用户完成搜索体验。

但我认为 Powerset 犯的最大错误也是用户界面，那个和传统搜索一模一样的搜索框应当去掉，提供一个简化的搜索界面会伤害 Powerset，Hakia 以及 Freebase。

联想到 Powerset ，它使用了一种总体上更好的方式同网络中最好的资源 Wikipedia 进行交互，但批评着是怎么说的，Powerset 是 Google 杀手吗，不是。

但，如果 Powerset 缩小自己的搜索范围会呢？如果 Powerset 用另一种界面替换那个搜索框，或者告诉用户在 Powerset 找那些 Google 无法简单找到的东西会怎么样呢？这些新公司为什么要改进那些已经存在了10年的技术，而不是为那些 Google 解决不了的问题提供方案？

结论

语意搜索是一种过分抬高了人们的期望值的技术，我们都误以为这些技术是 Google 的替代品，会带来更好的搜索结果。事实上不是，这些技术的出现，是为了解决目前 Google 等传统搜索引擎所无法解决的问题，那些复杂的，牵扯到推理的，将整个 Web 当作数据库进行查询的问题。

本文国际来源：http://www.readwriteweb.com/archives/semantic_search_the_myth_and_reality.php
中文翻译来源：COMSHARP CMS 官方网站