找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 2603|回复: 4

[转]一个文人眼中的Semantic web & ontology

[复制链接]
发表于 2007-6-4 23:34:42 | 显示全部楼层 |阅读模式
一个文人眼中的Semantic web and ontology
意义互联网与本体论
作者:姜奇平  2004-9-18 3:16:46博客中国(Blogchina.com)
http://blog.csdn.net/AskMyself/archive/2005/03/12/317962.aspx

昔惠能至曹溪,说“不是风动,不是幡动,仁者心动”,遂名重广东。我看用这句话来套如今的互联网,倒是正合适。第一代互联网——信息高速公路意义上的互联网,属于“风动”,是技术这种物质力量推动下的互联网;第二代互联网——电子商务意义上的互联网,属于“幡动”,是商务这种社会力量推动下的互联网;第三代互联网——语义网意义上的互联网,属于“心动”,是思维这种精神力量推动下的互联网。
而意义互联网,又将经历语形网、语义网和语用网这样三个不断提升的阶段。在第三代互联网中,以搜索引擎为代表的人工智能技术,将为人类建立新的基础设施——语义网络基础设施,其地位不亚于信息高速公路和软件操作系统。
近日Google成功上市,有些朋友认为我不久前贬低它是失策,这是不了解我的未来学立场,我是在整个第三代互联网的尺度中来评价它的,这与它现在的辉煌并不矛盾。其实我今天对Google的评价仍然不高。虽然它取得了一些成绩,但还远远没有达到我七年前转述的关于“全球大脑”(GLOBAL BRAIN)的预言:“随着符号语言的来到……上亿人的心智联成了一个单一的智能网络”,也没有达到我五年前对搜索引擎期待的水平。
我把Google视为第三代互联网第一阶段的一个先锋,以我历来的未来学立场,就是说它有可能马上要过时,除非它有实质的改进。从技术分析角度看,Google所在的当前阶段,是语形网阶段,这一阶段的最大特点,也是历史局限,就是“望文生义”。这里的“文”,就是语形,“义”就是语义。当前搜索引擎的特点是根据语形搜索直接得出语义,还达不到语义网要求的“无中生有”,即以原文中没有出现的语形概括实际语义。比如说,“无需远行,无需久等”,语义上可能说的是互联网,但语形上并没有出现“互联网”这三个字。可不可以用“互联网”这个主题词把它找出来呢?现在除非原文中正好有互联网三个字,否则难以找到。
我观察人们的反应,发觉大多数人对两年以上的预测,是不关心的;五年以上的预测,可能要招骂,理由通常是:我现在没看见,所以你胡说;十年后才会实际显现的思想,肯定要惹起众怒。所以我在这里不讲语用网,换个度数低一点的望远镜,预测一下马上就要到来的语义网的商机和原理。如果要以首富为目标,现在起步有点晚了,所以这个预言不算太超前。我认为这个机会大概还能出个像丁磊这样的人物。
下边要谈的Ontology,是一个非常抽象的问题,它是语义网的核心问题,也就是说,它是一个“后Google”问题。本文对象主要是未婚青年。我估摸着,能够通过语义网成为中国首富的,多半还得是未婚青年。因为结婚生子,思想早就过时了,看这种前卫文章甚不适合。
我们IT人经常割断与近百年主流思想发展的联系,在方法论上做从猿向人进化的无用功,Ontology就是一例。如果我对一个搜索引擎专家说,你那里费了半天劲仍然没有上升到的境界,人家哲学家六十年前早就研究透了,他会觉得讨厌:别跟我谈哲学,那都是虚的。但真到了所谓特别务实的领域,他们却怎么也看不透Google的弱点,找不到技术使劲的方向。对年轻人来说,超越老大哥的一条捷径,就是向国际一流的思想家借劲。
Ontology是本体论的意思。但对语义网来说,它是一个特指的人工智能术语。符号的本体,是指向语义的,是针对语形而言的。这里我们先不考虑语用学上更先进的说法。
按Tim Berners-Lee, James Hendler和Ora Lassila的说法,语义网包括三个关键,一是XML (Extensible Markup Language),二是RDF (Resource Description Framework),三就是Ontology。Ontology直接的意思是一份正式定义名词之间关系的文档或文件,一般Web上的Ontology包括分类和一套推理规则。
这只是技术人员的一种概括,实际上对于Ontology,我们真的需要从它的本义——本体论的高度,来加以认识,否则还是会知其然而不知其所以然,到了复杂的商业环境中就晕头转向。
作为超越Google的关键,Ontology的问题,目前还没有IT人能讲明白。但哲学界早就研究了好几代。
第一个值得我们高度重视的,是六十年前的维特根斯坦,作为分析逻辑的代表人物、《逻辑哲学论》和《哲学研究》两本世界名著的作者,他已经把第三代互联网第二阶段(语义网阶段)最难的“哥德巴赫猜想”提前攻克下来了。维特根斯坦第一次提出了本文间性(Intertextuality,又为本文际性)的概念,我认为它可以作为意义互联网的核心概念。第一代互联网的Internet,对应硬件基础设施,第二代互联网的Intersubjectivity (主体间性),对应协同商务,第三代互联网“inter”的对象不一样:第一代定位于外界客体(net)的交互;第二代定位于社会主体(subject)的交互;第三代定位于思维符号(text)的交互。
如果我们看到Intertextuality,以为不过是词语之间的互联,意义互联就是语形互联,意义互联网就是用搜索引擎把不同的词,像卖大白菜似的归大堆,连一块儿,那就大错了。
维特根斯坦的思想,超越了Google所对应的哲学思想。Google可能没有自觉的哲学思想,只不过其行为无意识地对应着,比如说,罗素的思想。以往的哲学家由于本质主义的立场所限,把语言对应于概念;映射到搜索引擎上,就相当于认为,只要从语形上和统计上进行积累,就自然而然可以提高搜索的意义命中率。我与中科院计算所的专家共同分析Google后认为,Google作为全球最领先的搜索引擎,也不过处在语形分析略带语义分析的过渡期,它比百度局限于完全的语形分析领先了半步,但他们共同的致命弱点在于,他们片面依赖数学算法,而忽略了更有效的语义算法,微软显然已经对更前沿的动向有了比他们都好的感觉。
Google们想不通的是一个什么关键问题呢?其实这正是苦恼了维特根斯坦大半生的问题。维特根斯坦后期的《哲学研究》与早期的《逻辑哲学论》相比,发生了一个大转变。早期跟罗素看法一致,热衷于语言逻辑本质论,他宣称“逻辑统治着世界,世界的界限也是逻辑的界限”。众所周知,逻各斯(Logos)在希腊文中具有言语、理性的意义。这种说法无异于说语形之外没有意义存在。我们可以用它来对应百度的技术水平。
但维特根斯坦之所以成为伟大的哲学天才,在于他后期忽然顿悟,世界上有概念不能尽的意义,翻译成IT语言就是:搜索引擎光凭语形搜索,一定会出大量语义不符的垃圾,或遗漏大量语义相同而语形不同的结果。因为概念是理性的,在理性之外,还有先于本质的存在、先于概念的潜意识、先于语形的各种隐喻,而这种语义才是Ontology所在。此前人们广泛地认为,语形就是本体,黑格尔逻辑学就犯了这个错误;而阿尔都塞用症候阅读,比较彻底地解决了这个问题。因此,inter显然就不光是一个词与另一个词的关联,而是一个词的语形冰山与它下面的语义潜流之间的交互关联,其语义潜流是语形最初被提出时实际对应的深层语义,是语言的本体,它在后学中还包括了被阐释阅读后生成的意义。
基于这种认识,维特根斯坦提出了著名的“语言游戏说”,主张“把语言从它们的形而上学的用途带回到它的日常用途中来”。在研究水平不太高的那个时代,他把这概括为理想语言与日常语言的关系,有点类似于艺术美与生活美的关系,主张“回到粗糙的地面上”,很像车尔尼雪夫斯基的“美就是生活”的说法。这是语言哲学的第一个后现代转变,它的要点包括:第一,意义大于指称,也就是语义大于语形,强调语言的丰富性、灵活性和社会性,翻译成IT语言就是一个词具有多种语义,搜索引擎要解决一词对多义的问题;第二,整体先于微观,主张“意义和结论产生在一个整体论结构中,而不产生在一个与思想或世界的原子关系中”,Google和百度的算法基础,在这里实际上从根本上做了一个清算结论,甚至下一代搜索引擎必须补充数学算法中所缺乏的语义结构这一点,也从本体论的高度提到了;第三,语境决定真理,上面说的intertextuality与语境(context)是一致的,本文间性离不开上下文关系,尤其是在意义的循环中,对话者互为语境,这就涉及到更高级的语用问题了。
自维特根斯坦之后,关于意义的Ontology成为哲学的中心话题。符号学、阐释学、传播学群星灿烂、精采纷呈。德里达、巴尔特、利奥塔,师承维特根斯坦,而胜过了他,伽达默尔也全面超过了他。维特根斯坦的思想已变成小儿科了。但问题是,IT人连六十年前维特根斯坦的水平都还达不到,最起码的思想疙瘩还没解开,还卡在Google的思路中,谈更先进的思想又有什么用呢?所以我们还是从简单基础的地方补起。
最后,我们简单地从语用分析角度,概括一下从语义本体出发设计互联网所带来的独特前景:
后现代主义认为,意义存在于个体(此在),而不是像语形系统(相当于意义的货币系统)那样,存在于个体之外。每一个此在,都有一个由记忆构成的语用“语料库”,它由内容和结构组成。作为Ontology的呈现,这种结构,为个性化的价值评估提供了标准。至于这种结构的实现,当然有赖于技术人员的贡献,但前提是明确地找到了价值的方向。一切从个体以外寻求意义的作法,只能找到浮在面上的普遍意义,永远找不到回到事物本身的本体论意义。语义网基础设施的作用,就在于能够提供一种Ontology,可以从工业化的逻辑外壳中,解码出个性化的意义。Ontology所实现的语义结构化的意义在于,使我们的思维符号,从思想的“模拟信号”(Google做的,不过是意义的“模拟信号交换”),转变成思想的“数字信号”,从而真正实现另一种不同意义上的互联网—人类大脑的互联(GLOBAL BRAIN)。
当语义互联网的基础设施突破后,互联网应用将借助广泛的知识代理,在另一个境界展开。在语义互联网中,每个知识都是个人知识,语形表现的只是显性知识,而语义则是知识与个人知识的汇总。因为人只有在直接交流时才可能获得彼此的个人知识(如师徒相传),当人进行社会性的言说和交换时,他必须以牺牲个人知识(具体劳动价值)为代价,提供可间接交流的知识(一般社会价值)。不过当语义互联网出现后,人们可以通过Ontology,保留回溯意义的权利。这样,当人们阅读(解码)之时,可以症候式地补充上各自的个人知识,使意义重新获得圆满。
这样就出现了一个最重大的变化。价值的确定,必须是语义和语境的,这意味着离开了个性化终端的意义是不存在的。正如在工业化社会使用价值(产品)的交换要服从于社会化的价值(服务)的交换,在信息化社会中,服务的交换又必须依赖于只存在于终端的意义(体验)的交换。在历时的交换中,必须经过当下感觉与个人回忆的“编码-解码”这一循环;在同时的交换中,它必须是intertextuality式的意义循环。按这个要求,未来的交换,前提是世界的网格化,目的是在网格的每个节点,储存和释放编码能力和解码能力,也就是说,由节点提供动力,提供个人知识管理的语料库,通过意义的传播和循环,形成适应个性化定价的价值分流系统。这个世界将继蒸汽机发明之后,第一次不再由社会提供动力系统,而是由全球智能网络每个节点上的个人提供历史前进的动力。
回首22世纪,退向未来,我们的后代会用意念鼠标指点Ontology这个词说,这就是语义的蒸汽机。
Best Wishes!
Xiao,Hong,Ubiquitous Computing Lab (http://www.uclab.org),Peking University,China
发表于 2007-6-5 16:07:59 | 显示全部楼层
姜奇平,1962年7月生,1984年毕业于南开大学中文系,曾任《农民日报》评论部副主任,《农民日报》十佳新闻工作者之一,国家信息化指标体系工作负责人,任《互联网周刊》主编,中国信息经济学会常务理事,国家信息化测评中心常务副主任。"数字论坛"成员。

3年前的文章,现今语义网正热门,也没有被攻克,后google时代的搜索引擎很可能还是由google来实现。关系型数据库还是非关系型数据库?

[ 本帖最后由 url 于 2007-6-5 16:26 编辑 ]
发表于 2007-6-5 16:21:17 | 显示全部楼层
96-97年开始看他的文章,当时他是电脑报?电脑技术报?还是啥报纸的专栏写手吧?
记忆最深的是一篇以女大学生宿舍电脑闹鬼为题目小说形式的计算机安全类文章,很有趣,也就记住了这个人。
发表于 2007-6-5 16:32:03 | 显示全部楼层
搜索引擎正在从“给我我输入的”向“给我我想要的”转变。

To stay on top, Google has to improve search results
Internet giant's engineers hunt for ways to help users find what they want

By SAUL HANSELL
THE NEW YORK TIMES

MOUNTAIN VIEW, Calif. -- These days, Google seems to be doing everything, everywhere. It takes pictures of your house from outer space, copies rare Sanskrit books in India, charms its way onto Madison Avenue, picks fights with Hollywood and tries to undercut Microsoft's software dominance.

But at its core, Google remains a search engine. And its search pages, blue hyperlinks set against a white background, have made it the most visited, most profitable and arguably the most powerful company on the Internet.

Yet the site is also among the world's biggest teases. Millions of times a day, users click away from Google, disappointed they couldn't find the hotel, the recipe or the background of that hot guy. Google often finds what users want, but not always.

That's why Amit Singhal and hundreds of other Google engineers constantly tweak the company's search engine in an elusive quest to close the gap between often and always.

Singhal is the master of what Google calls its "ranking algorithm" -- the formulas that decide which Web pages best answer a user's question. It is a key part of Google's inner sanctum, a department called "search quality" that the company treats like a state secret.

Google values Singhal and his team so highly for the most basic of competitive reasons: It believes that its ability to decrease the number of times it leaves searchers disappointed is crucial to fending off the likes of Yahoo and Microsoft.

"The fundamental value created by Google is the ranking," says John Battelle, the chief executive of Federated Media, a blog ad network, and author of "The Search," a book about Google.

The search-quality team makes about a half-dozen major and minor changes a week to the mathematical formulas that power the search engine.

These formulas have grown better at reading the minds of users to interpret a very short query. Are the users looking for a job, a purchase or a fact? The formulas can tell that people who types "apples" are likely to be thinking about fruit, while those who type "Apple" are mulling computers or iPods. They can even compensate for vaguely worded queries or outright mistakes.

"Search over the last few years has moved from 'Give me what I typed' to 'Give me what I want,' " says Singhal, 39, a native of India who joined Google in 2000 and is now a Google Fellow, the designation the company reserves for its elite engineers.

As Google constantly fine-tunes its search engine, one challenge it faces is sheer scale. It is now the most popular Web site in the world, offering its services in 112 languages, indexing tens of billons of Web pages and handling hundreds of millions of queries a day. At the same time, users expect Google to sift through all that data and find what they are seeking, with just a few words as clues.

"Expectations are higher now," said Udi Manber, who oversees Google's entire search-quality group.

The search-quality group operates in small teams of engineers. Some, like Singhal's, focus on systems that process queries after users type them in. Others work on features that improve the display of results, like extracting snippets -- the text that hints at a site's content.

Other members of Manber's team work on what happens before users even start a search: maintaining a giant index of all the world's Web pages.

Google makes a copy of the entire Internet in each of its huge customized data centers so it can comb through the information faster. Google recently developed a new system that can hold far more data and search through it far faster.

As Google compiles its index, it calculates a "PageRank" for each page it finds. That was the key invention of Google's founders, Larry Page and Sergey Brin. PageRank tallies how many times other sites link to a given page. Sites that are more popular, especially with sites that have high PageRanks themselves, are considered likely to be of higher quality.

Singhal has developed a far more elaborate system for ranking pages that involves more than 200 types of information, or what Google calls "signals." PageRank is but one signal.

Once Google corrals its myriad signals, it feeds them into formulas it calls classifiers that try to infer useful information about the type of search, in order to send that user to the most helpful pages.

These signals and classifiers calculate several key measures of a page's relevance, including one it calls topicality -- a measure of how the topic of a page relates to the broad category of the user's query.

If all of that wasn't excruciating enough, Google's engineers must compensate for users who are vague, often typing ambiguous phrases or misspelled words.

So it built a system that understands variations of words. So elegant and powerful is that model that it can look for pages when only an abbreviation or synonym is typed in.

In the end, it's hard to gauge exactly how advanced Google's techniques are, because so much of what it and its search rivals do is veiled in secrecy.

"People still think that Google is the gold standard of search," Battelle says. "Their secret sauce is how these guys are doing it all in aggregate. There are 1,000 little tunings they do."
 楼主| 发表于 2007-7-26 19:05:36 | 显示全部楼层
呵呵,数学算法vs语义算法
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表