找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 1665|回复: 1

畅游数据的海洋

[复制链接]
发表于 2004-4-10 09:55:46 | 显示全部楼层 |阅读模式
畅游数据的海洋
——吴广印老师谈Internet时代的数据存储与检索技术
本刊记者 郭弘

---- 问:在Internet环境下网络信息数据有什么样的特点?对存储与检索技术提出了什么样的新的要求?

---- 答:信息社会的信息大体可以分为两类:一类信息能够用数据或统一的结构加以表示,我们称为结构化数据,如数字、符号等;另一类信息根本无法用数字或者统一的结构表示,如图像、声音乃至网页等,我们称为非结构化数据。随着网络和软件技术的飞速发展,Internet时代的数据越来越显示出两个最主要的特点,即非结构化数据大量涌现和海量数据的产生。

---- 非结构化数据的大量涌现和海量数据的产生,对数据存储和检索技术提出了完全不同的新需求,集中表现在数据库管理系统本身的存储和检索技术上。特别是随着非结构化数据应用领域的不断拓展,擅长于处理结构化数据的关系数据库开始暴露出越来越多的局限,这些局限性也集中表现在对海量信息的存储和检索方面。

---- 比如,以前的硬盘空间很小,而文献量很大,人们多考虑采用数据压缩技术。而数据压缩技术的采用同时也带来一个问题,那就是导致系统执行效率的降低。随着硬件技术的不断发展,大容量存储设备的出现使存储空间问题得到一定解决,但由于系统本身的局限,造成了存储空间的浪费。例如,关系数据库对数据存储和管理是基于表结构的,数据库的每个字段是定长的,如果我们按照最大的长度定义,势必会造成空间浪费和字段浪费的问题。

---- 在数据检索方面,海量信息对查询速度有较高的要求,查全率、查准率则是衡量检索效率的标准。我们知道,关系数据库的索引是基于B+树的方法,这种方法对海量数据的检索效率是非常低的,甚至几乎是不可行的。而产生于70年代主要针对数值和字符处理的关系数据库模型由于当时应用的局限,在设计时几乎没有考虑到多媒体、网页等非结构化数据处理的问题,没有料到Internet会发展得如此迅速,没有料到会出现数据急速膨胀的局面。所以,关系数据库在Internet时代的非结构化数据和海量信息数据的处理方面存在着许多问题,特别是关系数据库对数据类型的处理只局限于数字、字符,对非结构化信息的处理只是停留在简单的二进制代码文件的存储,已经不适应用户从原先数据的简单存储上升为对数据的识别、检索和深入加工的要求,基于Internet内容的应用尤其使关系数据库相形见绌。因此有人说,数据库技术将进入“后关系数据库时代”,进入基于网络应用和内容管理的非结构化数据库时代,数据的存储管理技术和检索技术也会随之发生相应的变化。

---- 问:那么,针对Internet时代海量的非结构化数据的存储管理技术到底会发生哪些变化呢?

---- 答:由于海量的非结构化数据的出现,我们发现在早期数据库产品的设计中存在着一些问题。因此,我们提出了一种字段级数据的变长存储格式,既满足了国际上文献处理标准的需要,又解决了磁盘空间问题。在我们提出的非结构化数据库中,字段内容是可重复(多值)的。这表现在两个方面:一是允许有两个以上同名的字段,即字段在列级别上是可重复的,如一条记录中有两个地址字段;而在同一个字段内部,允许出现不同的子字段,即在同一字段内部,内容是可重复的。例如,在关系数据库中建立一个人事档案库,其结构为:身份证号、姓名、性别、电话、家庭地址、邮编。我们注意到,就关系数据库的管理技术而言,在电话中只能填入一个号码,如果有两个家庭住址或两个以上电话号码,如何处理呢?在非结构化数据库中的人事档案库中,可定义其结构为:身份证、姓名、性别、电话(可重复子字段)、地址(可重复子字段)。显然,非结构化数据库在处理重复数据和变长数据方面比关系数据库要灵活得多,它可直接管理各种外部文件(网页、表格或多媒体信息),这也是非结构化数据库管理系统的主要特征。

---- 问:针对海量数据的这些存储特点,数据库的检索技术有哪些变化呢?

---- 答:我们知道,数据库最核心的技术之一就是数据的检索技术。非结构化数据库对数据的索引功能又进行了极大的扩充。在现有的关系数据库中,支持的索引只限于单字段索引、复合索引(多字段索引)等几种方式,在非结构化数据库中支持的索引则有很多种,可以满足极其复杂的数据检索的需要。非结构化数据库中的字段索引兼容关系数据库的索引,并在此基础上增加了子字段索引和全文索引(英文单词索引和中文单汉字索引),甚至可以支持人工标引索引、中文英文混合索引等方式,还可以对同一字段进行若干种不同的索引,以满足特殊检索的需求。

---- 提高查询速度是建立索引首要考虑的因素,关系数据库的索引是采用B+树方式,为每一个字段建立一个索引。随着检索词的增加,深度也在增加。检索速度与被检索词的多少有关,信息量大,比较次数也会增多,这就势必会影响其检索效率。此外,在查询过程中有很多时候要求多字段的组配查询,涉及2个B+树的运算问题。关系数据库中,进行2个字段以上的组配查询时,速度下降非常明显,显然不能满足海量信息处理的需要。因此我们意识到检索是比存储更重要的一个环节,于是国信贝斯公司提出了B*树的概念,区别于通常的B+树。

---- 由于计算机存储容量和运算速度的大大提高,使得将大量原始信息全部转入检索系统成为可能。于是,以全文检索为代表的自然语言检索系统受到普遍的关注。全文检索技术和自动标引技术已经成为了自然语言检索系统发展的两大特点。B*树在单汉字索引的前提下解决了中文全文检索的难题,在中文信息处理方面获得重大的突破。它可以支持简单检索、字段检索、布尔检索、限定检索和相关检索等各种复杂的检索。

---- 问:如您所述,全文检索技术随着Internet的发展越来越受到关注,请您谈一下Internet全文检索技术的常用算法及产品有哪些?如何提高全文检索的查全、查准率?目前国内外在全文检索方面的进展如何呢?

---- 答:全文检索技术目前最常用的算法主要是采用自动标引的办法。自动标引涉及到切分技术,国内的TRS和天宇是这方面比较有特点的两种产品。另外一种典型的方法是单汉字抽词方法,以国信贝斯的iBASE数据库系列产品为代表。我们知道,自动抽词技术是全文检索中非常关键的技术,自动抽词技术对于英文来说是非常简单的,因为我们可以通过逗号或空格将词抽取出来,但对于中文来说则是非常麻烦的一个问题。比如用户键入“中华人民共和国”,那么,做抽词的时候是按“中华”还是“中华人民”来做呢?这就涉及到汉语的自动切分和自然语言理解的问题,我们试图从内容管理角度用未知组配的算法来实现全文检索,采用单汉字抽词的办法来解决中文的全文检索问题。

---- 值得一提的是,检索还涉及到语法解析器,关键是解决查全、查准率的问题。对于查全率来说,一方面要靠前期加工,即前控处理,通过主题词来标引,这种标引耗费大量的人力,也很难保证检索的准确性。为什么现在国内的很多网站会成为“垃圾网站”,人们上网检索信息,得到的结果往往是一大堆毫不相关的垃圾?就是因为这些网站的内容都没有经过专业的前期加工处理,只是将数据简单地堆放进去,自然无法保证查准率。正是基于这样的情况,目前出现了全文检索系统新的控制思路——后控制模式,通过后控制词表的等同和等级语义控制,减轻用户选取检索词、构造检索式的困难,提高了检索效率和系统易用性。

---- 目前,为提高全文检索的效率,各个大学的情报学院和计算机学院以及一些研究机构,开始探讨后控制词表检索机制。一些信息服务机构和软件开发公司也开始研制和开发一些实验性的和实用性的网上词表辅助全文检索系统。国外比较成功的有美国国防技术信息中心研发的科技报告全文检索系统(http://www.dtic.mil)、美国教育资源信息中心研发的数据库全文检索系统等。应该说,在提供网上专业数据库的全文检索服务方面,国内相对落后一些,目前在Internet上提供专业数据库检索服务的信息服务机构非常少,而且其全文检索体系很不完善。至于在全文检索中增加后控词表机制的,目前不论国际还是国内几乎还没有人进行这方面的研究工作。

---- 问:随着新一代高速互联网的发展,您认为数据库存储与检索技术下一步的研究方向是什么?

---- 答:随着新一代高速互联网的发展,越来越多的应用采用分布式结构,我认为对存储技术的要求越来越低,但是对检索技术的要求却越来越高。数据量、信息量不断地膨胀,在做网上查询时如何提高基于内容管理的内容提取的准确性,我认为是网络环境下检索技术要解决的一个最重要的问题。网上海量的信息对系统的查全、查准率提出了越来越高的要求。真正意义上的全文检索应该是从数据库级字段的检索,涉及多语种的查询,比如中英文、中国繁体、简体混合查询等等。我认为要将查全、查准率紧密地结合起来。目前只能解决基于内码级的匹配,而没有涉及语意概念,这取决于自然语言理解技术或人工智能等其他学科的发展,要靠一系列知识库、推理库来管理。语意概念的匹配是今后发展的一个方向。

---- 另外,查询的速度问题也亟待解决。目前带宽问题仍存在一定的局限,从某种程度上掩盖了查询的速度问题,一旦带宽问题解决了之后,查询的速度将会成为人们关注的焦点。这里的瓶颈在于底层数据库技术问题,例如如何建立均衡索引。我们提出的B*树算法,可以有效地解决主文件检索的速度问题。

---- 此外,数据库网络技术是电子商务的基石。随着电子商务应用的发展,会出现新的数据库结构,即更加简单易管理、速度更为线性化的数据库,基于内容管理的查全、查准率的要求也将更加凸现出来。
发表于 2004-4-11 08:46:40 | 显示全部楼层

畅游数据的海洋

好文章!
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表