生物医学文献数据库作为一种信息资源的检索工具,可以帮助医学专业人员获得相关文献的线索乃至全文,这是文献数据库的基本功能。事实上,人们早就发现,在数据库中所汇集的医学文献之间、组成文献内容的概念之间,还蕴藏着许多重要的关系,通过对文献数据库中的记录进行深入分析就可以获得大量的相关知识。近年来,随着人们关注程度的不断深入,不但直接导致了医学新知识的产生,同时也为非信息专业的用户带来了大量的在文本中进行挖掘和发现的工具。本节简要介绍有关文本数据挖掘和知识发现的基本概念原理和工具。
在医学领域里,人们发现潜在的知识的时候所使用最主要的样本是本书第五章第一节介绍的MEDLINE数据库。MEDLINE数据库作为当前全球权威的生物医学文献检索系统,是国内外医学专业人员最常用的检索工具。对于这种结构化的大型数据库,可以利用其中比较规范的主题词和副主题词进行进一步的挖掘,而不需要进行自然语言处理。这种结构化的数据格式为对MEDLINE进行文本数据挖掘,从中抽取医学知识提供了得天独厚的条件。因此,人们围绕着这一巨大宝藏开展了各种各样的文本挖掘或知识发现的研究工作。
一、 Swanson首先证明可以通过科学文献之间的潜在联系发现新知识
随着科学文献的数量增长和科学学科分类越来越细,学科之间的交流越来越困难。大量不同学科、专业之间科学文献之间一定隐藏着未被发现的联系。这是人们都承认的事实,但是只有Swanson证明了这个事实证明。
Don R. Swanson目前是美国芝加哥大学的信息科学荣誉教授,他于1986年首次在医学文献研究中发现了这种关系的存在,他推理的步骤是:
1. 雷诺氏病是一种治疗方法和病因都未知的血液循环紊乱,在有关雷诺氏病的文献集合中(称之为A文献集),记载了部分雷诺氏病患者血液中有某种异常,如血液粘度升高。
2. 有关食用鱼油的文献集合中(称之为C文献集),有文献记载食用鱼油能纠正这种异常,例如,它可以降低血液粘度。
3. 这两种文献集合之间没有重叠部分,也就是说,没有文献同时提到了雷诺氏病和食用鱼油,也没有文献同时引用了这两个文献集合中的文献。
4. Swanson把这两种知识联系起来,得出食用鱼油(A)应该对雷诺氏病(C)患者有帮助的假设。而联系这两个文献集合的主要概念就是血液粘稠度,Swanson称之为B。正是通过B,两个互相表面没有直接联系的研究主题被联系到一起。
在这个假说提出大约两年后,有人通过临床实验证实了这一点。1988年,Swanson用他的方法提出了周期性偏头痛与镁缺乏之间的联系,后来这种关系也被临床证实。此后,他发现了很多具有隐藏联系的例子,当时他的研究成果引起了人们极大的兴趣。人们首次认识到从文献中可以发现或者挖掘到以前未知的知识。
近年来,随着研究的深入,Swanson进一步扩展自己的研究范围,把自己的研究方向从发现无联系的事件(特定A与特定C之间),扩展到有微弱联系的事件。也就是说,我们可能知道A与C在实验上有联系,但是不知道它们具体是怎样联系的,或者我们想看一看关于A与C之间可能的关系。这时候,同样可以运用Swanson的A-B-C的原理来发现A与C之间的联系B。如一种饮食(A)与一种疾病(C)之间有着什么样的关系,如:“A物质,或者A物质缺乏,会影响到疾病C发生的危险度吗?”
在探究A与C之间的潜在关系之前,应当首先进行传统的MEDLINE交集检索“A AND C”,以判定在医学文献中是否有该问题的直接答案。但是,如果A影响了某种因子(X),这个因子X又影响了C,例如,有两篇文章的标题分别是:
①偏头痛与癫痫的关系
②前瞻性报告:镁缺乏鼠作为癫痫病的动物模型
通过标题或者文摘,我们可以发现偏头痛(A)与镁(C)之间的关系是通过癫痫(B)联系起来的。但是如果检索者事先不知道X,即使A和C的文献中都分别提及了X,那么通过传统的数据库检索就不能判定是否有此类的X存在。那么在传统的检索中就不能发现A与C之间隐藏着的这种联系。
二、 ARROWSMITH:用于发现文献之间潜在联系的工具
该软件由Swanson等开发,可以在网上运行的软件,其网址为http://arrowsmith.psych.uic.edu/。该软件的作用是将A和C两个主题的文献集合中共有的标题词列举出来,由此来反映两个表面上无联系的事件或者联系微弱的事件(如偏头痛与镁)之间的潜在的联系(癫痫)。用户在系统指导下进行两次PubMed检索,分别产生了两个文献集:A和C文献集,将其传送给该程序之后,返回一个显示两个文献集中文献标题中共有的词汇的列表。
对于B列表中所列出的词汇,其首页如下图所示:
图12-2-1 ARROWSMITH的首页
该工具的可以免费使用,具体使用步骤包括:
对于B表中所列出的词汇,可以选择某一种语义类型(如解剖部位、疾病或者药物)来编辑这个词表,也可以设定出现的频次阈值(例如只保留在两个文献集中出现频次均大于一次的单词),调整首次发表日期阈值(例如,可以选择最近2年内出现在A或者C文献集的词汇),或者手动选择某些单词。最后,对于B表中选定的每一个词汇,用户可以同时查看含有A和B的标题(AB titles)与B和C(BC title)的标题,按照这种方式,用户可以获取有生物学意义的
1. 在ARROWSMITH的首页页面上可以直接输入检索词,以此来检索两个互相不相关或者关联不大的两个主题的文献,分别作为A和C两个文献集合,存储到用户当地的计算机内。
2. 先后点击页面上的A-Literature和C-Literature,上传这两个文件。
3. 随后该系统会产生一个列表(B-LIST),表中列出在这两个文件所存储的标题中同时出现的重要单词或者词组。这个表中的每一个词都有可能成为那个神秘的X。用户根据自己的经验把一些没有意义的、含义过于广泛的单词去掉。最后,ARROWSMITH把B-LIST中的单词都以链接的方式表现出来,点击任何一个X都会显示出相应的同时包含A和X的标题,下面一行会显示出同时含有X和C的标题。从这些标题中,用户结合自己的专业知识就可以从中发现主题之间的潜在的联系。(见图12-2-1)
2001年,Swanson 等利用ARROWSMITH开展了可作为生物武器的潜在病毒的研究,发现了还有很多病毒可作为潜在的生物学武器。能够成为生物武器的要受到诸多条件的限制,主要是要有很强的致病性和很强的传播性。但是同时涉及到病毒这两个特性的文章却特别少。于是,Swanson等人将这两个条件确定为A和C,力图通过与A和C有共同联系B找出更多符合条件的病毒。
根据这一设计,他们选定的一类是关于病毒毒力遗传方面(virulence-genetic)的文章,另一类是关于病毒疾病传播的文章,包括病毒的昆虫媒介传播(insect vectors),空气传播(air),以及它在空气中的稳定性(stability of viruses in air)。
将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B)。
Swanson认为ARROWSMITH的目标是帮助生物医学者发现新的、有用的联系,可以把它当作一种扩展MEDLINE搜索能力的软件,而不能替代传统的文献检索,因为它还必须在传统的文献检索的基础上开展工作。
但是,这种方法本身也受到人们的怀疑。例如,美国科学信息研究所(ISI)的Henry Small就表示:“他不在任何实验室工作,没有收集任何新的实验结果,而这些则是科学发现的首要途径。”他认为,如果有关某个疾病的答案确是隐藏在文献中,当然就无庸置疑了。但是,如果偏头痛是由于我们目前干脆就未知的东西引起的,那么无论机器怎样努力工作,也找不到答案。但是对于解释和问题都已经存在的情况,Swanson的方法还是非常非常值得一试的。还有人认为,如果把这个工具交给掌握了医学知识的人的手中,就可能使这些人采用更加系统化的方式来梳理文献。会让他们注意到以前从未注意到的概念和文献。最终会使他们的工作更加有效、更具有创造性。
Swanson的研究成果几乎被人们当作一个传奇一直在医学图书情报界流传。正是由于Swanson的出色研究成果,2000年美国科学技术信息学会授予他该学会的最高荣誉奖。ARROWSMITH系统目前可以在网上免费使用,网址为http://arrowsmith.psych.uic.edu/。
综上所述,文本数据挖掘和知识发现具有强大的发展潜力,如果医学专业人员能够掌握这种工具,结合专业的特长,会为医学基础和临床专业领域的科学发现、信息检索等方面带来极大的帮助。 |