找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 5926|回复: 19

有对基于医学文献的知识发现感兴趣的吗?

[复制链接]
发表于 2006-11-6 22:12:01 | 显示全部楼层 |阅读模式
想做基于医学文献的知识发现方面的研究,不知有没有对这方面感兴趣的朋友,大家一起探讨一下!
发表于 2006-11-7 15:56:23 | 显示全部楼层
中国医科大学的崔雷教授一直在做吧
发表于 2006-11-7 18:21:52 | 显示全部楼层
文献是指什么文献?期刊吗?
发表于 2006-11-7 19:23:42 | 显示全部楼层
应该是期刊上的文章吧。

基于医学文献的知识发现指什么呢?外部指标如作者机构期刊等,还是指具体知识内容?
 楼主| 发表于 2006-11-7 23:01:05 | 显示全部楼层

回复 #3 dongxi 的帖子

主要指文献的内容
 楼主| 发表于 2006-11-7 23:02:02 | 显示全部楼层
中西医结合方面的知识发现不知有没有人做过研究?
发表于 2006-11-8 01:02:06 | 显示全部楼层
原帖由 peggy 于 2006-11-7 23:01 发表
主要指文献的内容


什么文献的内容?期刊的内容吗?
看过一些期刊文章的词频分析类研究和文献计量方面的研究,自己也做过一些文献计量的工作。觉得其效果不理想。

——如果效果理想的话,病历也不必结构化录入了?
发表于 2006-11-8 01:08:17 | 显示全部楼层
大家都知道,常见的文献,都是对两个知识点产生关联分析,比如吸烟-〉肺癌。那么,对于三个知识点以上多因素分析的文章,不是没有,但很多存在盲区。于是,犹他提出,借助pubmed,展开三元知识检索。

成功案例有:反应停引起胎儿异常。文献检索得出的结论早于临床试验。不过没有临床试验的验证,一切就是假说。我记得犹他大学一直提供三元知识pubmed的搜引擎,帮助大家寻找可能感兴趣德临床研究方向。不过记不得是哪个link, 感兴趣的可以看看。
发表于 2006-11-8 08:52:26 | 显示全部楼层
你是说swanson的相关互补文献吗?arrowsmith? 应该是芝加哥大学。一会儿发一篇文章吧。
发表于 2006-11-8 08:54:31 | 显示全部楼层

从文献数据库中发现潜在知识的研究

生物医学文献数据库作为一种信息资源的检索工具,可以帮助医学专业人员获得相关文献的线索乃至全文,这是文献数据库的基本功能。事实上,人们早就发现,在数据库中所汇集的医学文献之间、组成文献内容的概念之间,还蕴藏着许多重要的关系,通过对文献数据库中的记录进行深入分析就可以获得大量的相关知识。近年来,随着人们关注程度的不断深入,不但直接导致了医学新知识的产生,同时也为非信息专业的用户带来了大量的在文本中进行挖掘和发现的工具。本节简要介绍有关文本数据挖掘和知识发现的基本概念原理和工具。
在医学领域里,人们发现潜在的知识的时候所使用最主要的样本是本书第五章第一节介绍的MEDLINE数据库。MEDLINE数据库作为当前全球权威的生物医学文献检索系统,是国内外医学专业人员最常用的检索工具。对于这种结构化的大型数据库,可以利用其中比较规范的主题词和副主题词进行进一步的挖掘,而不需要进行自然语言处理。这种结构化的数据格式为对MEDLINE进行文本数据挖掘,从中抽取医学知识提供了得天独厚的条件。因此,人们围绕着这一巨大宝藏开展了各种各样的文本挖掘或知识发现的研究工作。
一、        Swanson首先证明可以通过科学文献之间的潜在联系发现新知识
随着科学文献的数量增长和科学学科分类越来越细,学科之间的交流越来越困难。大量不同学科、专业之间科学文献之间一定隐藏着未被发现的联系。这是人们都承认的事实,但是只有Swanson证明了这个事实证明。
Don R. Swanson目前是美国芝加哥大学的信息科学荣誉教授,他于1986年首次在医学文献研究中发现了这种关系的存在,他推理的步骤是:
1.        雷诺氏病是一种治疗方法和病因都未知的血液循环紊乱,在有关雷诺氏病的文献集合中(称之为A文献集),记载了部分雷诺氏病患者血液中有某种异常,如血液粘度升高。
2.        有关食用鱼油的文献集合中(称之为C文献集),有文献记载食用鱼油能纠正这种异常,例如,它可以降低血液粘度。
3.        这两种文献集合之间没有重叠部分,也就是说,没有文献同时提到了雷诺氏病和食用鱼油,也没有文献同时引用了这两个文献集合中的文献。
4.        Swanson把这两种知识联系起来,得出食用鱼油(A)应该对雷诺氏病(C)患者有帮助的假设。而联系这两个文献集合的主要概念就是血液粘稠度,Swanson称之为B。正是通过B,两个互相表面没有直接联系的研究主题被联系到一起。
在这个假说提出大约两年后,有人通过临床实验证实了这一点。1988年,Swanson用他的方法提出了周期性偏头痛与镁缺乏之间的联系,后来这种关系也被临床证实。此后,他发现了很多具有隐藏联系的例子,当时他的研究成果引起了人们极大的兴趣。人们首次认识到从文献中可以发现或者挖掘到以前未知的知识。
近年来,随着研究的深入,Swanson进一步扩展自己的研究范围,把自己的研究方向从发现无联系的事件(特定A与特定C之间),扩展到有微弱联系的事件。也就是说,我们可能知道A与C在实验上有联系,但是不知道它们具体是怎样联系的,或者我们想看一看关于A与C之间可能的关系。这时候,同样可以运用Swanson的A-B-C的原理来发现A与C之间的联系B。如一种饮食(A)与一种疾病(C)之间有着什么样的关系,如:“A物质,或者A物质缺乏,会影响到疾病C发生的危险度吗?”
在探究A与C之间的潜在关系之前,应当首先进行传统的MEDLINE交集检索“A AND C”,以判定在医学文献中是否有该问题的直接答案。但是,如果A影响了某种因子(X),这个因子X又影响了C,例如,有两篇文章的标题分别是:
①偏头痛与癫痫的关系
②前瞻性报告:镁缺乏鼠作为癫痫病的动物模型
通过标题或者文摘,我们可以发现偏头痛(A)与镁(C)之间的关系是通过癫痫(B)联系起来的。但是如果检索者事先不知道X,即使A和C的文献中都分别提及了X,那么通过传统的数据库检索就不能判定是否有此类的X存在。那么在传统的检索中就不能发现A与C之间隐藏着的这种联系。
二、        ARROWSMITH:用于发现文献之间潜在联系的工具
该软件由Swanson等开发,可以在网上运行的软件,其网址为http://arrowsmith.psych.uic.edu/。该软件的作用是将A和C两个主题的文献集合中共有的标题词列举出来,由此来反映两个表面上无联系的事件或者联系微弱的事件(如偏头痛与镁)之间的潜在的联系(癫痫)。用户在系统指导下进行两次PubMed检索,分别产生了两个文献集:A和C文献集,将其传送给该程序之后,返回一个显示两个文献集中文献标题中共有的词汇的列表。
对于B列表中所列出的词汇,其首页如下图所示:

图12-2-1 ARROWSMITH的首页
该工具的可以免费使用,具体使用步骤包括:

对于B表中所列出的词汇,可以选择某一种语义类型(如解剖部位、疾病或者药物)来编辑这个词表,也可以设定出现的频次阈值(例如只保留在两个文献集中出现频次均大于一次的单词),调整首次发表日期阈值(例如,可以选择最近2年内出现在A或者C文献集的词汇),或者手动选择某些单词。最后,对于B表中选定的每一个词汇,用户可以同时查看含有A和B的标题(AB titles)与B和C(BC title)的标题,按照这种方式,用户可以获取有生物学意义的
1.        在ARROWSMITH的首页页面上可以直接输入检索词,以此来检索两个互相不相关或者关联不大的两个主题的文献,分别作为A和C两个文献集合,存储到用户当地的计算机内。
2.        先后点击页面上的A-Literature和C-Literature,上传这两个文件。
3.        随后该系统会产生一个列表(B-LIST),表中列出在这两个文件所存储的标题中同时出现的重要单词或者词组。这个表中的每一个词都有可能成为那个神秘的X。用户根据自己的经验把一些没有意义的、含义过于广泛的单词去掉。最后,ARROWSMITH把B-LIST中的单词都以链接的方式表现出来,点击任何一个X都会显示出相应的同时包含A和X的标题,下面一行会显示出同时含有X和C的标题。从这些标题中,用户结合自己的专业知识就可以从中发现主题之间的潜在的联系。(见图12-2-1)




2001年,Swanson 等利用ARROWSMITH开展了可作为生物武器的潜在病毒的研究,发现了还有很多病毒可作为潜在的生物学武器。能够成为生物武器的要受到诸多条件的限制,主要是要有很强的致病性和很强的传播性。但是同时涉及到病毒这两个特性的文章却特别少。于是,Swanson等人将这两个条件确定为A和C,力图通过与A和C有共同联系B找出更多符合条件的病毒。


根据这一设计,他们选定的一类是关于病毒毒力遗传方面(virulence-genetic)的文章,另一类是关于病毒疾病传播的文章,包括病毒的昆虫媒介传播(insect vectors),空气传播(air),以及它在空气中的稳定性(stability of viruses in air)。
将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B)。
Swanson认为ARROWSMITH的目标是帮助生物医学者发现新的、有用的联系,可以把它当作一种扩展MEDLINE搜索能力的软件,而不能替代传统的文献检索,因为它还必须在传统的文献检索的基础上开展工作。
但是,这种方法本身也受到人们的怀疑。例如,美国科学信息研究所(ISI)的Henry Small就表示:“他不在任何实验室工作,没有收集任何新的实验结果,而这些则是科学发现的首要途径。”他认为,如果有关某个疾病的答案确是隐藏在文献中,当然就无庸置疑了。但是,如果偏头痛是由于我们目前干脆就未知的东西引起的,那么无论机器怎样努力工作,也找不到答案。但是对于解释和问题都已经存在的情况,Swanson的方法还是非常非常值得一试的。还有人认为,如果把这个工具交给掌握了医学知识的人的手中,就可能使这些人采用更加系统化的方式来梳理文献。会让他们注意到以前从未注意到的概念和文献。最终会使他们的工作更加有效、更具有创造性。
Swanson的研究成果几乎被人们当作一个传奇一直在医学图书情报界流传。正是由于Swanson的出色研究成果,2000年美国科学技术信息学会授予他该学会的最高荣誉奖。ARROWSMITH系统目前可以在网上免费使用,网址为http://arrowsmith.psych.uic.edu/
综上所述,文本数据挖掘和知识发现具有强大的发展潜力,如果医学专业人员能够掌握这种工具,结合专业的特长,会为医学基础和临床专业领域的科学发现、信息检索等方面带来极大的帮助。
发表于 2006-11-8 11:14:09 | 显示全部楼层
从web of science看2006年诺贝尔奖
http://www.dxy.cn/portal/knowledge/2/88.html
发表于 2006-11-8 11:57:06 | 显示全部楼层
上面的例子是否在一定程度上等于……等于什么呢?不好说,
通过文章关键词或主题词的关联计算,发现出一直不为人所注意的现象与背后存在的可能。
这是否想用机器阅读代替人的阅读,用机器理解代替人的理解?
机器理解文献要借助标引的关键词或主题词,要以精确,至少要有人的参与,完全机器的结果往往与人工标引的结果的准确性有距离。

当然了这种机器理解还是有其价值的——能够进行大量的重复劳动,在人们不在意的地方去做各种尝试。可以说是人手劳动的很好补充。
发表于 2006-11-8 18:29:25 | 显示全部楼层
机器的阅读目前还只能基于主题词转化、词频分析、词义聚类等技术吧。真正智能的阅读似乎还未开发出来。
 楼主| 发表于 2006-11-8 21:21:15 | 显示全部楼层
有人将swanson的提出的方法称为"非相关文献",各位有何高见?
想请教哪位做过中文文本的自动抽词呢?有没有免费的软件可推荐?
 楼主| 发表于 2006-11-8 21:22:12 | 显示全部楼层
是叫做"基于非相关文献的知识发现".大家认为叫非相关是否确切?
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表