找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 2208|回复: 1

(转贴)统一的中国医学语言系统研究进展

[复制链接]
发表于 2002-9-26 15:18:25 | 显示全部楼层 |阅读模式
统一的中国医学语言系统研究进展  
--------------------------------------------------------------------------------
胡铁军 李丹亚 诸文雁 钱庆 任慧玲 李军莲 杨滨
(中国协和医科大学、中国医学科学院医学信息研究所 北京 100020)

[摘要] "统一的中国医学语言系统" 旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统。该系统由三个部分组成:中国医学用语数据库、中国医学用语语义网络系统、中国医学用语与标引检索语言对应转换系统。该系统的研制在医学文献计算机辅助标引方面发挥着积极作用,在一体化信息检索系统的开发研制方面具有重要作用。
[关键词] 统一的中国医学语言系统 计算机辅助标引系统 一体化信息检索系统
  "统一的中国医学语言系统"是中国医学科学院医学信息研究所正在建设中的一项长期医学信息基础研究和开发项目。该系统的研究旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统。
一.目标和意义
  该研究第一阶段的目标是建立一个基于计算机管理的"统一的中国医学语言系统", 该系统由三个部分组成:中国医学用语数据库(中国医学语料库)、中国医学用语语义网络系统、中国医学用语与标引检索语言对应转换系统。
  该系统将为实现中文生物医学文献计算机标引和分类,加快文献处理速度、提高文献处理的准确性和一致性提供良好的支撑环境;同时它将最大限度地跨越语言表达的差异性和相关信息的分散性,为生物医学信息一体化检索提供有效的帮助。该系统的实现将使传统的中文医学文献处理和检索发生根本性的变革。
二.国内外研究现状
  美国国立医学图书馆自1986年开始研制统一的医学语言系统(Unified Medical Language System,简称UMLS),其目的在于克服计算机生物医学信息检索中的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。该系统由超级叙词表、语义网络、信息资源及专用词典组成。其中超级叙词表囊括了"Medical Subject Headings"(医学主题词表)在内的词表、分类表70余种,涵盖了生物医学概念730,000项,相关名称1,500,000条。该系统在计算机辅助文献标引,在研制开发相关文献性数据库及具有辅助检索功能的IGM和PubMed信息检索系统方面发挥了巨大作用,提高了计算机自动处理程度,极大地方便了用户的查询。但同时亦拉大了在数据检索系统研制开发方面我们与其已缩小的差距。
  国内科技信息界90年代后相继进行了分类-主题词一体化词的研制工作,如北京图书馆编制的《中图法-汉语主题词对照表》、中国医学科学院信息所、图书馆编制的《中图法与MeSH、中医药学主题词对照表》等,它们的最大特点是标引数据时,可同时完成文献的主题标引和分类标引,并提高了标引的速度和一致性。
三.系统的构成与功能
  "统一的中国医学语言系?quot"由三个部分组成。
(一)中国医学用语数据库(中国医学语料库)
  医学语料库来源于10余种生物医学词表、词典及分类表,其来源可分为以下几种类型:
  1.叙词表:如《医学主题词表》、《中医药学主题词表》、UMLS Metathesaurus(统一的医学语言系统-超级叙词表)等。
  2.分类表:如《中国图书资料分类法》、《国际疾病分类法》等。
  3.辞典:如《中药大词典》、《汉英中医药分类辞典》、《英中医学辞海》、《英汉医学词汇》、《英汉医学题名名词词典》、《英汉医学缩略语词典》等。
该词库具备如下特点:
  1. 收词量大,覆盖范围广:包括医学、药学、牙科学、中医药学及其他相关学科的词汇约160余万条。
  2. 收词类型丰富:包括主题词、关键词、化学物质登记号、酶代码、分类号、缩略语等。
  3. 兼容英文词汇,译名规范。
  4. 动态性:实时对词库进行添加、更新和维护。
(二)中国医学用语语义网络系统
  运用对比、分析和综合研究方法,对医学用语数据库的160多万词条进行概念规范、表达方式规范和语义规范,并建立反映相应关系的标准代码,以便于自动化处理。
  1. 概念规范: 概念或涵义作为该数据库的基础和核心, 在以下两个方面进行规范,确认中文医学领域内业已存在的确切概念;概念的规范化表达形式(规范化用语)。
  2. 表达方式规范:对概念的不同表达方式进行同义规范。例如对某一疾病的缩略语、单复数、不同名称、疾病代码等表达方式的规范。
  3. 语义规范:通过分析概念的内涵和外延,建立概念间的上位-下位(分-属)及相关关系, 为智能化的信息检索和知识分析提供强大的基础保证。
(三)中国医学用语数据库与标引检索语言数据库转换系统
通过建立"中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库",完成自然语言与规范化词表语言间的转换,实现自然语言与主题、分类检索语言的一体化。
1. 中国医学用语-医学主题词对应数据库
  依据美国国立医学图书馆2000年《医学主题词表》(即《MeSH》中文版)及《中医药学主题词表》(第二版),对医学用语进行概念、词汇与主题词间对应关系的标示,建立医学用语-医学主题词对应数据库、关键词-副主题词对应库、关键词-特征词对应库、禁用词库等多个数据库。
2. 医学主题词-分类号对应数据库
  以"中国医学用语与医学主题词对应数据库" 和《中国图书资料分类法》(第四版)为基础,对主题词进行与分类号间对应关系的处理。

四.系统研究进展情况
(一)建立"中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库"
  1994年开发研制成功"中国生物医学文献数据库(CBMdisc)",该数据库收录1980年以来国内出版的生物医学期刊1000余种,以及汇编、会议文献总计170余万篇,年增长量20余万篇。为适应数据库建设的需要,解决文献标引量大、成本高、人员少的矛盾,同年开始尝试建立"中国生物医学文献计算机辅助标引系统",而实现该系统的先决条件是基础词表的建立。
  首先利用人工方法从中国生物医学期刊的文献中抽取了近20万条关键词,籍此建立了关键词-主题词对照表(现称中国医学用语-医学主题词对应数据),并以《中国图书馆图书分类法(R类)与医学主题词表(MeSH)、中医药学主题词表》为蓝本,扩充了相应的类目,建立了含有4万余条纪录的主题词-分类号对照表(现称医学主题词-分类号对应数据库),由此形成了一套关键词到主题词、主题词到分类号的自然语言与受控语言的对应转换系统。
1.抽取关键词的原则
  (1) 关键词应词义明确、专指,能反映文献中论述的某一事物、对象、问题的主要概念。
  (2) 关键词应符合概念逻辑、通用、实用,可以用单字、单词或复合词,一般采用名词,不用动词、形容词等词类。
  (3) 关键词应考虑副主题词概念的组配。
2.关键词-主题词对应原则
  (1) 一个关键词至少对应一个主题词,应选用最专指的主题词,如关键词"肝内胆管"对应成主题词"胆管,肝内"。
  (2) 一个关键词如无相应专指主题词对应,应选用概念最接近的几个主题词,或主题词/副主题词组配表达,如关键词"肝囊肿"对应成主题词"肝疾病;囊肿", 关键词"肝损伤"对应成主题词/副主题词"肝/损伤"。
  (3) 一个关键词对应两个以上意义不同的主题词时,应在每个主题词前做出标识"$",如关键词"HP"可以对应成主题词"螺旋菌,幽门",也可对应成主题词"触珠蛋白类"。
  (4) 遇到概念模糊不清的关键词,不予转换主题词。
3.主题词-分类号对应原则
  (1) 一个主题词至少有一个R类(医药卫生)相应类号对应,如主题词"肝疾病"对应成分类号"R575"。
  (2) 必要时,一个主题词可以对应几个类号,如药物主题词可根据不同的用途和药理作用对应几个相应的类号,
  (3) 社会科学、生物学等学科主题词与《中国图书资料分类法》R类的相应类目进行扩充或仿分对应。
  (4) 采用直接、上位类、靠类、多号及组配等技术方法对主题语言与分类语言进行概念的对应处理。
  (5) 副主题词与临床医学专用复分号对应,地理主题词与地理复分号对应。 "中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库"的初步建成,为实现自然语言到主题词乃至分类号的计算机一体化标引系统奠定了坚实的基础。
(二) 中国生物医学文献计算机辅助标引系统
  1996年在上述两个数据库初具规模的基础上,采用C++语言和Visual FoxPro开发成功了"中国生物医学文献计算辅助标引系统",经过不断改进和完善,该系统已成为我国第一个进入实用阶段的计算机辅助标引系统。这一系统使医学文献的标引深度由原来的每篇文献3个主题词增至8-10个,分类号由1个增至3-5个,文献的处理速度由每年处理4万条数据增加至20万条左右,数据的更新速度大大加快,文献的加工处理费用大大降低。
该系统包括主题标引系统和分类标引系统。
1. 主题标引规程
  医学文献主题标引包括主题词、副主题词、主要概念主题词(加权主题词),以及特征词的标识。
  (1) 确定标引源:以科技文献中的标题、文摘、作者关键词作为标引源。
  (2) 确定切分规则:采用最大字串匹配法对文献的标题、文摘、作者关键词逐字进行扫描。
  (3) 确定转换规则:对主题词、副主题词、特征词分别进行转换。
  (4) 确定主题词数目:根据主题词的出现频率和出现位置计算每个主题词、副主题词、特征词的得分,选择得分高的主题词、副主题词和特征词作为标引词。
  (5) 确定主要概念主题词:根据主题词分值的高低,划分主要概念主题词(加星号主题词)和非主要概念主题词。
  (6) 确定高频主题词转换规则:对主题词表中的高频词不予转换,如"研究"。
  (7) 标引人员的干预:标引人员对机标后的主题词进行审核。
  (8) 标引结果的合法性检查:计算机对标引结果进行检查,包括主题词、副主题词、特征词的规范程度,主题词/副主题词组配是否正确等等。
例:机算计标引结果(见①)与人工审核后的最终标引结果(见②)
题 目: 对C肽的新认识-防治糖尿病及其慢性并发症
① 主题词: *C肽" 慢性病" 糖尿病/预防和控制
特征词: 人类
② 主题词: C肽/*治疗应用" 慢性病" 糖尿病/*预防和控制
特征词: 人类

2. 分类标引规程
  根据每篇文献标引的主题词,依据"主题词-分类号对应数据库"及其一些特定规则进行分类号的转换。
  (1)主题词-分类号转换规则:依据"主题词-分类号对应数据库"进行主题词到分类号的转换。如:主题词"肝肿瘤", 转为分类号"R735.7"。
  (2)副主题词-专用复分号转换规则:依据"副主题词-复分号对应表"进行副主题词到复分号的转换,并将复分号加到主类号后。如:副主题词"/诊断"转为复分号"04",故主题词"肝肿瘤/诊断", 转为分类号"R735.704"。
  (3)儿科学类号转换规则:依据"主题词-分类号对应数据库"及"特征词"进行主题词到分类号的转换。如:一篇"儿童高血压诊断标准探讨"的文献,标引的主题词为"高血压/*诊断; 参考值"、特征词为"儿童;人类",如仅依据主题词则分类号转换为"R544.104;R-05",而依据主题词和特征词则分类号转换为"R725.441.04;R-05"。
  (4)外源性和内源性物质类号转换规则:一个主题词既为外源性物质又为内源性物质时,依据标引的副主题词确定类号的转换。如主题?quot"C肽" 既可转为外源性物质类号"R977.6"又可转为内源性物质类号"R341.43",如同时有副主题词"/治疗应用"存在时,则主题词"C肽"仅转为分类号"R977.6"。
  (5)地理主题词-地理复分号转换规则:依据"地理主题词-复分号对应表" 进行地理主题词到地理复分号的转换。为了适应计算机检索的需求,不将地理复分号一一加到每个主类号后,而是将其设为单独的类号,并以"RZ"作为地理复分类号的标识,如地理主题词"北京" 转为分类号"RZ21"。
  (6)实验动物类号转换规则:原则与地理主题词-地理复分号转换规则类似,即不一一将"-332"加到每个主类号后,而是将其设为单独的类?quot"R-332"。
五. 展望
  "统一的中国医学语言系统" 作为一项长期研究和开发项目已取得了一些进展,特别是在"中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库"的建设方面、在"医学文献计算机辅助标引系统"的开发研制方面取得了实质性的进展,但由于现在使用的"中国医学用语-医学主题词对应数据库"中的关键词系从期刊文献中抽取,词汇覆盖面相对较窄,缺乏语义规范,因此深入研制规范化程度高、覆盖面广的生物医学词库,并建立词语语义之间的联系显得尤为重要和迫切。
  建成后的"统一的中国医学语言系?quot" 对医学词汇的规范、统一、标准化及科技信息的交流具有重要价值,它可用于英汉医学用语对译式辅助翻译系统,用于基于自然语言、中英文双语功能的检索软件的开发、研制。该系统将有助于克服计算机生物医学信息检索中的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。该系统将在提高文献标引质量、处理速度、方便检索和提高检索效率,开发高水平数据库及信息检索系统赶超国际先进水平方面都有着重要意义。

主要参考文献:
  1. U.S.Department of Health and Human Services. Unified Medical Language System. 11th ed. USA: 2000. 1-136
  2. 方 平. 试论一体化语言系统(UMLS)超级叙词表的特点.图书情报工作,1998,(10):26-29
  3. 许培扬,李丹亚,胡铁军. 中国生物医学文献光盘数据库检索系统-文献处理的原则与方法. 医学图书情报工作, 1996;17(1): 6-9
  4. 钱 庆. 中国生物医学文献主题标引系统的评价与研究. 硕士学位论文, 2000. 1-44
  5. 中国医学科学院医学信息研究所. 中国生物医学文献数据库. 2000
  6. PubMed. http://www.nlm.nih.gov/entrez/query.fcgi


The development of an Unified Chinses Medical Language System
  Hu Tiejun, Li Danya, Zhu Wenyan, Qingqi, Ren Huiling, Li Junlian, Yangbin (Institute of Medical Information, Peking University of Medical College and Chinese Academy of Medical Science 100020)
  ABSTRACT It is the objective of the Unified Chinese Medical Language System that to develop a computerized integrated biomedical language system which could be continually developed in the future. The system consists of three parts: the database of the Chinese Medical Metathesaurus, the Semantic Network of the Chinese Medical Language, the corresponding system between the Chinese medical language and the medical index-retrieval language. It will play an important and active role in developing a computer assistant system for automatic indexing the medical literatures and an integrated information retrieval system.

发表于 2002-9-26 18:23:20 | 显示全部楼层

(转贴)统一的中国医学语言系统研究进展

上海的包含飞教授也在做这方面的工作
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表