找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 5871|回复: 18

[讨论]实现结构化文本病历是否可行?

[复制链接]
发表于 2003-6-28 17:41:54 | 显示全部楼层 |阅读模式
以前我们在这个论坛上讨论过表格病历,现在请大家再讨论一下“结构化文本病历”是否可以实现。
所谓“结构化文本病历”是把结构化病历数据以平面文本方式表示出来,这是界于一般的文本病历(如以WORD文档)与表格病历之间的一种更理想的病历数据表达与组织方式。因为一般的文本病历只能以文件方式存贮,数据没有结构化,难以检索和分析利用;而表格病历格式单一,适应性差,难以处理叙述性病历内容。如果将俩者优点合并,就可以实现比较完善的电子病历。
实现“结构化文本病历”,关键要实现“结构化病历描述语言”。因为文本是语言文字的记录载体。所以,我们需要一种计算机能够处理的,非常接近人类自然语言的,电子病历专用的结构化病历描述语言。这种语言建立在数据库基础之上,以一定的信息模型(如RIM)为“语法”模型,以一定的标准规范(如CDA)为表达与记录的“方言”,以XML为上下文标记语言。这种语言有信息累积功能(通过数据库存贮),有知识发现功能(基于模式识别与数据挖掘技术),有丰富的信息表达功能(通过XML、XSLT、XHTML),有很强的加密功能(可能采用数据签名、PKI等技术),有很高的通用性(可以像SQL语言那样),......
发表于 2003-6-29 20:32:38 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

这种方法的最大难点在于属性描述语言的标准化,实际是一颗知识树的标准化。如果不标准,没有人会使用和能够使用,而标准如何能够使不同层次,不同用途的方方面面能够达成共识,能够满意使用。应该清醒地认识到,构建这样一棵知识树是一个天文数字的工作,需要众多医学专业人员共同工作。美国80年代有一个UMLS(Unified Medical Language System)项目,由美国国家医学图书馆(NLM)前头,目标是构建一个基于树形结构的临床描述语言,而且能够作为中间语言使用。该项目耗资巨大,目前效果并不理想,可见实现该目标的难度。我建议,感兴趣的网友可以研究一下UNLS和HL7 3.0。
 楼主| 发表于 2003-6-30 08:39:03 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

Unified Medical Language System:
1986年,美国国立医学图书馆(NLM)开始了这个长期的研究和开发项目。其目的是开发一种能帮助专家和研究人员从大量不同的生物信息来源检索和整合电子生物信息的系统,便于人们联接各种分散的信息系统,包括:CPR、文献著作数据库、事实数据库、专家系统。UMLS提出了可以广泛用于不同系统的解决不同术语和跨数据库检索问题的“知识源”(Knowledge Sources)。
UMLS项目由多个NLM团队管理。NLM鼓励用户免费使用UMLS产品。知识源在后继系统的反馈的基础上进行精炼和扩充。
UMLS知识源包括:元辞典(UMLS Metathesaurus)、专家语典(SPECIALIST Lexicon)、语意网络(UMLS Semantic Network)。
元辞典提供了统一的集成100多种生物医学词表和分类(以英语为主,少量双字节语种)的同一个概念的不同名称的链接。
专家语典包括很多术语、构成语、英语词(包括动词)的造句语法信息。
语意网络包括包括类型和分类信息,所有元概念在这些分类中可以相关联。
最有名的MEDLINE/PubMed就是使用UMLS的系统之一。
 楼主| 发表于 2003-6-30 08:52:35 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

UMLS项目耗资巨大,目前效果并不理想。我想可能原因是它采用了“静态人工编码”的方式,而事实上“动态自动编码”是实现复杂的高级属性描述性语言必须采用的技术。由于动态、与自动这俩个特征,可以使这种语言具有有强的适应性和自完善性(比UMLS的反馈->手工精炼方式更及时有效);可以使这种语言具有一定的成长性,便于适应不同水平的用户不同使用需求。
希望有兴趣的朋友再多发表看法!
发表于 2003-7-1 15:55:22 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

    我对文本病历结构化的理解是:把病历拆分为若干可规范或不可规范的组成元素,而且这种拆分可以在实际应用中进行,这样就离病历的结构化不远了;拆分形成的元素中的一些统一元素,就成为检索的依据了。
    纵观各种文本病历(包括有些已经制定为表格的如产科的产程记录),我曾经将其粗略地划分为文本段、附加表(如扣诊浊音界表)、所见单(一些规范化填写的病历)、标记图(如图形的手术方案)等几种类型的元素,常规的病历几乎都由这几类组成,每个元素再给予命名属性,在各种病历中可重复使用。
    至于技术上的实现,就看大家各自喜欢什么工具了。
 楼主| 发表于 2003-7-1 16:32:11 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

zlzyl 所说的结构化是划分病历构成元素,其实这个在HL7 CDA中已有规范。这种结构化在CDA中属于Level One,比较容易实现。但他还不能表示病历文本的语义。虽然基于这种水平的结构化可以实现一定程度的病历检索功能,但还是不能按语义进行病历检索。
而要实现按语义检索病历,必须将文本病历划分更细的语义元素、实现一种语法。这有点接近还没制定出来的CDA Levle Three。
发表于 2003-7-9 03:18:40 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

下面引用由大龄青年2003/06/29 08:32pm 发表的内容:
这种方法的最大难点在于属性描述语言的标准化,实际是一颗知识树的标准化。如果不标准,没有人会使用和能够使用,而标准如何能够使不同层次,不同用途的方方面面能够达成共识,能够满意使用。应该清醒地认识到, ...
读过一篇关于协和与医科学院搞的中国医学语言系统的文章,看起来很NB,象中国的UMLS。不知有人见过没有,不知是否在临床上有应用?
发表于 2003-7-9 09:49:06 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

那篇文章我也看过,在临床上没有应用,是在医科院那边用在检索上。
 楼主| 发表于 2003-7-9 14:47:24 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

什么文章,我没看过,谁能找出来让大家都能看看?
发表于 2003-7-9 15:56:18 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

我找找,比较早了,不知道能不能找到
发表于 2003-7-10 06:23:22 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

统一的中国医学语言系统研究进展  
--------------------------------------------------------------------------------
胡铁军 李丹亚 诸文雁 钱庆 任慧玲 李军莲 杨滨
(中国协和医科大学、中国医学科学院医学信息研究所 北京 100020)

[摘要] "统一的中国医学语言系统" 旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统。该系统由三个部分组成:中国医学用语数据库、中国医学用语语义网络系统、中国医学用语与标引检索语言对应转换系统。该系统的研制在医学文献计算机辅助标引方面发挥着积极作用,在一体化信息检索系统的开发研制方面具有重要作用。
[关键词] 统一的中国医学语言系统 计算机辅助标引系统 一体化信息检索系统
  "统一的中国医学语言系统"是中国医学科学院医学信息研究所正在建设中的一项长期医学信息基础研究和开发项目。该系统的研究旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统。
一.目标和意义
  该研究第一阶段的目标是建立一个基于计算机管理的"统一的中国医学语言系统", 该系统由三个部分组成:中国医学用语数据库(中国医学语料库)、中国医学用语语义网络系统、中国医学用语与标引检索语言对应转换系统。
  该系统将为实现中文生物医学文献计算机标引和分类,加快文献处理速度、提高文献处理的准确性和一致性提供良好的支撑环境;同时它将最大限度地跨越语言表达的差异性和相关信息的分散性,为生物医学信息一体化检索提供有效的帮助。该系统的实现将使传统的中文医学文献处理和检索发生根本性的变革。
二.国内外研究现状
  美国国立医学图书馆自1986年开始研制统一的医学语言系统(Unified Medical Language System,简称UMLS),其目的在于克服计算机生物医学信息检索中的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。该系统由超级叙词表、语义网络、信息资源及专用词典组成。其中超级叙词表囊括了"Medical Subject Headings"(医学主题词表)在内的词表、分类表70余种,涵盖了生物医学概念730,000项,相关名称1,500,000条。该系统在计算机辅助文献标引,在研制开发相关文献性数据库及具有辅助检索功能的IGM和PubMed信息检索系统方面发挥了巨大作用,提高了计算机自动处理程度,极大地方便了用户的查询。但同时亦拉大了在数据检索系统研制开发方面我们与其已缩小的差距。
  国内科技信息界90年代后相继进行了分类-主题词一体化词的研制工作,如北京图书馆编制的《中图法-汉语主题词对照表》、中国医学科学院信息所、图书馆编制的《中图法与MeSH、中医药学主题词对照表》等,它们的最大特点是标引数据时,可同时完成文献的主题标引和分类标引,并提高了标引的速度和一致性。
三.系统的构成与功能
  "统一的中国医学语言系?quot"由三个部分组成。
(一)中国医学用语数据库(中国医学语料库)
  医学语料库来源于10余种生物医学词表、词典及分类表,其来源可分为以下几种类型:
  1.叙词表:如《医学主题词表》、《中医药学主题词表》、UMLS Metathesaurus(统一的医学语言系统-超级叙词表)等。
  2.分类表:如《中国图书资料分类法》、《国际疾病分类法》等。
  3.辞典:如《中药大词典》、《汉英中医药分类辞典》、《英中医学辞海》、《英汉医学词汇》、《英汉医学题名名词词典》、《英汉医学缩略语词典》等。
该词库具备如下特点:
  1. 收词量大,覆盖范围广:包括医学、药学、牙科学、中医药学及其他相关学科的词汇约160余万条。
  2. 收词类型丰富:包括主题词、关键词、化学物质登记号、酶代码、分类号、缩略语等。
  3. 兼容英文词汇,译名规范。
  4. 动态性:实时对词库进行添加、更新和维护。
(二)中国医学用语语义网络系统
  运用对比、分析和综合研究方法,对医学用语数据库的160多万词条进行概念规范、表达方式规范和语义规范,并建立反映相应关系的标准代码,以便于自动化处理。
  1. 概念规范: 概念或涵义作为该数据库的基础和核心, 在以下两个方面进行规范,确认中文医学领域内业已存在的确切概念;概念的规范化表达形式(规范化用语)。
  2. 表达方式规范:对概念的不同表达方式进行同义规范。例如对某一疾病的缩略语、单复数、不同名称、疾病代码等表达方式的规范。
  3. 语义规范:通过分析概念的内涵和外延,建立概念间的上位-下位(分-属)及相关关系, 为智能化的信息检索和知识分析提供强大的基础保证。
(三)中国医学用语数据库与标引检索语言数据库转换系统
通过建立"中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库",完成自然语言与规范化词表语言间的转换,实现自然语言与主题、分类检索语言的一体化。
1. 中国医学用语-医学主题词对应数据库
  依据美国国立医学图书馆2000年《医学主题词表》(即《MeSH》中文版)及《中医药学主题词表》(第二版),对医学用语进行概念、词汇与主题词间对应关系的标示,建立医学用语-医学主题词对应数据库、关键词-副主题词对应库、关键词-特征词对应库、禁用词库等多个数据库。
2. 医学主题词-分类号对应数据库
  以"中国医学用语与医学主题词对应数据库" 和《中国图书资料分类法》(第四版)为基础,对主题词进行与分类号间对应关系的处理。

四.系统研究进展情况
(一)建立"中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库"
  1994年开发研制成功"中国生物医学文献数据库(CBMdisc)",该数据库收录1980年以来国内出版的生物医学期刊1000余种,以及汇编、会议文献总计170余万篇,年增长量20余万篇。为适应数据库建设的需要,解决文献标引量大、成本高、人员少的矛盾,同年开始尝试建立"中国生物医学文献计算机辅助标引系统",而实现该系统的先决条件是基础词表的建立。
  首先利用人工方法从中国生物医学期刊的文献中抽取了近20万条关键词,籍此建立了关键词-主题词对照表(现称中国医学用语-医学主题词对应数据),并以《中国图书馆图书分类法(R类)与医学主题词表(MeSH)、中医药学主题词表》为蓝本,扩充了相应的类目,建立了含有4万余条纪录的主题词-分类号对照表(现称医学主题词-分类号对应数据库),由此形成了一套关键词到主题词、主题词到分类号的自然语言与受控语言的对应转换系统。
1.抽取关键词的原则
  (1) 关键词应词义明确、专指,能反映文献中论述的某一事物、对象、问题的主要概念。
  (2) 关键词应符合概念逻辑、通用、实用,可以用单字、单词或复合词,一般采用名词,不用动词、形容词等词类。
  (3) 关键词应考虑副主题词概念的组配。
2.关键词-主题词对应原则
  (1) 一个关键词至少对应一个主题词,应选用最专指的主题词,如关键词"肝内胆管"对应成主题词"胆管,肝内"。
  (2) 一个关键词如无相应专指主题词对应,应选用概念最接近的几个主题词,或主题词/副主题词组配表达,如关键词"肝囊肿"对应成主题词"肝疾病;囊肿", 关键词"肝损伤"对应成主题词/副主题词"肝/损伤"。
  (3) 一个关键词对应两个以上意义不同的主题词时,应在每个主题词前做出标识"$",如关键词"HP"可以对应成主题词"螺旋菌,幽门",也可对应成主题词"触珠蛋白类"。
  (4) 遇到概念模糊不清的关键词,不予转换主题词。
3.主题词-分类号对应原则
  (1) 一个主题词至少有一个R类(医药卫生)相应类号对应,如主题词"肝疾病"对应成分类号"R575"。
  (2) 必要时,一个主题词可以对应几个类号,如药物主题词可根据不同的用途和药理作用对应几个相应的类号,
  (3) 社会科学、生物学等学科主题词与《中国图书资料分类法》R类的相应类目进行扩充或仿分对应。
  (4) 采用直接、上位类、靠类、多号及组配等技术方法对主题语言与分类语言进行概念的对应处理。
  (5) 副主题词与临床医学专用复分号对应,地理主题词与地理复分号对应。 "中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库"的初步建成,为实现自然语言到主题词乃至分类号的计算机一体化标引系统奠定了坚实的基础。
(二) 中国生物医学文献计算机辅助标引系统
  1996年在上述两个数据库初具规模的基础上,采用C++语言和Visual FoxPro开发成功了"中国生物医学文献计算辅助标引系统",经过不断改进和完善,该系统已成为我国第一个进入实用阶段的计算机辅助标引系统。这一系统使医学文献的标引深度由原来的每篇文献3个主题词增至8-10个,分类号由1个增至3-5个,文献的处理速度由每年处理4万条数据增加至20万条左右,数据的更新速度大大加快,文献的加工处理费用大大降低。
该系统包括主题标引系统和分类标引系统。
1. 主题标引规程
  医学文献主题标引包括主题词、副主题词、主要概念主题词(加权主题词),以及特征词的标识。
  (1) 确定标引源:以科技文献中的标题、文摘、作者关键词作为标引源。
  (2) 确定切分规则:采用最大字串匹配法对文献的标题、文摘、作者关键词逐字进行扫描。
  (3) 确定转换规则:对主题词、副主题词、特征词分别进行转换。
  (4) 确定主题词数目:根据主题词的出现频率和出现位置计算每个主题词、副主题词、特征词的得分,选择得分高的主题词、副主题词和特征词作为标引词。
  (5) 确定主要概念主题词:根据主题词分值的高低,划分主要概念主题词(加星号主题词)和非主要概念主题词。
  (6) 确定高频主题词转换规则:对主题词表中的高频词不予转换,如"研究"。
  (7) 标引人员的干预:标引人员对机标后的主题词进行审核。
  (8) 标引结果的合法性检查:计算机对标引结果进行检查,包括主题词、副主题词、特征词的规范程度,主题词/副主题词组配是否正确等等。
例:机算计标引结果(见①)与人工审核后的最终标引结果(见②)
题 目: 对C肽的新认识-防治糖尿病及其慢性并发症
① 主题词: *C肽" 慢性病" 糖尿病/预防和控制
特征词: 人类
② 主题词: C肽/*治疗应用" 慢性病" 糖尿病/*预防和控制
特征词: 人类

2. 分类标引规程
  根据每篇文献标引的主题词,依据"主题词-分类号对应数据库"及其一些特定规则进行分类号的转换。
  (1)主题词-分类号转换规则:依据"主题词-分类号对应数据库"进行主题词到分类号的转换。如:主题词"肝肿瘤", 转为分类号"R735.7"。
  (2)副主题词-专用复分号转换规则:依据"副主题词-复分号对应表"进行副主题词到复分号的转换,并将复分号加到主类号后。如:副主题词"/诊断"转为复分号"04",故主题词"肝肿瘤/诊断", 转为分类号"R735.704"。
  (3)儿科学类号转换规则:依据"主题词-分类号对应数据库"及"特征词"进行主题词到分类号的转换。如:一篇"儿童高血压诊断标准探讨"的文献,标引的主题词为"高血压/*诊断; 参考值"、特征词为"儿童;人类",如仅依据主题词则分类号转换为"R544.104;R-05",而依据主题词和特征词则分类号转换为"R725.441.04;R-05"。
  (4)外源性和内源性物质类号转换规则:一个主题词既为外源性物质又为内源性物质时,依据标引的副主题词确定类号的转换。如主题?quot"C肽" 既可转为外源性物质类号"R977.6"又可转为内源性物质类号"R341.43",如同时有副主题词"/治疗应用"存在时,则主题词"C肽"仅转为分类号"R977.6"。
  (5)地理主题词-地理复分号转换规则:依据"地理主题词-复分号对应表" 进行地理主题词到地理复分号的转换。为了适应计算机检索的需求,不将地理复分号一一加到每个主类号后,而是将其设为单独的类号,并以"RZ"作为地理复分类号的标识,如地理主题词"北京" 转为分类号"RZ21"。
  (6)实验动物类号转换规则:原则与地理主题词-地理复分号转换规则类似,即不一一将"-332"加到每个主类号后,而是将其设为单独的类?quot"R-332"。
五. 展望
  "统一的中国医学语言系统" 作为一项长期研究和开发项目已取得了一些进展,特别是在"中国医学用语-医学主题词对应数据库"及"医学主题词-分类号对应数据库"的建设方面、在"医学文献计算机辅助标引系统"的开发研制方面取得了实质性的进展,但由于现在使用的"中国医学用语-医学主题词对应数据库"中的关键词系从期刊文献中抽取,词汇覆盖面相对较窄,缺乏语义规范,因此深入研制规范化程度高、覆盖面广的生物医学词库,并建立词语语义之间的联系显得尤为重要和迫切。
  建成后的"统一的中国医学语言系?quot" 对医学词汇的规范、统一、标准化及科技信息的交流具有重要价值,它可用于英汉医学用语对译式辅助翻译系统,用于基于自然语言、中英文双语功能的检索软件的开发、研制。该系统将有助于克服计算机生物医学信息检索中的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。该系统将在提高文献标引质量、处理速度、方便检索和提高检索效率,开发高水平数据库及信息检索系统赶超国际先进水平方面都有着重要意义。

主要参考文献:
  1. U.S.Department of Health and Human Services. Unified Medical Language System. 11th ed. USA: 2000. 1-136
  2. 方 平. 试论一体化语言系统(UMLS)超级叙词表的特点.图书情报工作,1998,(10):26-29
  3. 许培扬,李丹亚,胡铁军. 中国生物医学文献光盘数据库检索系统-文献处理的原则与方法. 医学图书情报工作, 1996;17(1): 6-9
  4. 钱 庆. 中国生物医学文献主题标引系统的评价与研究. 硕士学位论文, 2000. 1-44
  5. 中国医学科学院医学信息研究所. 中国生物医学文献数据库. 2000
  6. PubMed. http://www.nlm.nih.gov/entrez/query.fcgi


The development of an Unified Chinses Medical Language System
  Hu Tiejun, Li Danya, Zhu Wenyan, Qingqi, Ren Huiling, Li Junlian, Yangbin (Institute of Medical Information, Peking University of Medical College and Chinese Academy of Medical Science 100020)
  ABSTRACT It is the objective of the Unified Chinese Medical Language System that to develop a computerized integrated biomedical language system which could be continually developed in the future. The system consists of three parts: the database of the Chinese Medical Metathesaurus, the Semantic Network of the Chinese Medical Language, the corresponding system between the Chinese medical language and the medical index-retrieval language. It will play an important and active role in developing a computer assistant system for automatic indexing the medical literatures and an integrated information retrieval system.



[返 回]


--------------------------------------------------------------------------------

  
发表于 2003-7-10 06:26:40 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

为什么不能用到临床中去呢
 楼主| 发表于 2003-7-10 15:44:54 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

应用到临床中去需要更多地考滤实用性、易用性、可用性!其实我们不应该期望有现成的完整的医学语言集,再去实现临床信息系统。而是应该返过来,先记录下临床上实际使用的大量医学用语,再去规范和统一。所以,设计电子病历系统的时候不要指望已有统一的医学语言标准,而是因该尽量收集数据,再分析整理,形成动态的发展中的医学语言标准。
发表于 2003-7-15 10:02:50 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

电子病例是可以完全结构化的,关键是结构化病历描述语言的建立,虽然目前没有统一的规范,但是在HL7 CDA基础之上,可以进行扩展进行描述语言的建模,模型的DATA level方面可以参考其他行业中的DATA定义。另外结构化电子病例的另外一个难点是结构化的技术实现和Path定义。
 楼主| 发表于 2003-7-15 16:40:04 | 显示全部楼层

[讨论]实现结构化文本病历是否可行?

xuyunxi提到了Path这个概念,我经常听到“临床路径”这个提法,不知是否就是Path?Path在电子病历中处于什么地位,希望大家深入讨论。
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表