|
楼主 |
发表于 2004-6-15 19:11:00
|
显示全部楼层
电子病历系统急需“医学语言机”技术
最初由 一片绿洲 发表
[B]在映射之前,如何获得词汇和词汇之间的关系(确定词性)?这必然涉及到断词和句子结构分析,这就涉及到自然语言的词法和句法分析,这正是自然语言理解所研究的问题,也是最难的问题。由自然语言到RIM模型,必须解决这一问题。[/B]
首先说明,医学语言机技术并不等同于NLP,但与NLP有类似性。
主要区别在于NLP着眼于广泛的通用自然语言,医学语言机基于一个相对固定的RIM,并对词汇等符号系统、语句结构和RIM的范围作一定的控制,使它既属于自然语言,又有别于自然语言,相当于从自然语言中取出部分常用的医学语言形式,加以规范和解析。
当然这部分医学语言原则上越接近自然语言越好,可以逐步完善,最终形成属于自然语言范围的标准化医学语言。其实这种标准化在非计算机时代也是人们交流所需要的,只是需求没有现在强烈。
通常人们通过学历教育、日常言语、书刊杂志等传递并规范医学语言,现在信息时代,我们可以用医学语言机来统一(至少是辅助)和规范医学用语。
医学语言机首先要做的是分词,这是所有中文语言处理系统都要做的一步;分词以后是匹配,通过匹配,可以解决大部分词“词性”问题,少部分不能确定词性的词,可以进一步使用手工确认等方式实现;句子结构可以尽量固定,少设,并使用语句模式识别和匹配技术,提高有效率;对于生词、生句只能进行手工确定的方法来处理,再加上动态词库和动态句型库技术,不断完善受控语言,使之具有一定的“自学习功能”。至于词汇间的关系,这就由RIM决定了,RIM也可以不断完善,通过人性化的界面技术,直观的表达方法,简单明了的信息模型,应该可以实现这种受控医学语言机技术。 |
|