知识库的研究

xuyunxi · 发表于 2004-7-21 11:30:54

把刚才在模板中一个帖子的知识库内容摘录出来，请大家探讨：

知识库中的每个数据元素（data element）都是一个临床上的陈述，一个临床陈述是包含唯一的临床内容的一个短语，例如‘胸痛’是一个临床概念，其中‘胸‘ 定义的是解剖学上的一个位置，它本身并不包含任何的临床内容，但是它具有与其他与之相涉及的语义关系，因此它是一个参考术语集中的“原子”术语但是在临床环境中并不具有意义。

所以，为了在临床中有效的使用，在医学术语学中的data elements 必须是与临床紧密相关的，在电子病历的知识库中必须能够提供临床之间的关系通过每个临床术语之间的多维层次。例如在细菌性心包炎中胸痛是和发烧相关联的。而在心绞痛中却没有这样的关联。

并且对于知识库来讲，为了更好的利用计算机来智能的处理信息，知识库中的术语必须能够提供本身之外额外信息，知识库中的每个术语都有一个相联系的属性集包括相关值范围、检查结果单位、偏向标志、对叙述性表达的控制、外部编码引用等属性项。这些额外的属性项可以使计算机能够智能的向用户表达信息。

对于一个有效的临床知识库来说，除了要通过大量的关联的数据元素来表达症状、病史、体检、检查、检验、诊断和治疗外，还应该有智能提示的功能，因为对于知识库中的大量元素，在使用中要遇到一个问题就是如何有效的获得与某个特定的临床环境相关的数据元素，因此要通过某种手段例如内部的如智能提示这样的一个机制来获得只与特定临床相关的项目，避免用户面对大量信息的问题。

例如：考虑一个病人关于咳嗽的主诉，与一个70岁老人每天吸烟两包的相关项和一个3个月婴儿咳嗽的相关项肯定不同。一个咳嗽开始于三天前伴随发烧，和一个咳嗽开始于9个月前的相关项肯定是不同的.

所以，只有在知识库中把数据元素（data elements）进行非常小的粒度的设计，才能有效的保证医生来最有效的表达各种特定环境中对咳嗽及相关项的表述和记录。与咳嗽相关项的来源则取决于病人的年龄、性别、病史等因素，因此医生可以非常快速的记录相关信息而不需要手工完成。

当然，知识库的设计和实现还包括很多的内容，希望能够和大家一起探讨。

sbf2000 · 发表于 2004-7-21 12:35:24

这是我最近研究的一个医学语言处理技术的示意框图，其中可以得出知识库的一些基本概念。

sbf2000 · 发表于 2004-7-21 15:33:51

最初由 xuyunxi 发表
[B]知识库中的每个数据元素[/COLOR] （data element）都是一个临床上的陈述，一个临床陈述是包含唯一的临床内容的一个短语[/B]

这些数据元素就是组成了词库[/COLOR]。

[B]在医学术语学中的data elements 必须是与临床[/COLOR] 紧密相关的[/B]

这个“临床”就应该是一个信息模型[/COLOR]。

[B]术语必须能够提供本身之外额外信息，知识库中的每个术语都有一个相联系的属性集[/COLOR] [/B]

这就是词典[/COLOR] 要做的事情。

[B]通过大量的关联的数据[/COLOR] 元素来表达症状、病史、体检、检查、检验、诊断和治疗[/B]

这些数据存在数据库[/COLOR] 中。

[B]知识库中的大量元素，在使用中要遇到一个问题就是如何有效的获得与某个特定的临床环境相关的数据元素，因此要通过某种手段例如内部的如智能提示这样的一个机制[/COLOR] 来获得只与特定临床相关的项目[/B]

这种机制就存贮在知识库[/COLOR] 中，而知识的表达就依赖于知识模型[/COLOR] 。

[B]进行非常小的粒度[/COLOR] 的设计[/B]

字符集[/COLOR] 中的每个字符应该是最小的粒度的信息元素之一了吧。

[B]知识库的设计和实现还包括很多的内容[/B]

其中动态积累机制是非常关键的，还有模板机制也是核心技术之一

......

老包 · 发表于 2004-7-21 16:05:35

最初由 xuyunxi 发表
[B]把刚才在模板中一个帖子的知识库内容摘录出来，请大家探讨：

知识库中的每个数据元素（data element）都是一个临床上的陈述，一个临床陈述是包含唯一的临床内容的一个短语，例如‘胸痛’是一个临床概念，其中‘胸... [/B]

这个问题是最为重要也是最为复杂的问题，它曾经给过医学信息学很大的教训。但这些问题又是医信息学最为核心和不可回避的问题。讨论最好以一些假想的实例展开。

老包 · 发表于 2004-7-21 16:54:53

最初由 xuyunxi 发表
[B]
知识库中的每个数据元素（data element）都是一个临床上的陈述，一个临床陈述是包含唯一的临床内容的一个短语，例如‘胸痛’是一个临床概念，其中‘胸‘ 定义的是解剖学上的一个位置，它本身并不包含任何的临床内容，但是它具有与其他与之相涉及的语义关系，因此它是一个参考术语集中的“原子”术语但是在临床环境中并不具有意义。

所以，为了在临床中有效的使用，在医学术语学中的data elements 必须是与临床紧密相关的，在电子病历的知识库中必须能够提供临床之间的关系通过每个临床术语之间的多维层次。例如在细菌性心包炎中胸痛是和发烧相关联的。而在心绞痛中却没有这样的关联。

[/B]

“其中‘胸‘ 定义的是解剖学上的一个位置，它本身并不包含任何的临床内容，”这个提法不严谨，因为‘胸‘虽然是个正常结构，在临床上有定位作用，“痛”是一个异常概念。二者合成一个异常概念。

“例如[B]在细菌性心包炎中胸痛是和发烧相关联的。[/B]而在心绞痛中却没有这样的关联。”这就是由事物的物理行为决定的概念级知识框架，相当于sbf2000所说的信息模型或知识模型（我不清楚二者的区别），框架总是与关联频度有关，例如非常衰弱的病人未必一定有发烧（由此引出框架的硬度概念）。所以我称之为“框架”，是因为它仅是抽象的概念与概念之间的关系，而物理级事物还需填上值，如发热的高度，发热的类型，时间的分布...等等。

医学知识工程非常重要的基础工作是要系统地研究和总结生物医学知识体系中形形色色的知识或知识框架类型，在此基础上我们能更清晰地思考知识库或知识工程的整体架构。如sbf2000给出的图中的术语，词典，信息模型（概念的，过程的（循环的，螺旋的，非循环的），结构的，功能的，高频的，中频的，低频的，非解释性等等）可以看成是知识类型的某种层次。但尚需进一步细化和系统化。我的整合论（七）涉及这些根本问题，等完成后请大家一起商讨。

sbf2000 · 发表于 2004-7-21 17:37:17

最初由老包发表
相当于sbf2000所说的信息模型或知识模型（我不清楚二者的区别）... [/B]

在电子病历系统中，信息与知识是必须分开处理的，所以就有了信息模型和知识模型的概念，两者是不一样的，请参考一下我以前发的一个Thomas Beale的双层建模理论：http://bbs.miforum.net/mifbbs/showthread.php?s=&threadid=1557

Thomas Beale还有一个原形（Archetype）项目，原形是一种知识模型，它是基于确定的信息模型的，相当于是一种模板描术语言之类的东东。大家可以上http://www.openehr.org/找到一些相关内容。

老包 · 发表于 2004-7-21 17:53:39

最初由 sbf2000 发表
[B]在电子病历系统中，信息与知识是必须分开处理的，所以就有了信息模型和知识模型的概念，两者是... [/B]

能不能给出一些简单的例子。

sbf2000 · 发表于 2004-7-21 18:20:39

最简单的例子是：某患者，性别男，这是一条信息（首次出现的数据）；而男人没有子宫，这是一个知识（人们普遍接受的事实）。如果把两者混在一起考滤，那么一般来说软件工程人员会把前者写入数据库，而后者直接由程序代码的限定。这样，象医学得话，有大量的知识需要编程实现，这基本上是不现实的，于是，我们就考虑把知识也独立出来，当软件处理“男人”时，就到知识库中找有关男人的知识，再跟据男人的信息数据和知识数据来确定男人的行为。这样就是信息与知识的分离处理。于是，我们不但要设计一个表达信息数据的信息模型，我们还需要一个表达知识数据的知识模型。并且，知识模型是以一个确定的信息模型为基础的，通用的万能的知识模型是没有的。

老包 · 发表于 2004-7-21 18:40:05

最初由 sbf2000 发表
[B]最简单的例子是：某患者，性别男，这是一条信息（首次出现的数据）；而男人没有子宫，这是一个知识（人们普遍接受的事实）。如果把两者混在一起考滤，那么一般来说软件工程人员会把前者写入数据库，而后者直接由程序... [/B]

如此我理解知识模型用来描述各种类型的标准知识,而信息模型用来采集和存储各种类型的实例数据,对吧?

老包 · 发表于 2004-7-22 08:56:48

最初由 xuyunxi 发表
[B]把刚才在模板中一个帖子的知识库内容摘录出来，请大家探讨：

知识库中的每个数据元素（data element）都是一个临床上的陈述，一个临床陈述是包含唯一的临床内容的一个短语，例如‘胸痛’是一个临床概念，其中‘胸... [/B]

随着电子病历的发展，几十年的知识产业梦想将变为现实。请不要把眼睛只盯在传统的符号性知识库上（当然还是非常重要的）。从广义上讲，形形色色的数字虚拟人体也是知识库，这种新型的知识形式可以讲前途无量。我一直希望中国学者不仅在理论上，而且在产业上有所建树，在国际医学信息学领域显示新一代中国医学信息学人的风貌。特别寄希望于论坛的一些年轻人身上。我们应该认真地选择好一个或几个突破口，后海茶会上石头问过我这方面的情况，我告诉他我并没有停止这方面的思考，只是希望我的想法能更现实，更有操作性，更符合我国国情，对论坛的有志青年更有帮助。

昨天有一贴主题讲到了我国软件业处境困难，我想这除了剽窃成风等种种不利因素外，国人的传统陋习也是一个很大的问题。信息业以社会诚信为基础，以团队精神为基础，二者不可缺一。微软团结了一万多个软件精英，才成霸业。这在我国这么大的知识分子团队能协调好是很难想象的。但当今社会已经没有什么“个人英雄”，只有“团队英雄”，一个人不可能形成大气候。当然这些是题外话，主要希望我们论坛的有为青年从中有所领悟。

sbf2000 · 发表于 2004-7-22 09:04:34

结合我有关数据、信息、知识的观点：“数据的第一次出现，是一种信息；信息的反复出现，是一种规律；规律的长期出现，是一种习惯；习惯被大多数人接受，成了知识；知识的集中记录，形成文化；文化经过历史的考验，成为文明。”，再对我2楼的图作一点文字补充：

1.文字符号是文明的数据，是最基础的，它是人类历史的沉淀，具有最长的存在周期，是非常固定的。现在的计算机对文字符号的处理已经相当成熟的。

2.词语是文化的数据，文化对于一代人来说，也是非常固定的。但每个时代，总会有一大批有特色的词语出现。但不管词语怎么变，文字符号还是这么多。

3.词典是知识的数据，知识有个特点是“大多数人接授的”，而词典正好是人们查找知识的最根本工具。

4.知识库是习惯的数据，人如果没有习惯，那就很难想象一个人能够完成多么复杂的工作。有句话叫“习惯成自然”，由此可以看出，习惯是每个人活动规律的关键组成内容。

5.数据库是有规律的信息数据，这个大家都知道，但大家不一定会这么说。：-）

6.总之：字符->词语->词典->知识库->数据库
对应的：文明<-文化<-知识<-习惯<-规律
下行是一种概念化、系统化、结构化、模型化的东西，而上行对应的是他们具体内容或表现。

sbf2000 · 发表于 2004-7-22 09:36:11

我们如果把：
字符->词语->词典->知识库->数据库
文明<-文化<-知识<-习惯<-规律
这两个过程首尾相联，大家就看到了一个循环，这个循环一直进行着，它是人类社会螺旋式进步的方式，也可以看作是人类社会这个自组织结构中的智慧现象的表现形式和演化进程（呵呵，话说的得大了，有点不切实际！）。

我2楼的图中，还可以看出很多循环，刚才说的是最大的一个，其它只要順着箭头方向，大家自然可以看出来。这些循环涉及到了标准制定，知识积累，学习认知等等，更重要的是在用户很自然的完成信息记录，并可以通过界面获得信息的过程中，我们实现了很多更有意义机制。这正是电子病历系统需要的，也是大家提出来研究电子病历知识库的根本原因所在。

我算是在这里提供了一个简单的思路，希望大家集思广义，把这个思路进一步完善并实现起来。

sbf2000 · 发表于 2004-7-22 11:08:27

最初由老包发表
[B]随着电子病历的发展，几十年的知识产业梦想将变为现实。请不要把眼睛只盯在传统的符号性知识库上（当然还是非常重要的）。从广义上讲，形形色色的数字虚拟人体也是知识库，这种新型的知识形式可以讲前途无量。我一直希望中国学者不仅在理论上，而且在产业上有所建树，在国际医学信息学领域显示新一代中国医学信息学人的风貌。特别寄希望于论坛的一些年轻人身上。我们应该认真地选择好一个或几个突破口，后海茶会上石头问过我这方面的情况，我告诉他我并没有停止这方面的思考，只是希望我的想法能更现实，更有操作性，更符合我国国情，对论坛的有志青年更有帮助。

昨天有一贴主题讲到了我国软件业处境困难，我想这除了剽窃成风等种种不利因素外，国人的传统陋习也是一个很大的问题。信息业以社会诚信为基础，以团队精神为基础，二者不可缺一。微软团结了一万多个软件精英，才成霸业。这在我国这么大的知识分子团队能协调好是很难想象的。但当今社会已经没有什么“个人英雄”，只有“团队英雄”，一个人不可能形成大气候。当然这些是题外话，主要希望我们论坛的有为青年从中有所领悟。[/B]

包老提醒我们进行医学知识处理产业开发和进行开诚布公的团队合作。这是一个很忠肯的提示。不知道我们论坛有没有做这种事的能力和可能性？如果可行话，确实是可以进行的。

xuyunxi · 发表于 2004-7-22 15:18:28

最初由老包发表
相当于sbf2000所说的信息模型或知识模型（我不清楚二者的区别），[/B]

二级模型是这样的：在电子病历中应用二级模型主要用来实现电子病历的结构和内容分离，
所有的临床数据类型都通过一个通用的结构模型来存储，即可以通过一个通用的结构模型来表示和存储各种临床数据结构
而通过另外一个知识模型来对结构模型中的信息结构进行限制，即通过一个archetype来限制某种类型的临床信息结构，保证结构模型的临床数据符合有效的临床术语要求，即只有符合一定临床信息结构要求的信息才能够进入到EPR中，如临床试验，治疗方案等，archetype是可以随时增加的而不影响结构模型的结构。

老包 · 发表于 2004-7-22 23:31:53

最初由 sbf2000 发表
[B] 结合我有关数据、信息、知识的观点：“数据的第一次出现，是一种信息；信息的反复出现，是一种规律；规律的长期出现，是一种习惯；习惯被大多数人接受，成了知识；知识的集中记录，形成文化；文化经过历史的考验，成为文明。”，再对我2楼的图作一点文字补充：

1.文字符号是文明的数据，是最基础的，它是人类历史的沉淀，具有最长的存在周期，是非常固定的。现在的计算机对文字符号的处理已经相当成熟的。

2.词语是文化的数据，文化对于一代人来说，也是非常固定的。但每个时代，总会有一大批有特色的词语出现。但不管词语怎么变，文字符号还是这么多。

3.词典是知识的数据，知识有个特点是“大多数人接授的”，而词典正好是人们查找知识的最根本工具。

4.知识库是习惯的数据，人如果没有习惯，那就很难想象一个人能够完成多么复杂的工作。有句话叫“习惯成自然”，由此可以看出，习惯是每个人活动规律的关键组成内容。

5.数据库是有规律的信息数据，这个大家都知道，但大家不一定会这么说。：-）

6.总之：字符->词语->词典->知识库->数据库
对应的：文明<-文化<-知识<-习惯<-规律
下行是一种概念化、系统化、结构化、模型化的东西，而上行对应的是他们具体内容或表现。 [/B]

通篇很有新意，说明作者勤于思考，善于思考。希望在此基础上进一步训练严谨的学风。

。

		自动登录	找回密码
密码			欢迎注册