生物医学知识整合论漫谈2

老包 · 发表于 2006-10-25 13:11:48

理性与非理性的转化，物数学

从每天清晨6:00起，上海地铁一号线A站逐渐热闹起来，人们从四面八方不断汇集而来。7:00以后形成高峰，到8:30以后才会逐渐冷清下来。对地铁站的自行车停放区的管理员来说，各辆自行车何时进场是随机的或非理性的(irrational),即他无法用理性进行判断某辆自行车今天是否会来,更无法判断它何时进场。但在6:00-7:30时段自行车数量是递增的（线性的或非线性的），并且每天按照同样规律变化着。因此在这一时段，根据停放区内自行车数量或密度，聪明的管理员无须看他的手表就能判断出时间。很明显，这里一个非理性问题转化成另一个理性(rational)判断问题。
此事为管理员的一个深谙数学之道的朋友发现，它把时间与停放区的自行车数量一一对应起来，画出了曲线并据此给出了一个经验公式：根据自行车数量判断时间。并告诉管理员这是一个由物理现象导出的数学算子。但提醒他如把这个算子用到B地铁站，曲线也许需要作些修正。
沉醉于医学信息学而不能自拔的老包获知此事，顿觉豁然洞开：（1）机体的令人眼花缭乱的数学原则只能由机体自己做主，欧几里得，毕达哥拉斯，希尔伯特，罗巴切夫斯基等数学大师只能“敲敲边鼓”；（2）这些数学原则比一般数学原则具有更强的个性，有高度的环境依赖性；（3）这些形形色色的数学原则及其差异和关系，有可能引出更深更广的机体其他的原理。他于是自作主张地把它定名为物数学。

(纯属虚构的科学故事)

[ 本帖最后由老包于 2006-10-25 18:02 编辑 ]

老包 · 发表于 2006-10-25 13:12:58

数学大师们的疑惑：

谁知此事通过时空隧道传到数学大师们的耳朵里。数学大师们听到这一番离奇的说法后哈哈大笑，质问道：“老包老包，个性很强的计算原则也能算数学？！”
老包听后不慌不忙地辩解说：“令人尊敬的大师们，我从小就仰慕你们的天才，你们高度抽象、高度普适性的数学理论常常让我叹为观止。但在漫长的生命进化过程中，高度复合产生了千变万化的个性，而当你们在作高度抽象时必须牺牲大量的个性，因此你们的数学离它们（个性）太远。而且，我告诉你们，我们的时代拥有几乎是无穷无尽的计算机和网络存储能力，有无与伦比的运算速度，因此我们这个时代已经无须畏避个性，相反我们要越来越趋近个性。这是大师们你们的时代无法想象的。”
大师们觉得物数学的提法虽然看似荒唐无稽，仔细想来也不无道理，倒不如观其行，察其效，采取乐观其成的态度为好。

（纯属虚构的科学故事，其实关于物数学大师们什么都没有说！）

[ 本帖最后由老包于 2006-10-25 16:00 编辑 ]

medsoft · 发表于 2006-10-25 13:51:44

有意思，支持包老师所做的探索！

老包 · 发表于 2007-2-14 11:54:13

人类环境保护事业的先驱者瑞秋. 卡森（Rachel Carson）的话常会深深地打动我：

“I have felt bound by a solemn obligation to do what I could——if I didn’t at least try, I could never be happy again in nature.”
“我感到自己肩负着一种神圣的职责，所以我倾我所能而为之——如果连努力都没有尝试付出，那我就永远不会再有真正的快乐。”

老包 · 发表于 2007-7-14 12:25:25

定义属性的概念确定性与物理确定性

事物的可判定性（如诊断的明确性）首先决定于事物的定义属性的可确定性，其次是决定于物理可确定性。我们已经讨论过，所谓定义属性是指某类事物的必须属性，意即如果该属性不存在，那么该类别也不复存在。
所谓定义属性的可确定性是指属性本身的定义是否明确。它其实包括了两个层次的意思，概念层次的明确性和物理层次的明确性。
概念层次的明确性指概念定义中的子概念是否明确，例如一些疼痛的分类“钝痛”、“锐痛”、“灼痛”、“刺痛”、“隐痛”、“绞痛”、“胀痛”等概念的文字性定义就难以明确，因为其子概念“钝”、“锐”、“刺”、“灼”、“隐”……等是一些物理行为，本身就难以作出文字定义，即所谓“只可意会，不可言传”。
即使在概念层次的文字定义是明确的，在物理层次（如病人或医生的感觉层次）往往难以区分。例如有些中医属性如滑脉（定义为“往来流利，应指圆滑，如珠走盘的脉象”），芤脉（定义为脉博浮大而软,按之中空如葱管），虽然文字符号级的定义似乎“言之凿凿”，但医生在诊脉时的物理感觉毕竟是难以鉴别的。
如果一些病症的鉴别诊断依赖于上述这些明确性较低的属性，将导致诊断上的不确定性。
相反，一些属性不仅本身的文字定义十分明确，并且通过一系列物理条件的限定可以保证其物理确定性。例如实验室检查“清洁中段尿培养菌落数≥105/ml”就是这类属性。
一般认为临床上如发现泌尿系统症状如尿频、尿急、尿痛，并实验室检查清洁中段尿培养菌落数≥105/ml，即可诊断为尿路感染；也有专家认为即使未发现泌尿系统症状，但如果“连续两次清洁中段尿培养，两次菌落数≥105/ml，且为同一菌株”，也可诊断为尿路感染[***]。
既然在没有泌尿系统症状尿频、尿急、尿痛的情况下也可诊断尿路感染，所以严格讲尿频、尿急、尿痛不是尿路感染的定义属性，而“清洁中段尿培养菌落数≥105/ml”是尿路感染的定义属性。
“清洁中段尿培养菌落数≥105/ml”这一属性不仅概念级文字定义十分明确（因为其子概念“清洁中段尿培养”、“菌落数”、“105/ml”都是定性或定量明确的）。那么，它的物理实现是否明确呢？因为临床环境宽广而复杂，对概念定义上十分确定的属性，仍然必须严格地控制其物理环境，以保证其物理确定性得以体现。为此，临床医学对其作了如下限定：（1）尿细菌培养前至少5天以上未应用抗菌素；（2）用清晨第一次尿，以保证尿在膀胱中停留6～8小时；（3）保证尿标本清洁，采标本前需充分清洗阴部，包皮，消毒尿道口，并留取中段尿；（4）取标本后应在一小时之内作细菌培养（否则应放置在4℃冰箱内）[****]。
因此可以认为“清洁中段尿培养菌落数≥105/ml”这一定义属性在概念层次和物理层次充分地保证了尿路感染诊断的确定性。

摘自：包含飞：<生物医学知识整合论>

[ 本帖最后由老包于 2007-7-15 10:28 编辑 ]

老包 · 发表于 2007-7-15 10:30:16

上段文字已经进一步加工！

mojuncong · 发表于 2007-7-15 17:29:23

包老的意思是要对中医标准化还是要从中医众多的表面现象中找出本质规律?

老包 · 发表于 2007-7-15 22:10:06

你说得很对！我非常同意。

但这张贴子不是谈这个问题，不过举个例子，其实西医同样的例子也很多。这贴子的主题是谈论“概念定义”和“物理指定”二类不确定性。

我认为中医的标准化必须先从中医的临床实践中挖掘和提取出其认知科学和信息学本质。我要求的研究生必须作最认真的工作（不敢讲最好的工作），他们也确实做了很多又意义的工作。

但问题是我总觉得中医的主体似乎并不想认真地探索，因为信口开河要轻松的多！

老包 · 发表于 2007-7-21 12:33:18

一个古老的故事：盲人与大象

中国有一个家喻户晓的古老的故事。说有一天五个盲人感摸一头大象，每个人都得出了自己的关于“大象象什么”的结论。触摸大象鼻子的盲人说“大象象一根管子！”，而握着大象尾巴的盲人说“大象象一根绳子！”，另外三个盲人分别得出的结论是大象象“柱子”，“墙”，“风扇”，因为他们各自在触摸大象的腿，身体和耳朵(见图1A)。
这个故事告诉人们如果把事物局部当成事物全部，将是多么荒唐无稽啊。
然而进入信息时代以后，事情却发生了变化。盲人们学会了实体，语义关系，知识整合等概念和科学，他们以最合理的方式把各自掌握的数据整合起来，并且得到了新的结论，“大象中心是‘一堵墙’；‘一根管子’和‘二把扇子’在前；‘一根绳子’在后；‘四根柱子’在下”。
你看，经过知识整合，虽然我们的盲人小组拥有的数据并没有多大变化，但他们对大象的理解却进了一大步，更为接近真实的大象(见图1B)。
故事当然是虚构的。笔者的意图是通过这个故事说明探讨生物医学知识整合论（BMKI）对全面理解生物系统和人体系统是何等重要。我们不能万世不变地把我们的目光聚集在越来越微小，越来越详尽的生命系统的细节上。我们应该分出一部分注意力和精力关注已被我们发现的海量的，异质的，离散的数据，信息和知识，探讨如下的问题：我们能不能重新把它们组装起来？在这条前无古人的新的探索之路上我们究竟会遇到何种难以逾越的障碍或知识黑洞？多大程度上我们可以达到目的？我们应在何处开始我们的茫茫征途？……
每当我们因种种原因而感到失望和沮丧的时候，我劝大家记起这一原理：所有我们遇到的生物医学数据，信息和知识，不管它们出自何时，何处，何种方法，都无一例外地源自那棵唯一的生物进化树上。

摘自：包含飞：<生物医学知识整合论>

[ 本帖最后由老包于 2007-7-21 12:34 编辑 ]

mojuncong · 发表于 2007-7-22 11:00:36

这个问题很复杂，恕在下自不量力说几句。
软件工程的目标是最小的成本、最高的质量、最短的开发时间开发软件产品。眼下流行的各种软件工程方法对这个目标的实现都差强人意。以RUP为代表的重量方法用来做计划、准备的时间太多，真正用在开发的精力却很少，以为只要企业保证软件过程的实施，其他的事情都好办，这种极端压抑人性的方法不会取得很好效果。轻量方法要好一些，毕竟绝大部分注意力都在开发上，大家都很喜欢，可是仅依靠少数几个人，对付不了大型项目。当然，大家都在改进各自的缺点，吸收对方的优点。
G.Booch说过，自动化不足是软件开发过程中大量问题存在的重要原因，在下深以为然，并且认为是最小的成本、最高的质量、最短的开发时间之目标难以实现的根本原因。因此，将来的软件工程必然要发展到以软件自动化技术为核心的阶段——4GL时代。
为什么4GL时代还没有来临，这是因为软件自动化太困难，眼下所取得的成果局限在某些很窄的领域内，达不到实际项目要求，而且这种技术太难理解，需要对理论的深入学习，一般的开发人员难以接受。软件自动化技术没有大发展的重要愿意是目前描述动作语义的技术都很低级，因此即便用形式化方法作设计也是很费时间的，虽然可以提高一定的效率，但是还是远远不够的。
为了解决这个问题，只有从利用以前的成果入手了，也就是复用构件，但不是用今天的构件技术。将来，实现了机器检索的大型构件库，这是计算机实现对构件的查找、转配等自动化的构件库，不是今天的手工构件库。但这样的构件库为什么没有出现，还是老问题，我们还没有一个很理想的描述动作语义的方法，计算机无法判定两个构件或规约和构件之间是否等价，或者有等价的成分，当然也就无法进行自动检索了。
虽然有很多困难，但我相信将来软件工程的发展方向必将是高度自动化的构件式开发方法。
上面说的，完全是个人观点，也许不足采信。

tyq · 发表于 2007-7-22 14:25:53

目前来说,敏捷方法还是有一定的实用价值.
既要灵活,又要效率,更要约束,这几个问题组合起来,就很难处理了,如果没有新的理论出现或者技术上的突破,估计开发不会有质的变化.目前能做的,只是小打小闹式的局部改进.
日本的第五代计算机是以逻辑推理为主要运算方式的,但没有理论基础的支持,终究不能成功.

老包 · 发表于 2007-9-2 11:30:30

不同的尺度看到了不同的意义（来自宣国荣教授的ppt文件）：
（参考：M. Vetterli,”Wavelets and Subband Coding “, Prentice Hall PTR, 1995 p.11）
思考一下生物医学信息学的意义吧！

[ 本帖最后由老包于 2007-9-2 11:35 编辑 ]

老包 · 发表于 2009-1-30 03:39:53

认知维度的回归

出生不久的婴儿是根据妈妈的音容笑貌等物理形象进行识别或认知的，因为它们的逻辑认知能力还远未长成。可见对物理场形象的认知是最原始的人类认知行为。

当我们持登机牌准备进入候机大厅时，我们必须出示我们的护照等证件，检查人员会对照护照上的照片和当事人的真实容貌，以确保二者的一致性。在安全要求更为严格的场合，有时还需要对当事者的指纹或脸型作图象分析和模式识别，以确保物理指定的准确无误。

在通缉罪犯的通告中，常常会附有罪犯的照片。如果通告中只有对罪犯面貌的文字描述而没有罪犯的照片，则效果就会差得多。

所以在对一个个性化非常强的对象进行识别和认知时，任何文字符号性的数据都不能取代物理景象的认知。这是一种认知维度的物理回归，向原始的物理维度回归。

BMKI把从抽象程度高的维度向抽象程度低的数据的转化称为认知维度的物理回归（Physical regression of cognitive dimension，PRCD）。

上述事实说明了PRCD在富有个性的认知领域中的必要性。

一般来说，越是抽象的概念，其共性越强，个性越弱，在物理世界的指定性越低。这一原理蕴含了：在充满个性或多样性的领域中，如生物医学领域中，抽象的概念的操作性是有限的。在很多情况下需要作认知维度的物理回归。人体解剖学离开了解剖学图谱，解剖学的很多内容将无法表达，解剖学著作将难以阅读，这说明文字符号性概念对复杂对象的描述能力是有限的。

但一个接受过解剖学课程教学的医学生，当看到“中耳经咽鼓管与咽部相通”描述时，会联想起三者在欧氏空间中的具体排列和方位。因此人类对文字符号性资料可通过联想实现其力所能及的认知维度的物理回归。我们常常对一个难以理解的概念找一个与之对应的物理对象，以帮助我们对此概念的理解，这实际上也是一种认知维度的物理回归。所以认知维度的物理回归与我们的认知活动密切相关，很难分离。

由此可见，认知维度的物理回归是人类认知活动不可缺少的行为。电子病历是医生对病人和疾病的认知的记录，它大量应用文字描述和其他类型的数据记载方法，力图如实记载观测对象的任何有意义的信息。医生在阅读电子病历时，会进行大量的联想，以实现其专业知识许可的认知维度的物理回归。

但对诸如指纹类等复杂的形象信息，人类的表达，描述，识别，操作等能力很有限；相反，计算机在这方面表现了不可取代的优点，它不仅能表达，并且有可能阅读，识别和操作（例如求和，求交等）这类形象信息。因此PRCD依赖高速度，高储量，高性能的计算机的参与。

电子病历中大量地或明或暗地存在着这种“指纹类”信息。作者相信在电子病历的处理或操作中，在很多情况下需要PRCD。不过这里的所谓“指纹类”信息是广义化了的概念,是指复杂的关系形态或模式。

通过认知维度的物理回归并作适当的逻辑或数理操作，以获得对复杂对象更为有效的认知手段，这是BMKI的物数学的一个基本哲学倾向。

[ 本帖最后由老包于 2009-1-30 03:44 编辑 ]

老包 · 发表于 2009-2-2 11:55:25

所谓认知片段（Cognitive segment, CS）是指那些相对固定的但我们还未能理解其生物医学语义因而尚未上升为概念的数据形态。特别是指多种数据的复合形态。对认知片断的研究是一种认知维度的物理回归。

认知片断往往是一种“信息的物理情景”的表达或回归。由于很多生物医学的物理对象情景非常复杂，用文字和数字对之表达往往过于粗疏或概括，有可能丢失大量关键的细节或信息。因此BMKI首创性地提出认知片断概念。试图研究开发一种关系化，图形化的数据表达和运算方法。这种片断较之传统的医学数据形式更能反映生物医学研究对象物理原貌和个性，因此也可以讲是一种知识或信息表达的物理回归。是一种介于文字-数字形式与原始数据（图像，录音，录像）之间的数据表达形式和处理方式。

例如“血压110/160mmHg，持续一周”，“血压110/160mmHg，持续一月”，“血压110/160mmHg，持续二月”，在这三个信息资源单元中，异常高的血压部分对身体血管的“总作用量”是不同的，因而其临床效应也各不相同。如果我们把它们描述为一种图像形式，就可能形成一套医学信息学可以操作或运算的方法，并挖掘出一套新的医学参量。

假设高血压对身体血管的“总作用量”是一种线性累加的。那么我们可以分别把这三个信息资源单元的异常舒张压部分对人体血管的相对“总作用量”描述为图***中的三个方块面积（类似的我们也可以把异常收缩压部分对人体血管的相对“总作用量”作图形描述）。这种认知片断的图形方式把原有的文字-数字信息资源所蕴含的内容显露出来。当然，我们假设高血压对身体血管的“总作用量”是一种线性累加的，并不等于说它们的临床作用效果也是线性累加的（很可能是非线性的）。

[ 本帖最后由老包于 2009-2-2 11:57 编辑 ]

老包 · 发表于 2009-2-16 22:20:52

系统的热力学能量趋势

设系统存在一个或一组能量驱动因子（Driving factor of energy，DFE），借鉴热力学理论，我们可以称之为广义的温度或伪温度。DFE不断地对系统进行扰动，但能否产生效果将受到系统的甄别。由于系统的“自然意愿”总是趋向低能状态而不是高能状态，所以能量趋高的扰动不过是无效扰动，将不会被系统接受；但能量趋低的扰动将为有效扰动，可为系统所接受。因而在DFE的扰动下，系统总是趋向于能量较低的状态，而不是相反。如图***所示，除非有一种人力或自然力通过决定性机制把小黑球放到高处，否则小黑球只会向低处滚动。

如果一个系统具有内在的能量最低状态，那么该系统将经过DFE的扰动趋向于该状态，否则系统将崩溃，退化并融化入环境之中（图***）。

从能量角度看，系统的内在的能量最低状态是一种最佳状态。因而很多最优化问题可以归结为系统的能量趋势问题。而生物医学中，任何生理的、病理的、治疗的过程，都毫无例外地有热力学能量趋势的参与。因此在医学信息学对电子病历等临床或实验数据的数据挖掘和知识发现的研究中，都不能忘记这一驱动力的存在。

		自动登录	找回密码
密码			欢迎注册

生物医学知识整合论漫谈2

回复 #7 mojuncong 的帖子

我看了一个关于软件工程的评论,感觉多少有点启发

认知维度的回归

认知片断是一种认知对象的物理回归

系统的热力学能量趋势

浏览过的版块