设为首页
收藏本站
切换到宽版
用户名
Email
自动登录
找回密码
密码
登录
欢迎注册
快捷导航
论坛首页
BBS
包含飞教授专栏
排行榜
搜索
搜索
热搜:
活动
交友
discuz
本版
用户
蜜蜂会-MiForum论坛
»
论坛首页
›
学术讨论专题
›
医学信息学研究
›
Miforum0505191900论坛数据挖掘
1
2
/ 2 页
返回列表
发新帖
楼主:
dongxi
Miforum0505191900论坛数据挖掘
[复制链接]
hykionliu
hykionliu
当前离线
积分
178
发表于 2005-8-31 18:00:34
|
显示全部楼层
Miforum0505191900论坛数据挖掘
大多数数据挖掘都停留在定量分析阶段,请大家一定要注意定性分析啊!
回复
举报
jxdn_yang
jxdn_yang
当前离线
积分
476
发表于 2005-9-1 13:15:24
|
显示全部楼层
Miforum0505191900论坛数据挖掘
<p>数据挖掘_首先必须要有数据,你从这些数据得到社么信息,你能从这些信息得到社么_这就是数据挖掘的目的</p>
回复
举报
医疗信息
该用户已被删除
发表于 2006-2-5 16:08:07
|
显示全部楼层
Miforum0505191900论坛数据挖掘
<img src='images/smiles/cry.gif' smilietext=':cry:' border='0' style='vertical-align:middle' alt=':cry:' />
<br>盲目! 医学信息标准化 447 62
回复
举报
graduate
graduate
当前离线
积分
277
发表于 2006-3-8 20:57:29
|
显示全部楼层
Miforum0505191900论坛数据挖掘
数据挖掘的原理与技术,本身统计学方法和计算机应用就是构成其的基础与成分。
回复
举报
zilu85
zilu85
当前离线
积分
221
发表于 2010-2-1 17:19:57
|
显示全部楼层
数据挖掘用到一些统计的方法,但是数据挖掘不等于统计汇总,回顾一下数据挖掘的定义,这一点点的变量几乎不可能发现模式的。
回复
举报
zilu85
zilu85
当前离线
积分
221
发表于 2010-2-1 18:18:08
|
显示全部楼层
就现有数据分析,只能是统计分析啊:
论坛名称 帖子数 帖子累积数目 帖子累积百分比
HIS论坛 5232 5232 19.88899871
Pacs系统应用 3033 8265 31.41868775
医学信息学研究 2712 10977 41.72812286
HL7研究 2474 13451 51.13282141
电子病历技术 2274 15725 59.77723713
七七八八 2187 17912 68.09092983
DICOM技术论坛 1966 19878 75.56451
医院CIO 1347 21225 80.68501483
生物医学知识整合论 1025 22250 84.5814643
版务办公室 1000 23250 88.38287843
广告区 876 24126 91.71291721
专业翻译切磋 589 24715 93.95195013
国外参考 563 25278 96.09214628
医学信息标准化 447 25725 97.79137839
统计学讨论 175 25900 98.45662586
健康报在线版 165 26065 99.0838592
学术杂谈 108 26173 99.49441192
认证交流 89 26262 99.83273778
NoSA统计软件讨论 44 26306 100
平均数 1354
按帖子数目排序: 不知道这是多长时间的数据,如果有,可以和其他专业的论坛对比,各个论坛平均帖子数是1354,但是标准差也是1354左右,应该说比较大。
从帖子的学科领域可以看出来,his和pasc两个就占了30%的帖子。总的来说,临床信息实用技术论坛的帖子占绝大多数,而医学信息学研究,七七八八,生物医学知识整合论,统计,翻译等等帖子数所占比例很小。所以,这个论坛是以临床信息学,而且是以信息技术为主的论坛,
类目设置对这个领域比较细,对其他设置比较粗,可能是网站管理者的理解和偏好,也可能是网站用户的实际需求所致。
每个论坛发表主题数目:
HIS论坛 603
七七八八 603
Pacs系统应用 459
医学信息学研究 444
HL7研究 382
DICOM技术论坛 347
广告区 259
电子病历技术 251
版务办公室 165
医院CIO 156
生物医学知识整合论 142
国外参考 133
专业翻译切磋 74
学术杂谈 64
医学信息标准化 62
统计学讨论 38
健康报在线版 29
认证交流 24
NoSA统计软件讨论 18
可以理解为每个论坛涉及的广度,除了HIS,七七八八还是名副其实的,需要对这里的主题进一步分类后整理出新的类目来。
下面是每个论坛每个主题的平均帖子数分析,可以在一定程度上说明每个主题大家关注的程度。
论坛名称 每个主题平均帖子数
电子病历技术 9.059760956
HIS论坛 8.676616915
医院CIO 8.634615385
专业翻译切磋 7.959459459
生物医学知识整合论 7.218309859
医学信息标准化 7.209677419
Pacs系统应用 6.607843137
HL7研究 6.476439791
医学信息学研究 6.108108108
版务办公室 6.060606061
健康报在线版 5.689655172
DICOM技术论坛 5.665706052
统计学讨论 4.605263158
国外参考 4.233082707
认证交流 3.708333333
七七八八 3.626865672
广告区 3.382239382
NoSA统计软件讨论 2.444444444
学术杂谈 1.6875
从上面的各个论坛每个主题平均帖子数,也可以看出来大家关心的还是临床信息技术,但是翻译问题也比较引人注目。
所以,这些数据一方面反映了网站本身的类目设置上的合理性,另一方面反映了用户的兴趣爱好,二者需要结合起来分析。
但是,我要说,这远远不是数据挖掘。
回复
举报
zilu85
zilu85
当前离线
积分
221
发表于 2010-2-1 18:20:45
|
显示全部楼层
补充几句
本帖最后由 zilu85 于 2010-2-2 07:00 编辑
对不起,多发了一遍,通过编辑修改来删除重复的信息。借机补充几句话:
统计是很有用的工具,一点点的数据,用最基本的百分比、平均数、标准差可以看出大致的分布趋势,但是不能找出数据之间的联系或者潜在的模式,不能因为数据挖掘这个词时髦就什么都往上靠。
文献计量学的分析有时候和文本挖掘也不好区分,按照频次由高到低排列,是产生布拉德福定律等经典定律的基本手段,由此发现了相关论文在期刊上分布的规律,单词出现频率的规律(齐夫定律),写出相应论文数目的作者数目的分布(洛特卡定律),这就发现了数据之间的潜在的规律,得出了经验公式,符合数据挖掘的定义了。但是目前对某个领域的文献计量学研究多数是总结汇总已有状况,甚至是表现学科研究发展历史的总结性研究,是否算作数据挖掘和知识发现,值得商榷,因为数据挖掘和知识发现也在发展中,也没有广为接受的确切的定义。
回复
举报
1
2
/ 2 页
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
欢迎注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
快速回复
返回顶部
返回列表