|
发表于 2004-11-21 08:48:54
|
显示全部楼层
如何看待“数据清洗”
最初由 ermulong 发表
[B]我理解sbf2000的
"对系统中存在的一些与客观不符,或数据不一致,或逻辑不一致的数据... [/B]
系统中存在一些错误数据,可能产生原因有很多:
1.软件编程中的BUG引起的,这种错误发现后马上要改正的,所以一个比稳定的系统很少再会有这种情况。
2.软件设计时的观察点不同,使各个子系统中的数据有矛盾,这种错误根源在于系统分析不全面。现在有一定规模的HIS软件公司的产品一般都能做到比较完整的系统分析。
3.软件使用时,只使用部分功能造成数据不完整,而失去了数据的利用价值。这种问题要从软件设计和应用实施两方面去解决。软件设计尽量使各子系统能够松散耦合、可以独立使用、为使用者留下充分的余地;实施时一定要做好沟通和培训,使用户很快就理解并接受系统的设计思想。
4.用户操作时输入错识数据,但系统没有做到或不能做到数据验证。这种错识有时只能靠修改,只是可以考虑通过有监控的修改还是直接开库修改。
所以,数据清洗主要是为了数据分析而进行的,并不需要对大量与分析无关的原始数据进行处理。
对于象电子病历那样有大量重要原始数据的系统,有必要设计数据质控系统,对所有原始数据进行全面的检查和质控,以便日后可以比较方便和有效地分析数据。据我在一套地区性围产保健系统中得到的经验,数据错误率一般达到3%-30%。比如你收集了10万人的保健信息,完整可用的数据可能只有7万。 |
|