大数据技术医疗健康数据质量评价规范分析
2025-11-10 13:14:53 0 举报
AI智能生成
基于《大数据技术 医疗健康数据质量评价规范》分析整理
作者其他创作
大纲/内容
评价方法
重复值分析法
在被评价数据非冗余的情况下,将每条数据记录中的部分数据或者所有数据的<br>取值与所有数据记录进行逐一对比,识别重复记录。 可用于数据准确性相关指标评价。
缺失值分析法
对被评价数据每条记录的所有数据项进行逐一检查,识别是否存在空值、缺失<br>或不完整。可用于数据完整性和规范性相关指标评价。
值域分析法
检查被评价数据数据项的取值是否在指定标准值域代码范围内,识别是否超出取<br>值区间。可用于数据完整性、规范性、一致性等相关指标评价。
逻辑关系分析法
对被评价数据每条记录在数据取值或业务逻辑进行分析,识别违背逻辑关系<br>的数据记录。可用于数据准确性、一致性、时效性相关指标评价。
经验分析法
检查验证数据取值是否违备日常生产、生活中产生的经验值,证实或证伪数据内<br>容。可用于数据准确性、一致性、时效性、可访问性相关指标评价。
统计分析法
通过图表或数据方法,对数据资料进行整理、分析,并对数据分布状态、数字特<br>征和随机变量之间关系进行估计和描述的方法。可用于数据完整性、准确性、一致性和时效性等相关指<br>标评价。
对比分析法
将两个或两个以上的数据进行比较,分析其中的差异,从而揭示这些事物代表的<br>发展变化情况以及变化规律。可用于数据准确性、时效性等相关指标评价。
平均分析法
利用平均数指标来反映某一特征数据总体的一般水平。可用于数据准确性、规范<br>性等相关指标评价。
交叉分析法
用于分析两个变量之间的相互关系的一种基本数据分析方法。可用于数据准确性<br>相关指标评价。
关联性分析法
:根据数据之间的关联性强度对数据质量进行评价。可用于数据准确性、一致性、<br>时效性相关指标评价。
看现在治理系统的校验逻辑
检查指标
规范性
安全合规率
数据集符合法律法规和行业安全规范的度量,即数据集符合适用法律法规和行业安全规范的元素数量与元素总数量之比
<b>计算公式:</b>安全合规的元素数量 / 元素总数量<br><b>详细解答:</b><br>- <b>“元素”</b>:指数据集中最小的数据单元,通常是一个字段或数据项。在医疗健康背景下,特指包含个人身份标识、健康状况、医疗记录等敏感信息的字段。<br>- <b>“符合安全合规”</b>:指该元素的处理和存储符合《个人信息保护法》、《数据安全法》、HIPAA、GDPR等法律法规及行业安全规范的要求,如已进行恰当的匿名化、脱敏处理,或访问受控。<br><b>医疗标准示例:</b>在患者基本信息表中,若“身份证号”字段应进行脱敏处理(如显示为“510***********123X”),则未脱敏的原始数据即为不合规元素。计算该表中已正确脱敏的字段数量占比,即为安全合规率。
脱敏、加密检测
元数据合规率
数据集符合元数据定义的度量,即数据项符合元数据规范的元素数量与元素总数量之比
<b>计算公式:</b>符合元数据规范的元素数量 / 元素总数量<br><b>详细解答:</b><br>- <b>“元数据规范”</b>:指对数据元素预定义的结构和属性,包括数据类型(如字符型、数值型)、长度(如20个字符)、精度、约束(如非空)等。<br>-<b> “符合元数据规范”</b>:指数据元素的实际值在类型、长度等方面与标准定义完全一致。<br><b>医疗标准示例:</b>根据国家医疗数据元标准,“患者姓名”数据元被定义为“字符型,最大长度50”。若某条记录中该字段被存为数值型,或长度超过50个字符,则该元素不符合元数据规范。
物化增加物化倍数,物化时候数据库字段更长
格式合规率
数据集格式符合标准规范的度量,即数据集格式符合标准规范的元素数量与元素总数量之比
<b>计算公式:</b>格式符合规范的元素数量 / 元素总数量<br><b>详细解答:</b><br>- <b>“格式符合标准规范”</b>:指数据值的表现形式符合预定义的模式或规则,通常通过正则表达式进行验证。<br>- <b>与值域合规的区别</b>:格式合规检查值的“样子”是否正确,而不关心其业务含义是否在字典内。<br><b>医疗标准示例</b>:标准规定“住院号”格式为“10位数字”。若出现“ZY2024001”(包含字母)或“2024-001”(包含分隔符),则格式不合规。日期字段必须为“YYYY-MM-DD”格式,出现“2024.07.21”即为格式错误。
规则管理,增加指标分类
值域合规率
数据项值域符合标准规范的度量,即数据项值域符合标准规范的元素数量与元素总数量之比
<b>计算公式:</b>值域符合规范的元素数量 / 元素总数量<br><b>详细解答:</b><br>- <b>“值域符合标准规范”</b>:指数据元素的值在国家标准、行业标准或机构内部定义的允许值列表(即数据字典)之内。<br>- <b>“数据字典”</b>:是值域规范的载体,如性别代码字典、疾病诊断编码(ICD-10)字典等。<br><b>医疗标准示例</b>:“性别代码”数据元的字典为:1(男), 2(女), 0(未知), 9(未说明)。若该字段出现 5,则此元素值域不合规。
规则管理,增加指标分类
完整性
记录填充率
数据集中应被赋值的数据记录的赋值程度,即数据集赋值完整的记录条数与记录总条数之比
<b>计算公式:</b>赋值完整的记录条数 / 记录总条数<br><b>详细解答:</b><br>- <b>“记录”</b>:指代表一个独立业务实体或事件的数据集合,如一名患者的一次门诊记录。<br>- <b>“应被赋值”</b>:指根据业务规则,该记录下有一组必填字段(数据元)。<br>-<b> “赋值完整”</b>:针对单条记录而言,该记录中所有被定义为“必填”的数据元,都已填入了有效值(非空、非占位符)。<br><b>医疗标准示例:</b>在《门(急)诊诊疗记录》数据集中,规定“就诊日期”、“诊断编码”为必填项。若某条记录中“诊断编码”为空,则这条记录被视为“赋值不完整”。
规则管理,增加指标分类
元素填充率
数据集中应被赋值的数据元素的赋值程度,即数据集赋值的元素数量与元素总数量之比
<b>计算公式:</b>已赋值的元素数量 / 应赋值的元素总数量<br><b>详细解答:</b><br>- <b>“应赋值的元素总数量”</b>:指整个数据集中,所有记录的所有“必填”字段的总数。计算公式为:记录总条数 × 每条记录的必填字段数。<br>- <b>“已赋值的元素数量”</b>:指在所有必填字段中,实际填入了有效值的字段总数。<br><b>医疗标准示例:</b>一个有1000条记录的数据集,每条记录有5个必填字段,则“应赋值的元素总数量”为5000。经检查,其中有4800个必填字段有值,则元素填充率为 4800 / 5000 = 96%。
非空判断,非占位符判断
数据项填充率
数据集中应被赋值的数据项的赋值程度,即数据集赋值完整的数据项数量与数据项总数量之比
<b>描述:</b>数据集中应被赋值的数据项的赋值程度,即数据集赋值完整的数据项(字段、列)数量与数据项总数量之比。<br>计算公式:有效的字段数量 / 总字段数量<br><b>详细解答:</b><br>- 此指标与“元素填充率”在概念和计算上高度相似,均用于从字段层面度量数据的完整性,确保关键信息无遗漏。是对于单个字段的分析。
对单个字段的完整性分析,需要一个基于列分析的设计
区别分析
准确性
内容准确率
数据集内容是否是预期数据,即数据集内容表述正确的元素数量与元素总数量之比
<b>计算公式:</b>内容表述正确的元素数量 / 元素总数量<br><b>详细解答:</b><br>-<b> “内容表述正确”</b>:指数据元素的值不仅格式、值域合规,更能真实、无误地反映客观世界的实际情况。这是对数据质量更高层次的要求。<br>- <b>验证方法:</b>通常需要通过与其他权威数据源(如原始病历、实验室系统)进行交叉比对,或通过专家人工复核来确定。<br><b>医疗标准示例:</b>患者张某的性别为女性,但其“性别代码”字段值被错误录入为 1(男)。该值格式、值域均合规,但内容不准确。
关联检测,例如:妊娠只能是女性 ,身份证结尾与性别,前列腺只能是男
精度准确率
数据项精度是否满足预期要求,即数据项精度符合标准规范的元素数量与元素总数量之比
<b>计算公式:</b>精度符合规范的元素数量 / 元素总数量<br><b>详细解答:</b><br>- <b>“精度符合规范”</b>:指数值型数据的测量或记录精度达到了标准或业务所要求的小数位数或有效数字。<br><b>医疗标准示例:</b>药品使用记录中,“单次给药剂量”数据元要求精度为“0.1mg”。若记录值为“5.12mg”,虽在合理值域内,但因其精度(0.01mg)高于规范要求,在实际系统中可能被视为精度不合规。
某个新数据源声称能提供两位精度的体温数据。在通过第1步入库后,质量团队检查发现,其数据虽然结构是两位,但实际值尾数总是0(如38.50, 36.00),疑似由一位精度数据伪装而成。此时,精度准确率指标会标记该数据源质量可疑,提示业务方谨慎使用。
记录重复率
数据集记录意外重复的度量,即数据集重复记录条数与记录总条数之比
<b>计算公式</b>:重复记录条数 / 记录总条数<br><b>详细解答:</b><br>- <b>“意外重复”</b>:指在业务逻辑上本应唯一的记录,在数据集中出现了多条。<br>- <b>“重复记录”</b>:判定重复需定义一个或多个 “业务主键”(如“医疗机构代码 + 住院号”)。在一个重复组中(如2条相同记录),重复记录条数 = 该组总条数 - 1。将所有重复组中的“重复记录条数”加总,得到整个数据集的重复记录总数。<br><b>医疗标准示例:</b>在同一家医院内,同一患者在同一时间的住院记录本应只有一条。若因系统接口问题导致生成了两条完全相同的记录,基于“患者ID + 入院时间”判断为重复,则需计入重复率。
业务可选逻辑字段判重
无效数据出现率
正确字段、记录、文件或数据集之外无效数据的度量,即数据项无效数据(非法字符和业务含义错误的数据)元素数量与元素总数量之比
<b>计算公式:</b>无效数据元素数量 / 元素总数量<br><b>详细解答:</b><br>- <b>“无效数据”</b>:指那些在技术上格式可能正确,但从业务角度看明显错误或无意义的数据。通常由录入错误、系统故障或接口解析错误导致。<br>- <b>常见类型</b>:包括非法字符(如姓名中包含“@”)、业务含义错误(如年龄为“200岁”)等。<br><b>医疗标准示例</b>:在“收缩压”字段中,出现“0 mmHg”或“500 mmHg”的值,这些值虽然都是数字,格式合规,但超出了人类生理的可能范围,属于无效数据。
值域的进阶,范围校验,年龄范围、体温范围
一致性
数据逻辑性
数据集中不符合逻辑关系的记录条数与记录总条数之比
<b>计算公式:</b>不符合逻辑关系的记录条数 / 记录总条数<br><b>详细解答:</b><br>- <b>“逻辑关系”</b>:指数据内部或多个数据元素之间存在的业务规则和常识约束。<br>- <b>验证方法</b>:通过预定义的业务规则进行自动检查。<br><b>医疗标准示例:</b>一条记录中,“出生日期”为“2020-01-01”,而“死亡日期”为“2019-01-01”,这在时间逻辑上矛盾。或“性别”为“男”,但“诊断名称”为“卵巢囊肿”,这在生理逻辑上不一致。
逻辑表达式+自定义关联
元素赋值一致率
不同数据描述同一个事物和事件的无矛盾程度,即数据项具有相同含义数据(同一时点、存储在不同位置)赋值一致的元素数量与元素总数量之比
<b>计算公式:</b>赋值一致的元素数量 / 参与比对的元素总数量<br><b>详细解答:</b><br>- <b>“具有相同含义数据”</b>:指在不同系统、不同时间点存储的,本应描述同一客观事实的数据。<br>- <b>“赋值一致”:</b>指这些来源不同的数据,其值相同或无矛盾。<br><b>医疗标准示例:</b>同一患者的“ABO血型”信息,在医院的LIS(实验室信息系统)中记录为“A型”,但在EMR(电子病历系统)中记录为“B型”。当进行系统间数据比对此项时,这两个元素即被视为“不一致”。
同一性校验
时效性
周期及时性
数据集赋值符合业务周期及时性的程度,即数据集赋值满足业务周期频率要求的元素数量与元素总数量之比
<b>计算公式:</b>满足周期频率要求的元素数量 / 元素总数量<br><b>详细解答:</b><br>- <b>“业务周期频率”:</b>指数据产生或更新的预定时间间隔。<br>- <b>衡量方式:</b>检查数据记录的时间戳是否在规定的周期时间窗口内。<br><b>医疗标准示例:</b>护理规范要求“危重患者体温”应每4小时记录一次。检查护理记录系统,统计在每一个4小时时间窗口内,是否有对应的体温记录生成,以此计算周期及时率。
逻辑校验+关联校验
实时及时性
数据集赋值延迟时间符合实时及时性的程度,即数据集赋值延迟时间满足业务要求的元素数量与元素总数量之比
<b>计算公式:</b>满足延迟时间要求的元素数量 / 元素总数量<br><b>详细解答:</b><br><b>- “赋值延迟时间”:</b>指从业务事件实际发生,到该事件数据被记录到数据库中的时间差。<br><b>- “实时及时性”:</b>关注的是数据录入或采集的延迟,对实时决策场景至关重要。<br><b>医疗标准示例:</b>在急诊抢救中,要求“抢救开始时间”在抢救行动启动后1分钟内必须录入系统。超过1分钟录入的数据,即为实时不及时。
逻辑校验+关联校验
可访问性
可访问度
数据集在需要时可获取的程度,即数据集请求访问成功的元素数量与请求访问元素总数量之比
<b>计算公式:</b>请求访问成功的次数 / 请求访问总次数<br><b>详细解答:</b><br>- 此指标从技术运维角度衡量数据的可用性。<br><b>- “请求访问成功”:</b>指通过API接口、数据库查询或文件下载等方式获取数据时,系统返回了正确、完整的数据且未发生超时或错误。<br><b>医疗标准示例:</b>临床科研系统每日定时向EMR系统发起1000次数据调用请求,以获取患者诊疗数据。若有10次请求因EMR系统接口故障或网络问题而失败,则当日可访问度为 990 / 1000 = 99%。
调研分析
可直接利用度
原始数据可直接使用的程度
<b>详细解答:</b><br>- 此指标是一个综合性的高级指标,它评价的是数据在经过所有质量维度检验后的“就绪状态”。<br><b>- “可直接利用”:</b>意味着数据无需或仅需极少的额外清洗、转换和治理工作,即可投入分析、应用或决策支持。<br><b>- 评价方法:</b>它通常是对规范性、完整性、准确性、一致性等核心质量维度评价结果的加权综合,或通过抽样调查数据使用者的体验来获得。高可直接利用度是数据质量管理追求的终极目标之一。
调研分析
0 条评论
下一页