AI软件 评审要点 流程图
2024-12-13 09:35:35 0 举报
依据人工智能辅助检测医疗器械(软件)临床评价注册审查指导原则(2023年第38号),
作者其他创作
大纲/内容
样本类型可分为:数据块(如图像区域、数据片段)、单一数据(由多个数据块组成)、数据序列(由多个单一数据组成)。样本量和样本分布同《基础数据库》
1.兼容性要求:——基于数据生成方式(直接生成、间接生成)考虑,如:名称、型号规格、制造商、性能指标等;——若无需考虑兼容性要求详述理由并予以记录。2.采集特征要求——采集方式:如常规成像、增强成像;——采集协议:如MRI成像序列;——采集参数:如CT加载电压、加载电流、加载时间、层厚——采集精度:如分辨率、采样率;etc.
结合临床实际和产品定位,综合考虑:a.假阴性与假阳性;b.重复性与再现性;c.鲁棒性/健壮性等性能指标要求,d.兼顾不同性能指标的制约关系,如假阴性与假阳性e.结合当前医疗水平,考虑金标准或参考标准的确定依据、实现方法和质控要求(必要时纳入数据收集过程)
软件验证测试(单元测试、集成测试、系统测试)、设计评审等系列活动,基于软件需求予以开展。
需考虑:①合规性前提下的充分性和多样性;——代表性临床机构:多家、不同地域、多层级;——采集设备:多家、多种、多参数;②数据分布的科学性和合理性;——结合目标疾病流行病学特征予以考虑,包括但不限于: a.疾病构成(如分型、分级、分期); b.人群分布(如健康、患者,性别、年龄、职业、地域、生活方式); c.统计指标(如发病率、患病率、治愈率、死亡率、生存率)等情况; d.以及目标疾病并发症与类似疾病的影响情况。③数据质控的充分性和有效性;——结合数据采集与数据标注的人员、设备、过程等考虑,具体见后文(2.3)。
4.2确认
两两无交集;并通过查重验证;保证样本分布具有均衡性
2.1数据采集
1.3临床使用限制
考虑:1.评估指标:根据用户需求选择(\"辅助决策\"-敏感性、特异性etc.,\"非辅助决策\"-图像质量、测量准确性etc.); 2.训练方式:如留出法、交叉验证法(若组合使用联邦学习,需明确选用依据,提供算法基本信息; 3.训练目标:根据临床情况详述目标确定依据,提供ROC曲线等证据(ROC衍生曲线、混淆矩阵及其衍生参数等) 4.调优方式:明确算法优化策略、实现方法 5.训练数据量-评估指标曲线:应能证实算法训练的充分性和有效性(若无法提供则需详述理由并提供替代证据);
需:1.结合样本规模、采集难度等因素,合理选择采集方式。 2.列明采集设备及采集特征要求,并开展数据采集质量评估工作。
3.1算法选择
1.人员管理;——考虑采集人员、审核人员的选拔,如:职称、工作年限、工作经验、所在机构,若有国外人员明确其资质要求;——培训,如:材料、方案;——考核,如:方法、频次、指标、通过准则、一致性;etc.2.采集流程;——人员职责——采集步骤——结果审核;etc.3.采集质量评估——评估人员——评估方法——评估指标——通过准则等;etc.
2.4.1构建
软件工具的名称、型号规格、完整版本、制造商、运行环境,并进行软件确认
2.3.3标注质量评估
不同模态的数据应加以区分。
标注场所:真实/模拟环境;模拟场所可根据产品实际情况调整模拟程度,详述调整理由并予以记录;标注环境条件:如空间、照明、温度、湿度、气压;标注软件:名称、型号规格、完整版本、供应商、运行环境、软件确认
基础数据库
2.4.2扩增
有监督学习数据质控的关键环节。建立《数据标注操作规范》
标注数据库
2.3数据标注(点击链接)
明确:1.样本类型:以适用人群为单位分为单一数据、数据系列(由多个单一数据组成,如结构序列、功能序列、时间序列); 2.样本量:考虑样本规模的充分性,明确样本总量确定依据; 3.样本分布:依据适用人群、数据来源机构、采集设备、样本类型等明确疾病构成的数据分布情况
1.对于非辅助决策类功能:可基于核心功能开展同品种医疗器械比对,全新的功能、算法和用途原则上均需开展临床评价;2.对于辅助决策类功能:需基于核心算法开展同品种医疗器械比对,所选同品种医疗器械的临床证据原则上需基于临床试验(含回顾性研究)。全新的功能、算法和用途原则上均需开展临床试验。3.同时,开展算法性能比较分析,详述各类测试场景(含临床评价)算法性能变异度较大的原因,基于分析结果明确产品使用限制和必要警示提示信息。4.最后,结结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。
包括评估人员、评估方法、评估指标、通过准则等要求,并记录评估结果;
-基于测试集(亦可基于第三方数据库开展),综合考虑FN(假阴性)、FP(假阳性)、重复性、再现性、鲁棒性、实时性等适用评估要求;-同时开展算法性能影响因素分析(如采集设备、采集参数、疾病构成、病变特征等)及其影响程度,以提升算法可解释性,基于分析结果明确产品使用限制和必要警示提示信息;-根据产品实际情况开展压力测试(*)、对抗测试等测试,以全面深入评估算法性能;-压力测试*:这里指采用罕见或特殊的真实数据样本开展的算法性能测试,侧重于评估算法泛化能力的极限,必要时可引入对抗样本开展对抗压力测试,若未开展相应测试或测试结果不佳,均需对产品的适用范围、使用场景、核心功能进行必要限制,并在说明书中明确
两两无交集;并通过查重验证;保证样本符合临床实际情况
3.3算法性能评估
标注人员:如资质、数量、职责标注规则:如临床指南、专家共识、专家评议、文献分析标注流程:如标注对象、标注形式、标注轮次、标注步骤、结果审核分歧处理:如仲裁人员、仲裁方式可追溯性:如数据、操作
划分方法划分依据数据分配比例
4验证与确认
2.3.2标注过程质控
2.1.1质控
2.1.2脱敏
包括软件确认测试(用户测试)、临床评价、设计评审等系列活动。根据产品实际情况,软件确认方式可单一使用,亦可组合使用。
1.1数据收集
用户测试
3算法设计
列表对比《扩增数据库》与《标注数据库》在样本量、样本分布(注明扩增倍数)等方面的差异,以证明扩增数据库样本量的充分性和分布的合理性
1需求分析
调优集
需明确脱敏的类型(静态、动态)、规则、方法,以及脱敏内容得确定依据。
为使样本分布满足预期目标而扩增;《测试集》不宜扩增(对抗测试除外);《训练集》《调优集》仅小样本量数据进行扩增;扩增应对软件影响(考虑扩增方法选用、扩增倍数过大)进行风险分析;明确扩增对象、扩增方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生成对抗网络……)、倍数(倍数过大应考虑数据偏倚的影响);若采用生成对抗网络需明确算法基本信息以及算法选用依据
可使用自动标注软件,但自动标注结果不得直接使用,应由标注人员审核后方可使用;自动标注软件工具的名称、型号规格、完整版本、供应商、运行环境,并进行软件确认
3.2算法训练
基础设施管理
扩增数据库
2.2.1数据清洗
考虑临床禁用、慎用等场景;准确表述产品使用场景,提供必要警示提示信息
2.4数据集构建
2.3.1标注资源管理
人员管理
训练集
若使用历史数据
2数据收集
软件确认测试:1.基于用户需求,由预期用户在在真实或模拟使用场景下予以开展; 2.亦可基于测评数据库予以开展,产品注册申报时按医疗器械主文档登记事项要求提交测评数据库评估材料)。
《数据采集操作规范》
明确:1.算法的名称、类型(如有监督学习、无监督学习,基于模型、基于数据,白盒、黑盒)、结构(如层数、参数规模)、输入输出数据类型、流程图、算法编程框架(含自研框架、现成框架如Tensorflow、Caffe)、运行环境等基本信息; 2.算法选用依据:包括理由和基本原则,若组合使用集成学习、迁移学习、强化学习等,亦需提供算法基本信息以及算法选用依据。
2.2.2数据预处理
2.2数据整理
明确清洗的规则、方法、结果
原始数据库
数据采集需经伦理委员会批准(若适用)
测试集
采集设备质控
以下含标注人员、审核人员和仲裁人员;选拔:如职称、工作年限、工作经验、所在机构、如是国外人员的资质要求培训:如培训材料、培训方案;考核:如方法、频次、指标(应包括重复性、再现性)、通过准则、一致性
1.2算法性能
4.1验证
明确处理的方法(如滤波、增强、重采样、尺寸裁剪、均一化等)、结果。
临床评价
采集过程质控
0 条评论
下一页