|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
我将此AI系统命名为:"AIast for GxP DI"(AI assistant)
主要目标:在整个生物分析数据生命周期中(例如,针对临床试验的样本分析),从方法验证到样品分析及报告,主动识别数据完整性风险和异常。
生物分析试验相关的数据来源,可能包括:
1. 基于纸质的记录(数字化转换,如扫描)或用于分析操作记录的电子数据平台(EDP)。
2. OOS/OOT偏差报告(来自质量管理系统-QMS)
3. 分析仪器原始数据和审计追踪(例如,来自HPLC, LC-MS/MS)
4. 处理后的数据(例如,色谱积分报告,计算浓度)
5. 生物样品管理系统(样本溯源链,储存条件)
6. LIMS(样品登录、工作列表分配和结果录入)
7. 处理后的TK参数(例如,来自专业的PK软件,如Watson LIMS的TM模块或Phoenix WinNonlin)
8. 生物分析报告草案和终稿(例如,Word或PDF格式)
第一阶段:训练AI模型
此阶段是关于使用历史的、已标记的数据"教导"AI什么是正常和异常。
步骤1:数据获取与特征化
我们收集过去5-7年的历史、匿名化数据。该数据集必须丰富,包含合规运行的例子以及已知存在数据完整性问题的运行的例子(例如,来自过去的审计或调查)。
²来自LIMS: 样品ID、分析员姓名、每个步骤的时间戳(登录、准备、分析、批准)、工作列表、最终结果。
²来自EDP/纸质记录(通过OCR): 样品制备详情(重量、体积、移液记录)。AI将从非结构化或手写条目中提取结构化数据。
²来自仪器原始数据和审计追踪:序列运行日志、用户操作(进样、积分、再处理、删除)、方法变更、错误日志。AI被训练来解析这些复杂的日志。
²来自处理后的数据:积分参数、峰形、内标(IS)响应、校准曲线数据(R²,回溯计算的标准品%偏差)。
²来自生物样品系统:样品采集日期、冻融循环、储存位置变更。
²来自OOS/OOT报告: 失败和根本原因的文本描述(例如,"断电"、"分析员错误"、"色谱柱故障")。使用自然语言处理(NLP)对这些进行分类。
²来自处理后的TK参数数据: PK分析软件的输出(例如,`Cmax`, `Tmax`, `AUC0-t`, `AUC0-∞`, `t½`)。
²来自生物分析报告草案或终稿(通过NLP): 文档文件。
AI将所有这一切转换为它可以分析的结构化"特征集"。例如:
ü`样品准备与分析之间的时间`
ü`每个样品的再积分尝试次数`
ü`内标响应与中位值的偏差`
ü`进样后方法变更的频率`
ü`LIMS时间戳与EDP时间戳之间的不匹配标志`
ü`AUC不一致标志`:标记AUC0-∞显著大于AUC0-t但没有明确末端消除相的情况。
ü`半衰期异常值`:识别半衰期在剂量组中属于统计异常值的受试者。
ü`Cmax_Tmax关系`:标记生理学上不可能的配对(例如,非常高的`Cmax`与非常晚的`Tmax`)。
ü`参数计算审计追踪`:PK分析期间应用的任何手动覆盖或排除的日志。
ü`数据报告不一致性`:检测报告声称"所有样品在解冻后24小时内进行分析",但生物样品系统显示某样品解冻了36小时的情况。
ü`结果差异`:将报告中的汇总表与LIMS中的主数据进行交叉比对(例如,报告列出平均AUC为550 nghr/mL,但AI根据原始数据计算得出的值为520 nghr/mL)。
ü`选择性报告标志`:使用NLP识别可能掩盖问题的语言,例如"显示不稳定性的样品被排除在计算之外"但没有直接链接到正式偏差。
步骤2:使用标记数据进行监督学习
这是训练的核心。专家(QA和资深技术人员)对历史数据进行"标记"。
n标签 0: "完整性合规" - 通过审计并被认定可靠的研究数据。
n标签 1: "高风险 - 潜在完整性问题" - 与确认的OOS(因分析员错误)、欺诈调查或重大审计发现相关的数据。
n标签 2: "计算/报告完整性问题" - 原始和处理后的色谱数据有效,但衍生的TK参数或研究报告包含错误、遗漏或歪曲表示的数据。
AI模型学习特征与这些标签之间复杂的非线性关系。它学习到,例如,以下情况的组合:
v审计追踪条目显示某个样品在结果记录前被积分了10次以上。
v最终结果是刚好符合接受标准的异常值。
v分析方法与规定的方法不一致,且没有相关的偏差报告。
vEDP中记录的稀释因子与处理软件中计算使用的稀释因子不匹配...是"高风险"标签的有力预测指标。
v一个`高的AUC不一致标志` + 一份声称"药代动力学显示清晰的图谱,无异常"的报告 → 高风险标签。
v将某受试者的数据从汇总中排除,但`没有链接的OOS/OOT报告` → 高风险标签。
步骤3:用于新颖异常检测的无监督学习
并非所有数据完整性问题都是已知的。我们使用无监督学习让AI识别它未曾见过的新模式。
该模型查看所有未标记的数据,并识别统计上的异常数据点。例如,它可能会标记出某个分析员的样品持续比其他人的峰面积高出5%,暗示可能存在未正确记录的稀释或操做,即使没有任何单个操作或行为被记录为明确的偏离或违规。
第二阶段:验证用于GxP的AI系统
这是在受监管环境中证明AI适合其预期用途的严格过程。我们遵循V模型方法。
步骤1:用户需求规范(URS)
URS 1
|
系统应标记出包含数据完整性违规概率达到95%或以上的分析运行
|
URS 2
|
系统应为每个标记提供可审计的理由
|
URS 3
|
系统应通过安全API与LIMS和EDP集成
|
步骤2:安装确认(IQ)
验证AI软件是否在经验证的服务器基础设施上正确安装。
确认所有数据连接(到LIMS、EDP、仪器等)安全且功能正常。
步骤3:运行确认(OQ)-"它是否能正常工作?"
在此我们使用预定义的测试脚本来测试系统的功能。
测试1:已知的完整性失败。向AI提供过去一个分析员被发现有“回录”记录案例的数据。预期结果:系统将其标记为"高风险",并引用审计追踪异常以及LIMS和EDP之间时间戳不匹配。
测试2:正常运行。向AI提供干净、合规的运行数据。预期结果:系统分配"低风险"分数。
测试3:边界情况。向AI提供具有合法、合理解释的OOS数据(例如,因偏差报告中记录的电压骤降所致)。预期结果:系统可能将其标记以供审查,但报告应引用链接的偏差报告,允许用户快速关闭警报。
测试4:向AI提供一个数据集,其中一名初级科学家手动覆盖了WinNonlin中两个受试者的自动化`AUC0-∞`计算,不正确地夸大了数值以使数据看起来"更干净"。原始色谱数据是完美的。预期结果:AI将批次标记为"高风险",原因是:
1. 两个受试者的`AUC不一致标志`。
2. `参数计算审计追踪`显示手动覆盖。
3. 缺乏证明覆盖合理性的偏差报告。
测试5:分析报告中总结100 mg剂量组的平均`Cmax`为1250 ng/mL。AI将LIMS中的个体受试者结果进行交叉比对,并计算出真实平均值为1180 ng/mL。预期结果:AI生成一个"中等风险"警报,标题为`数据/报告不匹配`,理由为:"报告汇总统计量(平均Cmax = 1250 ng/mL)与基于LIMS主数据计算值(1180 ng/mL)偏差>5%。"
步骤4:性能确认(PQ)-"它在真实世界环境中是否能持续工作?"
这是AI最关键的阶段。我们进行一项前瞻性试点研究。
在3个月内,AI与现有手动QA流程并行审查所有传入的分析数据(方法验证、TK等)。
关键指标不仅仅是误报率(错误警报的频率),更重要的是漏报率(漏掉真实问题的频率)。
我们将AI的发现与人类QA团队的发现进行比较。目标是证明AI至少与手动流程一样有效,并且能够识别人类遗漏的细微风险。
让我们设想一下,经过验证的AI(AIast for GxP DI)如何在真实的毒代动力学(TK)分析中工作。
举例1:一次TK分析运行
1. 数据流: 一名分析员为一项TK研究运行了一批100个血浆样品。数据从LC-MS仪器流向处理软件。分析员在EDP中记录过程,并将结果输入LIMS。
2. AI审查(实时): AIast for GxP DI立即开始其跨系统审查:
关联检查1(LIMS vs. EDP): AI注意到分析员"JOYCE"在LIMS中记录运行完成的时间是上午9:00,但最终样品制备步骤的EDP记录电子签名时间是上午9:45。异常:时间线不可能。
关联检查2(审计追踪): AI扫描LC-MS审计追踪。发现处理方法在前10个样品进样后进行了修改以扩大积分窗口。
关联检查3(处理后的数据): 分析处理后的数据,发现前10个样品峰积分效果差,但在方法变更后,峰变得完美。所有样品的最终结果都在接受标准内。
关联检查4(生物样品 vs. 结果): AI检查生物样品管理系统,发现一个样品经历了4次冻融循环,但报告的浓度与第一次分析完全相同,这在统计上是不大可能的。
3. 警报生成: AI整合这些发现。它不会说"检测到欺诈!"。它会生成一个带有可解释报告的高风险警报:
`警报 BAA-231:TK批次 TK-2024-101 存在高完整性风险。`
`理由:`
`- LIMS完成时间(09:00)与EDP制备签核时间(09:45)存在时间差异。`
`- 关键处理方法在进样后(样品11)发生变更,与此前样品(1-10)数据质量改善相关。`
`- 无关联的偏差报告证明该处理方法变更合理。`
`- 样品ABC-123的结果与其4次冻融循环历史不一致。`
`建议措施:QA立即审查。`
4. 人在回路: QA官员收到警报。他们无需手动筛选数千条日志条目,而是被直接引导至确切的四条证据。他们现在可以与分析员进行有针对性的、高效的调查。
此示例证明,一个经过适当训练和验证的AI可以将数据完整性从被动的、基于抽样的审计转变为主动的、持续的和全面的数据监护,涵盖纸质/EDP和电子系统。
举例2:从分析到报告的完整TK研究
1. 数据流: 一项新药候选物的完整TK研究完成。数据从LC-MS,通过处理软件,进入LIMS,用于WinNonlin中的PK计算,并总结在分析报告中。
2. AI整体审查:
关联检查1(LIMS vs. EDP):(同前)- 发现时间线差异。
关联检查2(审计追踪):(同前)- 方法在进样后变更。
关联检查3(处理后的数据): AI注意到整个批次使用的校准曲线R²为0.988,略低于SOP要求的0.990。未提出OOS。
关联检查4(TK参数): AI分析计算出的`AUC`值。发现受试者101的`AUC0-∞`比剂量组中其他受试者低40%。该受试者的数据被排除在报告的汇总表之外。
关联检查5(分析报告): AI的NLP模块读取报告的"方法"部分,其中声称"使用R² > 0.990的校准曲线进行所有计算。" 它还在"结果"部分读取到:"所有受试者均完成研究并纳入药代动力学分析。"
3. 增强的警报生成: AI现在掌握了数据完整性链的完整图景。
`警报 BAA-232:TK研究 TK-2024-102 存在严重完整性风险。`
`理由:`
`- 基本数据收集问题:LIMS和EDP之间存在时间差异;未经授权的进样后方法变更。`
`- 无效的主数据:用于定量的校准曲线(R²=0.988)不符合SOP标准(R²>0.990)。`
`- 误导性报告:最终报告错误地声明 a) 使用了有效的校准曲线,以及 b) 所有受试者均被纳入分析。`
`- 选择性数据排除:受试者101被排除在汇总统计之外,没有记录的科学理由(无关联偏差)。`
`总体风险评估:累积证据表明存在一种行为模式,损害了所报告研究结论的有效性和完整性。`
`建议措施:立即暂停研究报告,并要求进行全面审计。`
结论与价值
此示例证明AI系统不再仅仅是发现孤立的技术故障;它现在可以:
捕捉已执行操作与报告内容之间的差异。
标记为使数据看起来更有利而对异常值进行的不合理排除。
发现复杂PK建模阶段引入的错误。
这确保了最终报告所讲述的故事是对实验室内生成的原始数据的准确和完整的反映。
最后,总结一下AI模型用于数据完整性检查的关键成功因素与挑战:
Ø可解释性: AI的输出必须是可审计的。它不能是一个"黑匣子"。警报中提供的"理由"是不可妥协的。
Ø模型漂移监控:必须持续监控AI的性能。如果实验室流程发生变化(例如,引入新仪器),模型可能需要重新训练和重新验证。
Ø监管机构认可:向监管机构提交全面的验证包(IQ/OQ/PQ)至关重要。他们希望看到PQ中的漏报率。
Ø文化变革:实验室必须将AI视为科学家和QA的强大工具,而不是监视系统。其目标是保护他们工作的完整性和患者安全。 |
|