导入 Veeva EDC 数据
借助 Veeva Clinical Data,来自 Veeva EDC 的数据会以增量方式汇集到 Veeva CDB。在 CDB Workbench 中,CDB 会为研究中的每个表单创建一个核心列表。每次运行此作业时,CDB 都会更新其中的数据以反映 EDC 中的数据。
先决条件
默认情况下,具有标准 CDMS 首席数据管理员(CDMS Lead Data Manager)研究角色或 Vault 所有者(Vault Owner)安全配置文件的用户可以执行下述操作。如果 Vault 使用自定义研究角色,则你的角色必须具有以下权限:
| 类型 | 权限标签 | 控制 |
|---|---|---|
| “标准(Standard)”选项卡 | “EDC 工具”选项卡 | 能够访问 EDC 工具选项卡 |
| 功能权限 | 管理作业 | 能够创建、编辑和删除已计划的作业 |
| 功能权限 | 查看导入 | 能够访问“导入(Import)”页面 |
| 功能权限 | 下载导入包 | 能够下载导入包 |
如果你的“研究”包含受限数据,你必须具有“受限数据访问(Restricted Data Access)”权限才能查看该数据。
了解有关“研究角色”的更多信息。
在 Workbench 中导入数据
通过增量导入,CDB 每十五(15)分钟从 Veeva EDC 导入一次研究数据以获取新数据。这是自动发生的,用户不需要任何操作。来自 Veeva EDC 的数据在表单级别进行归一化。
研究设计更改每天在 00:00 GMT 加载一次。如果检测到设计更改,则所有增量刷新都将暂停,直到 00:00 GMT 加载最新研究设计时。
这些增量导入数据包中包括以下数据:
- 研究属性
- 研究中心属性
- 受试者属性
- 所有病例手册数据
- 质疑
- SDV 状态
- DMR 状态
CDB 会为研究中的每个表单创建一个核心列表。核心列表 包含以下各列,但请注意,管理员可能已将研究 配置为具有不同的核心列表列:
- Study.Name
- 研究中心名称
- Site.PI
- Event.Name
- Event.Date
- Event.Status
- Subject.Name
- Subject.Status
- 表单 上每个条目 的列
导入完成后,Workbench 会向你及任何其他订阅该源的用户发送电子邮件通知。如果重新处理包的结果与之前的加载有所变化,Workbench 也将向你和订阅该源的用户发送通知。
当研究设计发生变更或发生加载错误时,CDB 将暂停增量导入(每 15 分钟一次)。发生这种情况时,CDB 会在“导入”页面上显示一个横幅,以指出这一点。
查看来源与导入数据包
通过导入页面可查看研究的全部来源及关联导入数据包。
页面顶部显示主要来源(Veeva EDC 或第三方 EDC 系统的导入信息,包括:
- 导入摘要下载链接
- 导出日期(数据从 EDC 系统导出的日期)
- 导入日期(数据导入 Workbench 的日期)
- 上次设计更改(EDC 系统中研究设计/方案的最近更改日期和时间)
- 表单记录计数(受新导入数据包影响的表单记录数量)
- 受影响表单数(受新导入数据包影响的表单数量)
导入摘要汇总了 Veeva EDC 的所有增量加载数据。每日数据包含以下信息:
- 日期
- 增量数据包数量(当日导入的增量数据包个数)
- 完整数据包数量(当日导入的完整数据包个数)
- 错误(用“是”或“否”标识导入过程中是否出现错误)
可按导入日期范围(Import Date Rang)筛选此列表。
单击任意日期可查看当日所有数据包详情。对于每个导入数据包,Workbench 会显示以下信息:
- EDC 导出日期
- 上传日期
- 导入日期
- 完整加载(true/false 复选框)
- 导入的表单记录总数
- 状态
- 详细信息
查看导入状态
可以从导入(Import)>数据包(Packages)中检查导入数据包的状态。此页面列出了从 Vault EDC 和第三方工具导入的每个数据包的状态。还可以从此页面下载导入数据包和问题日志(错误和警告)。
完成状态:要使导入包进入移至完成导入状态,研究的 Workbench 用户必须打开一个列表。否则,导入将保持进行中状态。如果研究启用了自动交换功能,则不需要进行此操作。所有增量研究和 OpenEDC 研究均默认启用自动交换功能。
没有受限数据访问权限的用户可以下载导入包日志,但无法下载数据文件。具有受限数据访问权限的用户可以下载包含盲态数据的数据包。
筛选
可以使用导入状态筛选器轻松筛选列表,仅显示已完成或失败的导入。单击错误(Error)仅显示失败的导入,或单击完成(Complete)以显示已完成的导入。
再处理
Workbench 会在导入或最后一次重新处理的 24 小时后,自动重新处理包含下列可恢复警告代码的生产环境第三方数据包。
- D-002:未找到研究中心
- D-003:未找到受试者
- D-004:未找到事件
出现这些代码意味着数据文件中的个别行因未匹配到主要来源而无法导入。
Workbench 不会重新处理包含其他警告或错误代码的数据包,因为重新处理仅检测主要来源中新录入的数据,且只有上述警告可通过新录入数据解决。请注意,自动重新处理仅适用于生产环境,不适用于 TST、TRN 或 VAL 环境(即使这些环境出现上述警告)。
Workbench 导入状态
当导入数据包能够导入且仅带警告时,Workbench 会以橙色突出显示状态,以指示存在警告。导入完成后,可以下载问题日志以查看警告。
| 状态 | 描述 |
|---|---|
| 排队 | 数据包位于处理队列中。数据包已进入处理队列。在该数据包之前有一个包含更改的数据包排队,该数据包正在等待已暂停的数据包获得批准或被拒绝。 |
| 已暂停 | CDB 检测到清单中的更改,因此导入被暂停,直到批准或拒绝该数据包。 |
| 已批准 | 清单中的更改已获得批准。CDB 现在将导入数据包。 |
| 已拒绝 | 清单中的更改已被拒绝。 |
| 已跳过 | 数据包被跳过且未导入。在处理数据包之前,已导入该源的另一个数据包。此状态仅适用于第三方数据包。 |
| 进行中 | 此数据包的导入过程已经开始,Workbench 未发现任何错误或警告。 |
| 进行中(带警告) | 导入过程正在进行中,但 Workbench 已发现警告。 |
| 错误 | 导入失败,因为导入包中存在一个或多个错误。下载问题日志并查看错误。 |
| 完成 | Workbench 已成功导入数据包,没有错误或警告。 |
| 完成(带警告) | Workbench 已成功导入数据包,但存在一个或多个警告。下载问题日志并查看警告。 |
| 未导入 | Workbench 跳过了此数据包,因为在处理开始之前上传了同一来源的较新数据包。当数据包进入未导入状态时,Workbench 还会将处理日期替换为“已替换”。 |
| 正在进行重新处理 | Workbench 已开始重新处理此数据包,因为导入了来自其他源的新数据包。 |
| 重新处理完成 | Workbench 完成了对此数据包的重新处理,没有错误或警告。 |
| 重新处理完成(带警告) | Workbench 完成了对此数据包的重新处理,但存在一个或多个警告。下载问题日志并查看警告。 |
| 重新处理错误 | 重新处理失败,因为导入包中存在一个或多个错误。下载问题日志并查看错误。 |
下载导出包
要下载导入包,请执行以下操作:
- 导航到研究 (Study)的导入 (Import)。
- 在来源列表中找到你的来源 (Source)。
- 点击数据表 (Packages) 以打开来源 (Source) 的“数据包”页面。
- 在列表中找到导入数据包。
- 从 ZIP 文件夹中提取文件,并在选择的工具中进行查看。
下载日志
可以下载任何导入操作的导入日志(CSV)和失败导入操作的问题日志(CSV)。导入日志列出了有关导入作业和摄取到 Workbench 的数据的详细信息。
导入日志列出了以下信息:
- 转换开始时间
- 转换完成时间
- 转换持续时间
- 导入开始时间
- 导入完成时间
- 导入持续时间
要下载导入日志,请执行以下操作:
- 导航到研究 (Study)的导入 (Import)。
- 在来源列表中找到你的来源 (Source)。
- 点击数据表 (Packages) 以打开来源 (Source) 的“数据包”页面。
- 在列表中找到导入数据包。
- 从数据包 (Package) () 菜单中,选择下载日志 (Download Logs)。
问题日志
问题日志列出了 Workbench 在导入数据包时遇到的所有错误和警告。在此处查看可能的错误和警告列表。
要查看问题日志,请执行以下操作:
- 导航到来源 (Source) 的数据包 (Packages) 页面。
- 在列表中找到导入数据包。
- 从数据包()菜单中,选择查看数据包详细信息(View Package Details)。
- 在数据包详细信息(Package Details)面板中,单击问题(Issues)。
- 可选:在问题日志(Issue Log)面板中,单击下载()以下载日志的 CSV。
要下载问题日志,而不先在应用程序中进行查看,请执行以下操作:
- 导航到来源 (Source) 的数据包 (Packages) 页面。
- 在列表中找到导入数据包。
- 从数据包 (Package) () 菜单中,选择下载日志 (Download Logs)。
受限(设盲)表单
在 Veeva EDC 中,研究设计者可以将表单 标记为受限。这意味着表单 上的所有条目 也受限。
对于有权访问受限数据的用户(通常是首席数据管理员),受限数据的行为方式与不受限数据相同。对于盲态用户(没有受限数据访问权限的用户),以下行为规则适用于任何导入的受限数据:
- 如果条目(列)受限:
- CQL 投影不会返回受限条目的列。
- CQL 投影不会返回引用受限条目的任何衍生列。
- 如果盲态用户在 CQL 语句中引用了受限条目,CQL 仍然不会返回该列。
SHOW和DESCRIBE不会返回受限条目。
- 如果行受限:
- 结果集不会返回来自表单或条目组的任何行。
- 如果列表文件(csv)受限:
- 列表中默认包含
@HDR列,但不包含任何条目列。
- 列表中默认包含
- 如果源(数据包)受限:
- CQL 不会在任何列表中返回来自受限源的任何条目或列结果。
- CDB 将源中的所有条目定义、条目组定义和表单定义标记为受限。
- 将所有数据行都标记为受限。
- 默认的 @HDR 列仍将显示在核心列表中。
EDC 导入的核心列表
Workbench 会自动为研究中的每个唯一表单生成一个核心列表。这些列表的默认 CQL 质疑为:
SELECT @HDR, * from source.filename 例如,如果某项研究包含一个生化表单和一个血液学表单,则 CDB 会创建两个核心列表:生化和血液学,使用以下质疑:
| 生化 |
|
| 血液学 |
|