评估我们的方法
Posted: Thu Jul 10, 2025 10:18 am
数据集和评估指标
我们考虑了两个用于评估在线领域自适应方法的指标:在线平均准确率和单遍准确率。在线平均值是对流式传输效果的总体估计。单遍准确率衡量的是经过有限样本训练后,在线模型与初始状态的偏差程度。单遍准确率远低于在线平均值表明该模型可能对新查询进行了过拟合,但对早期查询的泛化能力有所削弱。
我们在四个基准上进行了实验。
VisDA-C 是一个经典的基准测试,致力于将合成图像适配到真实图像。COVID
-DA 则致力于将普通肺炎的 CT 图像诊断适配到新型肺炎。WILDS
-Camelyon17 是一个大规模医学数据集,包含患者群体从源数据集到目标数据集的组织病理学图像。Fashion
-MNIST 和 DeepFashion 数据集。由于缺乏跨领域时尚预测数据集,我 手机号数据库列表 们计划评估这两个数据集之间的适配能力。我们选取了两个数据集共有的六个时尚类别,并将任务设计为将 Fashion-MNIST 的灰度样本适配到 DeepFashion 的真实商业样本。
以下是来自这些基准的图像样本以及我们的方法(CroDoBo)与现有最先进(SOTA)方法之间的定性比较。
主要结果
我们很高兴地报告,CroDoBo 在线上的表现远超其他方法,并且与最先进的方法 ATDOC-NA 的离线结果相当。在时间效率方面,CroDoBo 优于其他方法,仅用一个 epoch 就实现了高精度。
我们考虑了两个用于评估在线领域自适应方法的指标:在线平均准确率和单遍准确率。在线平均值是对流式传输效果的总体估计。单遍准确率衡量的是经过有限样本训练后,在线模型与初始状态的偏差程度。单遍准确率远低于在线平均值表明该模型可能对新查询进行了过拟合,但对早期查询的泛化能力有所削弱。
我们在四个基准上进行了实验。
VisDA-C 是一个经典的基准测试,致力于将合成图像适配到真实图像。COVID
-DA 则致力于将普通肺炎的 CT 图像诊断适配到新型肺炎。WILDS
-Camelyon17 是一个大规模医学数据集,包含患者群体从源数据集到目标数据集的组织病理学图像。Fashion
-MNIST 和 DeepFashion 数据集。由于缺乏跨领域时尚预测数据集,我 手机号数据库列表 们计划评估这两个数据集之间的适配能力。我们选取了两个数据集共有的六个时尚类别,并将任务设计为将 Fashion-MNIST 的灰度样本适配到 DeepFashion 的真实商业样本。
以下是来自这些基准的图像样本以及我们的方法(CroDoBo)与现有最先进(SOTA)方法之间的定性比较。
主要结果
我们很高兴地报告,CroDoBo 在线上的表现远超其他方法,并且与最先进的方法 ATDOC-NA 的离线结果相当。在时间效率方面,CroDoBo 优于其他方法,仅用一个 epoch 就实现了高精度。