Deformable-DETR实战：从零到一，用PyTorch完成自定义数据集的目标检测训练

张开发

• 2026/4/21 11:37:32 • 15 分钟阅读

分享文章

Deformable-DETR实战：从零到一，用PyTorch完成自定义数据集的目标检测训练

1. 环境准备搭建Deformable-DETR的训练基础目标检测是计算机视觉领域的核心任务之一而Deformable-DETR作为DETRDetection Transformer的改进版本通过引入可变形注意力机制显著提升了检测性能。对于想要使用自定义数据集进行目标检测训练的开发者来说第一步就是搭建合适的环境。我建议使用conda来管理Python环境这样可以避免不同项目之间的依赖冲突。创建一个名为deformable_detr的新环境指定Python版本为3.9conda create -n deformable_detr python3.9 pip conda activate deformable_detrPyTorch的版本选择至关重要必须与CUDA版本匹配。根据你的显卡驱动支持的CUDA版本可以通过nvidia-smi命令查看选择对应的PyTorch安装命令。例如对于CUDA 11.6pip install torch1.12.1cu116 torchvision0.13.1cu116 torchaudio0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116安装完PyTorch后还需要安装项目所需的其他依赖库。通常项目会提供一个requirements.txt文件直接运行pip install -r requirements.txt最后一个关键步骤是编译CUDA操作。进入models/ops目录运行make.sh脚本cd ./models/ops sh ./make.sh这个步骤会编译MultiScaleDeformableAttention这个核心模块。需要注意的是如果你后续更换了PyTorch版本必须重新编译这个模块否则会导致兼容性问题。我在第一次尝试时就因为忽略了这个细节导致训练时出现了难以排查的错误。2. 数据准备将自定义数据集转换为COCO格式Deformable-DETR默认使用COCO格式的数据集因此我们需要将自己的标注数据转换为这种格式。COCO格式采用JSON文件来组织标注信息包含images、annotations和categories三个主要部分。假设你已经有了一批标注好的图像和对应的标注文件可能是VOC格式的XML文件或者其他格式转换过程可以分为以下几个步骤创建一个目录结构coco/ ├── annotations/ │ ├── instances_train.json │ └── instances_val.json └── images/ ├── train/ └── val/编写转换脚本将你的原始标注转换为COCO格式的JSON文件。以下是一个简化的Python示例import json import os from PIL import Image def convert_to_coco(original_annotations, output_json): coco_format { images: [], annotations: [], categories: [{id: 1, name: your_class_name}] } for idx, img_info in enumerate(original_annotations): img_path img_info[path] with Image.open(img_path) as img: width, height img.size coco_format[images].append({ id: idx, file_name: os.path.basename(img_path), width: width, height: height }) for ann in img_info[annotations]: coco_format[annotations].append({ id: len(coco_format[annotations]), image_id: idx, category_id: 1, bbox: [ann[x], ann[y], ann[w], ann[h]], area: ann[w] * ann[h], iscrowd: 0 }) with open(output_json, w) as f: json.dump(coco_format, f)将转换后的JSON文件放在annotations目录下对应的图像文件放在images/train或images/val目录中。在实际操作中你可能需要根据自己数据集的特性调整这个转换过程。比如如果你的数据集有多个类别需要在categories数组中添加所有类别如果标注格式不同需要相应调整解析逻辑。3. 模型配置调整关键参数适配自定义数据集准备好数据后我们需要对Deformable-DETR的配置文件进行调整使其适应我们的自定义数据集。主要需要修改以下几个关键参数类别数量在配置文件中找到num_classes参数将其设置为你的数据集类别数1因为DETR系列模型需要一个额外的背景类。例如如果你的数据集有5个类别应该设置为6。数据集路径修改配置文件中数据集的路径指向你准备好的COCO格式数据集。通常需要修改以下几个路径{ dataset_file: custom, coco_path: /path/to/your/coco, coco_panoptic_path: None, remove_difficult: False }预训练权重Deformable-DETR通常使用在COCO数据集上预训练的权重进行初始化。你需要下载对应的预训练模型如r50_deformable_detr-checkpoint.pth并将其路径配置在配置文件中。训练参数调整根据你的硬件条件和数据集大小可能需要调整以下参数batch_size根据GPU内存大小设置num_workers数据加载的线程数lr学习率对于小数据集可能需要降低epochs训练轮数lr_drop学习率下降的epoch一个典型的配置修改示例如下{ num_classes: 6, # 5个类别背景 batch_size: 4, num_workers: 4, lr: 2e-4, lr_backbone: 2e-5, weight_decay: 1e-4, epochs: 50, lr_drop: 40, clip_max_norm: 0.1, device: cuda }我建议在开始完整训练前先用小批量数据如设置batch_size1epochs1进行测试确保整个流程能够正常运行避免浪费大量时间后发现配置错误。4. 训练过程启动与监控配置完成后就可以开始训练了。Deformable-DETR通常通过main.py脚本来启动训练。基本的训练命令如下python main.py \ --dataset_file custom \ --coco_path /path/to/your/coco \ --output_dir outputs \ --resume /path/to/pretrained.pth \ --num_classes 6 \ --epochs 50 \ --lr 2e-4 \ --lr_backbone 2e-5 \ --batch_size 4 \ --num_workers 4训练过程中有几个关键点需要注意损失曲线监控Deformable-DETR会输出多种损失值包括分类损失、边界框损失等。正常情况下这些损失应该随着训练逐渐下降。如果发现损失波动剧烈或不下降可能需要调整学习率或其他超参数。显存使用使用nvidia-smi命令监控GPU显存使用情况。如果显存接近耗尽可以减少batch_size或图像分辨率。验证集性能定期在验证集上评估模型性能观察mAP等指标的变化趋势。学习率调整Deformable-DETR通常配置了学习率衰减策略lr_drop参数在特定epoch后会降低学习率。你可以根据验证集性能决定是否需要调整这个参数。训练过程中可能会遇到一些常见问题比如OOM内存不足错误尝试减小batch_size或图像尺寸NaN损失可能是学习率过高尝试降低学习率训练速度慢检查num_workers设置确保数据加载没有成为瓶颈我建议使用TensorBoard或Weights Biases等工具来可视化训练过程这样可以更直观地监控模型的学习情况。5. 模型评估与推理训练完成后我们需要评估模型在测试集上的性能。Deformable-DETR提供了评估脚本通常可以通过以下命令运行python main.py \ --dataset_file custom \ --coco_path /path/to/your/coco \ --output_dir outputs \ --resume /path/to/your/checkpoint.pth \ --eval \ --num_classes 6评估完成后你可以使用训练好的模型进行推理。以下是一个简单的推理代码示例import torch from models import build_model from util.misc import nested_tensor_from_tensor_list # 加载模型 checkpoint torch.load(/path/to/your/checkpoint.pth) args checkpoint[args] model, _, _ build_model(args) model.load_state_dict(checkpoint[model]) model.eval().cuda() # 准备输入图像 from PIL import Image import torchvision.transforms as T transform T.Compose([ T.Resize(800), T.ToTensor(), T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) image Image.open(test_image.jpg).convert(RGB) image_tensor transform(image).unsqueeze(0).cuda() # 进行推理 with torch.no_grad(): outputs model(nested_tensor_from_tensor_list(image_tensor)) # 处理输出结果 probas outputs[pred_logits].softmax(-1)[0, :, :-1] keep probas.max(-1).values 0.7 # 置信度阈值 boxes outputs[pred_boxes][0, keep] scores probas[keep] labels scores.argmax(-1)在实际应用中你可能需要根据具体需求调整后处理逻辑比如修改置信度阈值、添加NMS非极大值抑制等操作。6. 常见问题与解决方案在使用Deformable-DETR训练自定义数据集的过程中可能会遇到各种问题。以下是我在实践中总结的一些常见问题及其解决方案CUDA内存不足减小batch_size降低输入图像分辨率修改配置文件中的img_size参数使用梯度累积accumulate_grad_batches参数训练损失不下降检查学习率是否合适尝试调整lr和lr_backbone确认数据标注是否正确可视化一些样本检查检查预训练权重是否正确加载评估指标mAP过低增加训练epochs数量调整学习率衰减策略lr_drop检查数据增强策略是否合适MultiScaleDeformableAttention编译错误确保PyTorch版本与CUDA版本匹配重新运行make.sh编译检查CUDA和gcc版本是否兼容类别不平衡问题在配置文件中调整class_weight参数使用过采样或欠采样策略尝试focal loss等处理类别不平衡的损失函数训练速度慢增加num_workers提高数据加载速度使用混合精度训练--amp参数检查是否有CPU到GPU的数据传输瓶颈我在实际项目中遇到过这样一个问题训练初期损失下降正常但到某个epoch后突然变为NaN。经过排查发现是学习率过高导致梯度爆炸通过添加梯度裁剪clip_max_norm参数解决了这个问题。这种经验告诉我在训练复杂模型时细致的监控和及时的调整非常重要。

更多文章

前端开发 2026/4/21 11:35:31

如何在Windows电脑上畅游酷安社区：Coolapk-UWP桌面客户端完全指南

如何在Windows电脑上畅游酷安社区：Coolapk-UWP桌面客户端完全指南【免费下载链接】Coolapk-UWP 一个基于 UWP 平台的第三方酷安客户端项目地址: https://gitcode.com/gh_mirrors/co/Coolapk-UWP 你是否曾想过在电脑大屏幕上也能像在手机上一样浏览酷安社区…

张开发

前端开发 2026/4/21 11:35:19

别再傻傻编译了！5分钟搞定Ubuntu/Linux下CMake版本升级（附ARM平台避坑指南）

高效升级CMake：Ubuntu/Linux与ARM平台实战指南当你在Ubuntu或Linux系统上编译某些开源项目时，遇到"CMake 3.19.2 or higher is required"这样的错误提示，确实令人沮丧。特别是对于嵌入式开发者来说，在ARM架构的设备上&…

张开发

前端开发 2026/4/21 11:34:42

革命性PCB缺陷检测数据集：DeepPCB如何重塑电子制造业质量标准

革命性PCB缺陷检测数据集：DeepPCB如何重塑电子制造业质量标准【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 在电子制造业的精密世界中，PCB（印刷电路板）的微小缺陷…

张开发

前端开发 2026/4/21 11:34:18

K230摄像头API避坑指南：从sensor.reset到snapshot，这些参数配置错了图像就出不来

K230摄像头API深度调优指南：从参数对齐到内存管理的实战避坑策略当你在K230开发板上调试摄像头时，是否遇到过这样的场景：代码逻辑看似正确，但输出的图像却是黑屏、花屏或者帧率低得令人崩溃？这往往不是代码本身的问题…

张开发

前端开发 2026/4/21 11:32:48

Phi-4-reasoning-vision-15B精彩案例：含手写批注的PDF截图全要素结构化解析

Phi-4-reasoning-vision-15B精彩案例：含手写批注的PDF截图全要素结构化解析你是不是也遇到过这种情况？拿到一份同事发来的PDF报告截图，上面密密麻麻全是文字，还夹杂着各种手写的圈画、箭头和批注。想快速整理出里面的关键信息&a…

张开发

前端开发 2026/4/21 11:32:48

从CMake到Autotools：一份给嵌入式开发者的ARM交叉编译‘生存手册’（附真实项目踩坑记录）

从CMake到Autotools：嵌入式开发者的ARM交叉编译实战指南第一次接手嵌入式Linux项目时，面对代码仓库里混杂的CMakeLists.txt和configure.ac文件，我盯着屏幕发了半小时呆。作为一个刚从单片机开发转来的工程师，那些在x86平台上轻车…

张开发

前端开发 2026/4/21 11:32:24

别再死记硬背公式了！用MATLAB仿真带你直观理解OFDM的‘正交’到底好在哪

用MATLAB仿真解锁OFDM正交性的实战密码：从波形到误码率的全维度观察在通信工程实验室里，每当提到OFDM技术，总能看到学生们面对公式时皱起的眉头。"正交频分复用"这个术语背后，是密密麻麻的傅里叶变换公式和让人眼花缭乱…

张开发

$浙江大学毕业论文LaTeX模板：三步搞定专业论文排版的终极指南$

前端开发 2026/4/21 11:31:18

浙江大学毕业论文LaTeX模板：三步搞定专业论文排版的终极指南

浙江大学毕业论文LaTeX模板：三步搞定专业论文排版的终极指南【免费下载链接】zjuthesis Zhejiang University Graduation Thesis LaTeX Template 项目地址: https://gitcode.com/gh_mirrors/zj/zjuthesis 还在为毕业论文格式调整而烦恼吗？浙江大…

张开发

前端开发 2026/4/21 11:30:11

ISE ChipScope实战：从配置到波形分析的完整调试指南

1. ChipScope核心原理与调试价值第一次接触FPGA调试时，我拿着示波器探头在电路板上到处戳的场景至今记忆犹新。直到发现ISE套件中的ChipScope工具，才真正体会到"片上逻辑分析仪"的威力。与传统逻辑分析仪相比，ChipScope Pro最大的…

张开发

前端开发 2026/4/21 11:29:17

精通Total War模组开发：RPFM进阶实战指南与效率优化

精通Total War模组开发：RPFM进阶实战指南与效率优化【免费下载链接】rpfm Rusted PackFile Manager (RPFM) is a... reimplementation in Rust and Qt5 of PackFile Manager (PFM), one of the best modding tools for Total War Games. 项目地址: https://gitco…

张开发

前端开发 2026/4/21 11:29:05

别只盯着代码！从MySQL的wait_timeout到SQLAlchemy连接池，一次搞懂数据库‘空闲断连’的来龙去脉

从MySQL超时机制到ORM连接池：深入解析数据库空闲断连的底层逻辑当你的应用突然抛出OperationalError: (4031, The client was disconnected by the server)时，这远不止是一个简单的配置问题。背后涉及数据库服务器、网络协议、驱动程序和ORM框架四个层面…

张开发

前端开发 2026/4/21 11:28:41

用动态规划思路，一步一步实现响应式数据（从本质到落地）

用动态规划思路，一步一步实现响应式数据（从本质到落地） 文章目录用动态规划思路，一步一步实现响应式数据（从本质到落地）一、第一步：用动态规划逆向思维，拆解响应式的“最终目标”1. …

张开发

Deformable-DETR实战：从零到一，用PyTorch完成自定义数据集的目标检测训练

最新文章

从金属疲劳到复合材料脱粘：循环内聚力模型（CZM）的进阶应用与ABAQUS实现难点解析

从零到一：C语言PAT基础算法通关实战

VisualCppRedist AIO：一站式解决Windows应用程序运行库依赖难题

VoiceFixer终极指南：3分钟掌握免费AI语音修复工具

RPFM技术架构深度解析：Total War模组开发的数据驱动革命

【技术解析】Concept Bottleneck Models：以概念为瓶颈的可解释AI新范式

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

如何在Windows电脑上畅游酷安社区：Coolapk-UWP桌面客户端完全指南

别再傻傻编译了！5分钟搞定Ubuntu/Linux下CMake版本升级（附ARM平台避坑指南）

革命性PCB缺陷检测数据集：DeepPCB如何重塑电子制造业质量标准

K230摄像头API避坑指南：从sensor.reset到snapshot，这些参数配置错了图像就出不来

Phi-4-reasoning-vision-15B精彩案例：含手写批注的PDF截图全要素结构化解析

从CMake到Autotools：一份给嵌入式开发者的ARM交叉编译‘生存手册’（附真实项目踩坑记录）

别再死记硬背公式了！用MATLAB仿真带你直观理解OFDM的‘正交’到底好在哪

浙江大学毕业论文LaTeX模板：三步搞定专业论文排版的终极指南

ISE ChipScope实战：从配置到波形分析的完整调试指南

精通Total War模组开发：RPFM进阶实战指南与效率优化

别只盯着代码！从MySQL的wait_timeout到SQLAlchemy连接池，一次搞懂数据库‘空闲断连’的来龙去脉

用动态规划思路，一步一步实现响应式数据（从本质到落地）