Summary
该文提出一种超声图像甲状腺结节检测新模型,以Swin变压器为骨干进行远程上下文建模。实验证明,它在灵敏度和准确性方面表现良好。
Abstract
近年来,甲状腺癌的发病率一直在上升。甲状腺结节检测对于甲状腺癌的检测和治疗至关重要。卷积神经网络(CNN)在甲状腺超声图像分析任务中取得了良好的效果。然而,由于卷积层的有效感受野有限,CNN无法捕获长程上下文依赖性,这对于识别超声图像中的甲状腺结节非常重要。变压器网络在捕获远程上下文信息方面非常有效。受此启发,我们提出了一种新的甲状腺结节检测方法,该方法结合了Swin变压器骨架和更快的R-CNN。具体来说,超声图像首先被投影到一维嵌入序列中,然后将其馈送到分层的Swin变压器中。
Swin变压器主干网通过利用偏移窗口计算自我注意来提取五种不同尺度的特征。随后,使用特征金字塔网络(FPN)对不同尺度的特征进行融合。最后,使用检测头来预测边界框和相应的置信度分数。从2,680名患者收集的数据用于进行实验,结果表明该方法获得了44.8%的最佳mAP评分,优于基于CNN的基线。此外,我们获得了比竞争对手更好的灵敏度(90.5%)。这表明该模型中的上下文建模对甲状腺结节检测有效。
Introduction
自1970年以来,甲状腺癌的发病率迅速增加,特别是在中年妇女中1。甲状腺结节可能预示甲状腺癌的出现,大多数甲状腺结节无症状2.早期发现甲状腺结节对治愈甲状腺癌很有帮助。因此,根据现行实践指南,所有体格检查疑似结节性甲状腺肿或影像学检查结果异常的患者均应进一步检查3,4。
甲状腺超声(US)是用于检测和表征甲状腺病变的常用方法5,6。美国是一种方便、廉价且无辐射的技术。但是,美国的应用很容易受到运营商7,8的影响。甲状腺结节的形状、大小、回声度和质地等特征在美国图像上很容易区分。尽管某些 US 特征(钙化、回声和边界不规则)通常被认为是识别甲状腺结节的标准,但观察者间变异性的存在是不可避免的8,9。不同经验水平的放射科医生的诊断结果是不同的。没有经验的放射科医生比有经验的放射科医生更容易误诊。US 的某些特征(如反射、阴影和回波)会降低图像质量。由于美国成像的性质,图像质量的下降使得即使是经验丰富的医生也很难准确定位结节。
甲状腺结节的计算机辅助诊断(CAD)近年来发展迅速,可以有效减少不同医生造成的错误,帮助放射科医生快速准确地诊断结节10,11。已经提出了各种基于CNN的CAD系统用于甲状腺US结节分析,包括分割12,13,检测14,15和分类16,17。CNN是一个多层的监督学习模型18,CNN的核心模块是卷积层和池化层。卷积层用于特征提取,池化层用于缩减采样。阴影卷积层可以提取纹理、边缘和轮廓等主要特征,而深度卷积层可以学习高级语义特征。
CNN在计算机视觉19,20,21方面取得了巨大的成功。然而,由于卷积层的有效感受野有限,CNN无法捕获长期上下文依赖关系。过去,用于图像分类的骨干架构大多使用CNN。随着视觉变压器(ViT)22,23的出现,这一趋势发生了变化,现在许多最先进的型号都使用变压器作为骨干。基于非重叠的图像块,ViT使用标准变压器编码器25对空间关系进行全局建模。Swin Transformer24 进一步引入了换档窗口来学习功能。移位窗口不仅带来了更高的效率,而且大大减少了序列的长度,因为自我注意力是在窗口中计算的。同时,两个相邻窗口之间的交互可以通过移位(移动)的操作进行。Swin变压器在计算机视觉中的成功应用导致了对基于变压器的超声图像分析架构的研究26。
最近,Li等人提出了一种深度学习方法28 ,用于甲状腺状癌检测,其灵感来自Faster R-CNN27。更快的 R-CNN 是一种经典的基于 CNN 的对象检测架构。最初的Faster R-CNN有四个模块 - CNN骨干网,区域建议网络(RPN),ROI池层和检测头。CNN 主干网使用一组基本的 conv+bn+relu+pooling 层从输入图像中提取特征图。然后,特征图被馈送到 RPN 和 ROI 池层。RPN 网络的作用是生成区域提案。此模块使用 softmax 来确定定位点是否为正,并通过边界框回归生成准确的定位点。ROI 池化层通过收集输入的特征图和提案来提取提案特征图,并将提案特征图馈送到后续的检测头中。检测头利用建议特征图对物体进行分类,通过边界框回归获得检测箱的准确位置。
本文提出了一种新的甲状腺结节检测网络Swin Faster R-CNN,该网络是通过用Swin变压器替换Faster R-CNN中的CNN骨干而形成的,从而更好地从超声图像中提取结节检测的特征。此外,利用特征金字塔网络(FPN)29 ,通过聚合不同尺度的特征,提高模型对不同尺寸结核的检测性能。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
这项回顾性研究得到了中国四川大学华西医院机构审查委员会的批准,并免除了获得知情同意的要求。
1. 环境设置
- 图形处理单元 (GPU) 软件
- 要实现深度学习应用程序,请先配置 GPU 相关环境。从 GPU 的网站下载并安装 GPU 适当的软件和驱动程序。
注意:有关本研究中使用的材料,请参阅 材料表 。
- 要实现深度学习应用程序,请先配置 GPU 相关环境。从 GPU 的网站下载并安装 GPU 适当的软件和驱动程序。
- Python3.8 安装
- 在计算机上打开终端。键入以下内容:
命令行: sudo apt-get install python3.8 python-dev python-virtualenv
- 在计算机上打开终端。键入以下内容:
- PyTorch1.7 安装
- 按照官方网站上的步骤下载并安装Miniconda。
- 创建 conda 环境并激活它。
命令行: conda create --name SwinFasterRCNN python=3.8 -y
命令行:conda activate SwinFasterRCNN - 安装 Pytorch。
命令行:conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio ==0.7.2
- MMDetection安装
- 从官方 Github 存储库克隆。
命令行:git 克隆 https://github.com/open-mmlab/mmdetection.git - 安装 MMDetection。
命令行:光盘毫米检测
命令行: pip install -v -e .
- 从官方 Github 存储库克隆。
2. 数据准备
- 数据采集
- 收集了超声图像(此处为来自甲等三级医院的3,000例)。确保每个病例都有诊断记录、治疗计划、美国报告和相应的美国图像。
- 将所有美国图像放在名为“images”的文件夹中。
注意:本研究中使用的数据包括来自3,000个病例的3,853张美国图像。
- 数据清理
- 手动检查数据集中的非甲状腺区域图像,例如淋巴图像。
- 手动检查数据集中是否有包含彩色多普勒流的图像。
- 删除在前两个步骤中选择的图像。
注意:数据清理后,从 2,680 个案例中留下了 3,000 张图像。
- 数据注释
- 让上级医生在美国图像中定位结节区域并勾勒出结节边界。
注意:注释软件和过程可以在 补充文件 1 中找到。 - 让另一位高级医生审查并修改注释结果。
- 将带批注的数据放在名为“批注”的单独文件夹中。
- 让上级医生在美国图像中定位结节区域并勾勒出结节边界。
- 数据拆分
- 运行 python 脚本,在步骤 2.1.2 中设置图像的路径,在步骤 2.3.3 中设置注释的路径。以 8:2 的比例将所有图像和相应的标记文件随机划分为训练集和验证集。将训练集数据保存在“训练”文件夹中,将验证集数据保存在“Val”文件夹中。
注意: 补充文件 2 中提供了 Python 脚本。
- 运行 python 脚本,在步骤 2.1.2 中设置图像的路径,在步骤 2.3.3 中设置注释的路径。以 8:2 的比例将所有图像和相应的标记文件随机划分为训练集和验证集。将训练集数据保存在“训练”文件夹中,将验证集数据保存在“Val”文件夹中。
- 转换为 CoCo 数据集格式
注意:要使用 MMDetection,请将数据处理为 CoCo 数据集格式,其中包括保存注释信息的 json 文件和包含美国图像的图像文件夹。- 运行python脚本,输入注释文件夹路径(步骤2.3.3)提取医生勾勒出的结节区域并将其转换为掩码。将所有掩码保存在“掩码”文件夹中。
注意:Python 脚本在 补充文件 3 中提供。 - 运行python脚本,在步骤2.5.1中设置掩码文件夹的路径,将数据变成CoCo格式的数据集,并生成包含美国图片的json文件。
注意: 补充文件 4 中提供了 Python 脚本。
- 运行python脚本,输入注释文件夹路径(步骤2.3.3)提取医生勾勒出的结节区域并将其转换为掩码。将所有掩码保存在“掩码”文件夹中。
3. Swin 更快的 RCNN 配置
- 下载 Swin Transformer 模型文件 (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py),对其进行修改,并将其放入“mmdetection/mmdet/models/backbones/”文件夹中。在 vim 文本编辑器中打开“swin_transformer.py”文件,并将其修改为补充文件 5 中提供的 Swin 转换器模型文件。
命令行:vim swin_transformer.py - 复制更快的 R-CNN 配置文件,将主干更改为 Swin 变压器,并设置 FPN 参数。
命令行:cd 毫米检测/配置/faster_rcnn
命令行:cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
注意:Swin Faster R-CNN 配置文件 (swin_faster_rcnn_swin.py) 在 补充文件 6 中提供。Swin Faster R-CNN网络结构如图 1所示。 - 在配置文件中将数据集路径设置为 CoCo 格式的数据集路径(步骤 2.5.2)。在 vim 文本编辑器中打开 “coco_detection.py” 文件,修改以下行:
data_root = “数据集路径(步骤 2.5.2)”
命令行:vim mmdetection/configs/_base_/datasets/coco_detection.py
4. 训练 Swin 更快的 R-CNN
- 编辑 mmdetection/configs/_base_/schedules/schedule_1x.py,并设置默认的训练相关参数,包括学习率、优化器和纪元。在 vim 文本编辑器中打开 “schedule_1x.py” 文件,修改以下行:
优化器 = dict(type=“AdamW”, lr=0.001, 动量=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
命令行:vim mmdetection/configs/_base_/schedules/schedule_1x.py
注意:在本文中的该协议中,学习率设置为0.001,使用AdamW优化器,最大训练周期设置为48,批量大小设置为16。 - 通过键入以下命令开始训练。等待网络开始训练 48 个 epoch,并在输出文件夹中生成 Swin Faster R-CNN 网络的结果训练权重。在验证集上以最高精度保存模型权重。
命令行:光盘毫米检测
命令行:python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
注意:该模型是在“NVIDIA GeForce RTX3090 24G”GPU上训练的。使用的中央处理器是“AMD Epyc 7742 64核处理器×128”,操作系统是Ubuntu 18.06。总体训练时间为~2小时。
5. 对新图像进行甲状腺结节检测
- 训练后,在新图像中选择在甲状腺结节检测验证集上性能最佳的模型。
- 首先,将图像大小调整为 512 像素 x 512 像素,并将其规范化。这些操作在运行测试脚本时自动执行。
命令行:python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output - 等待脚本自动将预训练的模型参数加载到 Swin Faster R-CNN,并将预处理的图像馈送到 Swin Faster R-CNN 中进行推理。等待Swin Faster R-CNN输出每个图像的预测框。
- 最后,允许脚本自动对每个图像执行 NMS 后处理,以删除重复的检测框。
注意:检测结果将输出到指定的文件夹,该文件夹包含带有检测框和边界框坐标的图像。
- 首先,将图像大小调整为 512 像素 x 512 像素,并将其规范化。这些操作在运行测试脚本时自动执行。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
2008年9月至2018年2月在中国两家医院采集的美国甲状腺图像。将美国图像纳入本研究的合格标准是活检和手术治疗前的常规美国检查、活检或术后病理学诊断以及年龄≥18岁。排除标准是没有甲状腺组织的图像。
3,000张超声图像包括1,384个恶性结节和1,616个良性结节。大多数(90%)恶性结节为状癌,66%的良性结节为结节性甲状腺肿。在这里,25%的结节小于5毫米,38%在5毫米至10毫米之间,37%大于10毫米。
所有美国图像均使用飞利浦IU22和DC-80收集,并使用其默认的甲状腺检查模式。两台仪器都配备了5-13 MHz线性探头。为了更好地暴露甲状腺下缘,所有患者都以仰卧位检查,背部伸展。根据美国放射学会认证标准,在纵向和横向平面上扫描甲状腺叶和峡部。所有检查均由两名具有≥10年临床经验的高级甲状腺放射科医生进行。甲状腺诊断基于细针穿刺活检或甲状腺手术的组织病理学发现。
在现实生活中,由于美国图像被噪声破坏,因此对美国图像进行适当的预处理非常重要,例如基于小波变换30的图像去噪,压缩感知31和直方图均衡32。在这项工作中,我们使用直方图均衡来预处理美国图像,提高图像质量,并减轻噪声引起的图像质量下降。
在下文中,真阳性、假阳性、真阴性和假阴性分别称为 TP、FP、TN 和 FN。我们使用mAP、灵敏度和特异性来评估模型的结节检测性能。mAP 是对象检测中的常用指标。使用公式(1)和公式(2)计算敏感性和特异性:
(1)
(二)
在本文中,TP定义为正确检测到的结节的数量,这些结节在预测框和真实面值框之间具有>0.3的交集(IoU),置信度得分为>0.6。IoU 是并集的交集,使用公式 (3) 计算:
(三)
我们比较了几种经典的对象检测网络,包括SSD 33,YOLO-v334,基于CNN骨干网的Faster R-CNN27,RetinaNet35和DETR36。YOLO-v3和SSD是单级检测网络,DETR是基于变压器的对象检测网络,Faster R-CNN和RetinaNet是两级检测网络。表1显示,Swin Faster R-CNN的性能优于其他方法,达到0.448 mAP,比CNN骨干网的Faster R-CNN高0.028,比YOLO-v3高0.037。通过使用Swin Faster R-CNN,可以自动检测90.5%的甲状腺结节,比基于CNN骨干的Faster R-CNN(87.1%)高~3%。如图2所示,使用Swin变压器作为主干使边界定位更加精确。
图 1:Swin Faster R-CNN 网络架构示意图。 请点击此处查看此图的大图。
图 2:检测结果。 同一图像的检测结果在给定行中。这些列分别是Swin Faster R-CNN,Faster R-CNN,YOLO-v3,SSD,RetinaNet和DETR的检测结果,从左到右。这些区域的基本实况用绿色矩形框标记。检测结果由红色矩形框。 请点击此处查看此图的大图。
方法 | 骨干 | 地图 | 敏感性 | 特 异性 |
YOLO-v3 | 暗网 | 0.411 | 0.869 | 0.877 |
固态硬盘 | VGG16 | 0.425 | 0.841 | 0.849 |
视网膜网 | 雷斯网50 | 0.382 | 0.845 | 0.841 |
更快的 R-CNN | 雷斯网50 | 0.42 | 0.871 | 0.864 |
DETR | 雷斯网50 | 0.416 | 0.882 | 0.86 |
Swin Faster R-CNN 无需 FPN | 斯威变压器 | 0.431 | 0.897 | 0.905 |
Swin Faster R-CNN with FPN | 0.448 | 0.905 | 0.909 |
表 1:与最先进的物体检测方法的性能比较。
补充文件1:数据注释和所用软件的操作说明。请点击此处下载此文件。
补充文件 2:用于将数据集划分为训练集和验证集的 Python 脚本,如步骤 2.4.1 中所述。请点击此处下载此文件。
补充文件 3:用于将注释文件转换为掩码的 Python 脚本,如步骤 2.5.1 中所述。请点击此处下载此文件。
补充文件 4:Python 脚本用于将数据转换为 CoCo 格式的数据集,如步骤 2.5.2 中所述。请点击此处下载此文件。
补充文件 5:步骤 3.1 中提到的修改后的 Swin 转换器模型文件。请点击此处下载此文件。
补充文件 6:步骤 3.2 中提到的 Swin Faster R-CNN 配置文件。请点击此处下载此文件。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
本文详细介绍了如何进行环境设置、数据准备、模型配置和网络训练。在环境设置阶段,需要注意确保依赖库兼容和匹配。数据处理是非常重要的一步;必须花费时间和精力来确保注释的准确性。训练模型时,可能会遇到“ModuleNotFoundError”。在这种情况下,有必要使用“pip install”命令来安装缺少的库。如果验证集的损失没有减少或振荡很大,则应检查注释文件并尝试调整学习率和批量大小以使损失收敛。
甲状腺结节检测对甲状腺癌的治疗非常重要。CAD系统可以辅助医生检测结节,避免主观因素造成的诊断结果差异,减少漏检结节的情况。与现有的基于CNN的CAD系统相比,该文提出的网络引入Swin变压器提取超声图像特征。通过捕获远距离依赖性,Swin Faster R-CNN可以更有效地从超声图像中提取结节特征。实验结果表明,与基于CNN骨干的Faster R-CNN相比,Swin Faster R-CNN将结节检测的灵敏度提高了~3%。该技术的应用可以大大减轻医生的负担,因为它可以在早期超声检查中发现甲状腺结节,并指导医生进一步治疗。但是,由于 Swin Transformer 的参数数量众多,Swin Faster R-CNN 的推理时间为每张图像 ~100 毫秒(在 NVIDIA TITAN 24G GPU 和 AMD Epyc 7742 CPU 上测试)。使用 Swin Faster R-CNN 满足实时诊断的要求可能具有挑战性。今后,我们将继续收集病例,验证该方法的有效性,并对动态超声图像分析进行进一步研究。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者声明不存在利益冲突。
Acknowledgments
本研究得到了国家自然科学基金(批准号:32101188)和四川省科技厅科技厅重点项目(批准号:2021YFS0102)的支持。
Materials
Name | Company | Catalog Number | Comments |
GPU RTX3090 | Nvidia | 1 | 24G GPU |
mmdetection2.11.0 | SenseTime | 4 | https://github.com/open-mmlab/mmdetection.git |
python3.8 | — | 2 | https://www.python.org |
pytorch1.7.1 | 3 | https://pytorch.org |
References
- Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
- Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
- Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
- Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
- Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
- Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
- Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
- Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
- Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
- Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
- Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
- Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
- Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
- Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
- Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
- Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
- Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
- Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
- He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
- Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
- Szegedy, C., et al.
Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015). - Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
- Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
- Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
- Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
- Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
- Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
- Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
- Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
- Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
- Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
- Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
- Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
- Redmon, J., Farhadi, A.
Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018). - Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
- Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).