本文主要从代码角度记录使用transformer实现图像分类的流程. 代码vit-pytorch/ 总体结构 结合上图与代码展开: 前向传播过程代码
transformer 已经出来三年了,自己也没有深入了解,触及皮毛,最近想研究一下detr, 顺便写个 📒 记录一下对transformer的理解,个人主要从代码角度
最近对yolov5进行了较为深入的理解,顺便将yolov4给啃一啃,之前只粗略读过论文,这边文章主要从代码进行学习,代码参照 pytorch版
PP-YOLO 是百度在paddle-paddle框架下基于YOLOv3,结合各种trick得到的一个在性能与效率平衡的检测网络。与yolov4、effi
yolo-v5 非论文,仅工程实现。本文主要记录自己对yolo-v5代码的学习、理解,以及实际服务部署。 网络结构 yolo-v5 包含4种模型结构,分别是yolov5s、
PP-OCR 是百度基于paddlePaddle 框架开源的国产高质量的OCR系统,PP-OCR 论文主要对其中使用的技术作了介绍。本文对PP-OCR 作阅读
对外提供网络接口服务,当单机容量达到极限时,可以从业务拆分和分布式部署两个方面进行分析,来解决接口访问量大,并发量高,海量数据的问题。从单机
DBNet:Real-time Scene Text Detection with Differentiable Binarization,是一个基于分割的文本检测器,PPOCR中使用其作为检测器,取得了可观的效果
CSPNet出至论文:CSPNet: A New Backbone that can Enhance Learning Capability of CNN, 近来yolo-v4,yolo-v5都使用其作为主干网络的结构,其主要用于降低计算量的
之前谈过SE-net, 对于目标检测或检测用于特征通道的attention, 今天记录一下CBAM模块, 对分类或检测中用来获取通道、空间位置的a