首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

一个小小空格问题引起的bug

编程知识
2024年08月29日 16:38

程序员会遇到一种情况,一个bug排查到最后是由一个很小的问题导致的。在昨天的日常搬砖中遇到一个问题,耽搁了我大半天的时间,最后查明原因让我很无语。

首先介绍一下背景,我是做算法模型训练,目前手上的工作是迭代一个算法,添加最新的数据集训练出一个精度更好的模型。

拿到标注好的xml的数据集,我首先做了一个格式的转换和数据集的拆分。使用的代码如下:

import os
import shutil
import xml.etree.ElementTree as ET

def list_dir(path: str) -> str:
    """列出目录下所有的文件"""
    for item in os.listdir(path):
        yield item


def parse_xml():

    base_path = "/home/lijinkui/Desktop/head_shoudler_20240824/头肩检测_V1.13_20240823083458_V1"
    label_dir = f"{base_path}/gt"
    count = 0

    test_obj = open(f"{base_path}/test/test_ssd.txt", "a")
    # train_obj = open(f"{base_path}/train/train.txt", "a")


    for item in list_dir(label_dir):
        xml_path = f"{label_dir}/{item}"
        # print(xml_path)
        # 从文件中解析XML,获取根元素

        root = ET.parse(xml_path).getroot()
        filename = root.find('filename').text.strip()
        width = int(root.find('size').find('width').text)
        height = int(root.find('size').find('height').text)
        # print(width, height)
        count += 1
        print(count)
        box_list = []
        for index, label in enumerate(root.iter('object')):
            category = label.find('name').text

            bbox = label.find('bndbox')
            x1 = bbox.find('xmin').text
            y1 = bbox.find('ymin').text
            x2 = bbox.find('xmax').text
            y2 = bbox.find('ymax').text

            box_list.extend([x1, y1, x2, y2, "1"])
        txt_string = " ".join(box_list) + "\n"
        if count <= 1200:
            # test_obj.write(txt_string)
            # shutil.move(f"{base_path}/images/{filename}", f"{base_path}/test/images/{filename}")
            test_obj.write(f"# 20240824/{filename} \n")
            test_obj.write(txt_string)
        # else:
        #     train_obj.write(txt_string)
        #     # shutil.copy(f"{base_path}/images/{filename}", f"{base_path}/train/images/{filename}")
    test_obj.close()
    # train_obj.close()


if __name__ == '__main__':
    parse_xml()

将前1200张保存为测试集

if count <= 1200:
    # test_obj.write(txt_string)
    # shutil.move(f"{base_path}/images/{filename}", f"{base_path}/test/images/{filename}")
    test_obj.write(f"# 20240824/{filename} \n")
    test_obj.write(txt_string)

保存好的格式是:

# meili/00320.jpg                                                                                                       
1796 550 1861 618 1
# meili/00330.jpg
1674 515 1749 585 1
# meili/00340.jpg
1527 473 1609 545 1
# meili/00350.jpg
1373 457 1455 531 1

然后我就配置好参数,愉快的启动了训练。结果还没跑多久,就报错了。经过排查,报错的代码如下:

def converter(args):
    im_file, image_name, labels = args
    try:
        # 这种方式直接获取图片的信息,加载速度快,但是会漏掉一些图片崩溃的情况
        # im = Image.open(im_file)
        # im.verify()  # PIL verify
        # img_w, img_h = exif_size(im)  # (width, height)

        # 采用opencv读取能够发现数据集中崩溃的图片,不至于影响训练
        im = cv2.imread(im_file)

        img_h, img_w = im.shape[:2]

        tmp = []
        for l, x1, y1, x2, y2 in labels:
            x, y, w, h = (x1 + x2) // 2, (y1 + y2) // 2, x2 - x1, y2 - y1
            x, y, w, h = x / img_w, y / img_h, w / img_w, h / img_h
            tmp.append([l, x, y, w, h])
        return image_name, tmp
    except Exception as e:
        print("-------------------------")
        print(im_file)
        print(f"{im_file} has broken..: {e}")
        return None, None

报错的信息是:20240824/0f4963ca91ff7c26d66c69b028415243b8a8a405.jpg has broken ... : NoneType has no shape。

我第一反应就是这个图片可能是损坏了,最简单的验证方法就是用opencv的库show一下。按照这个思路我打开了一个python终端,在终端中show图片。

>>> import cv2 as cv
>>> 
>>> image = cv.imread("/h3c_data/data/recognize_new_data/project_dataset/HeadShoulder/Test/Image/20240824/002bf647508fac15babe697c625c3004589b1607.jpg")
>>> 
>>> image.shape
(1080, 1920, 3)
>>>

这么检查下来,发现也没有问题啊,图片明明没有损坏。
然后我猜测难道是图片的权限或用户组问题导致不可读吗?于是检查了文件的权限

读写权限和用户组都没问题。奇怪了,到底是啥问题呢?

这时我就准备祭出断点大招,在图片读取之前打一个断点,断点一步步向下走,看看是哪里的问题。结果断点也打不上。因为这个函数是放在线程池中执行的,每次8个线程并发执行,遇到断点就直接退出了。

with Pool(NUM_THREADS) as pool:
    pbar = tqdm(pool.imap_unordered(converter, zip(image_pathes, image_names, labels)),
                desc=desc, total=len(image_pathes))
    for image_name, tmp in pbar:
        if image_name:
            dst_ret.write("%s" % image_name)
            for l, *info, in tmp:
                line = (l, *info)
                dst_ret.write((" %d" + " %g"*len(info)) % line)
            dst_ret.write("\n")

断点也不行,那我就没招了。其实我打端点就是想看看文件的路径是不是有问题,既然不能看每一个,那我干脆就看所有的。所以我打印了所有图片路径列表的变量,于是发现了问题。
原来每一个图像路径的后面都多了一个空格,我恍然大悟,怪不得用python终端show的时候没有发现,终端里面不打印空格标识。我从终端里复制图像路径,根本不知道路径的后面还有一个空格。

而且回过头来再看空格是哪来的,就是在数据集处理的时候随手多打了一个空格。

这个问题本来不难发现,但是由于第一空格在终端里面不展示导致没发现这个空格,第二想要断点调试时由于程序在线程池中断点也不生效,导致也不能断点调试变量,不能发现这个空格。
在一些巧合之前,让我折腾了大半天的时间,最后才解决这个问题。程序员的日常就是和各种bug斗智斗勇。

From:https://www.cnblogs.com/goldsunshine/p/18386910
本文地址: http://www.shuzixingkong.net/article/1557
0评论
提交 加载更多评论
其他文章 以Top-Down思维去解决问题——递归
目录递归的基础递归的底层实现(不是重点)递归的应用场景编程中 两种解决问题的思维自下而上(Bottom-Up)自上而下(Top-Down)自上而下的思考过程——求和案例台阶问题 案例易位构词生成 案例 递归和for循环(迭代法)很像,都是通过循环去完成一件事。 但采用Top-Down思维去设计的递归
以Top-Down思维去解决问题——递归 以Top-Down思维去解决问题——递归 以Top-Down思维去解决问题——递归
Linux | Ubuntu 16.04.4 通过docker安装单机FastDFS
Ubuntu 16.04.4 通过docker安装单机fastdfs 前言 很久没有写技术播客了,这是一件很不应该的事情,做完了事情应该有沉淀的。 我先说一点前情提要,公司的fastdfs突然就挂了,做过的操作就是日志文件太大了,所以把日志文件给删了,理论上这个动作应该不影响程序运行才对。 然后tr
Linux | Ubuntu 16.04.4 通过docker安装单机FastDFS
Mac上HomeBrew安装及换源教程
Mac上HomeBrew安装及换源教程 Mac的Mac OS系统来源于Unix系统,得益于此Mac系统的使用类似于Linux,因此Linux系统中的包管理概念也适用于Mac,而HomeBrew便是其中的一个优秀的包管理工具,而包管理工具是什么呢?软件包管理工具,拥有安装、卸载、更新、查看、搜索等功能
使用 nuxi analyze 命令分析 Nuxt 应用的生产包
title: 使用 nuxi analyze 命令分析 Nuxt 应用的生产包 date: 2024/8/29 updated: 2024/8/29 author: cmdragon excerpt: 使用 nuxi analyze 命令可以帮助你深入了解生产包的结构和大小,从而做出针对性的优化。通
使用 nuxi analyze 命令分析 Nuxt 应用的生产包 使用 nuxi analyze 命令分析 Nuxt 应用的生产包
Prometheus 告警恢复时,怎么获取恢复时的值?
Prometheus 告警事件中的 $value 表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的 $value 仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢? 不废话,先说原理。 原理 告警规则是配置在 prometheus.yaml 中的,由
Prometheus 告警恢复时,怎么获取恢复时的值? Prometheus 告警恢复时,怎么获取恢复时的值? Prometheus 告警恢复时,怎么获取恢复时的值?
JMeter手机app录制
在移动应用的性能测试中,如何准确、全面地捕捉用户操作并生成可复用的测试脚本,始终是测试工程师面临的一大挑战。而JMeter,作为一款功能强大的开源性能测试工具,不仅在Web测试中表现优异,在手机App的录制方面同样拥有独到的优势。 那么,如何利用JMeter来进行手机App的录制测试?它的录制功能在
JMeter手机app录制 JMeter手机app录制 JMeter手机app录制
.NET 摄像头采集
本文主要介绍摄像头(相机)如何采集数据,用于类似摄像头本地显示软件,以及流媒体数据传输场景如传屏、视讯会议等。 摄像头采集有多种方案,如AForge.NET、WPFMediaKit、OpenCvSharp、EmguCv、DirectShow.NET、MediaCaptre(UWP),网上一些文章以及
.NET 摄像头采集 .NET 摄像头采集
【Azure Policy】添加策略用于审计Azure 网络安全组(NSG)规则 -- 只能特定的IP地址允许3389/22端口访问
问题描述 对Azure上的虚拟机资源,需要进行安全管理。只有指定的IP地址才能够通过RDP/SSH远程到虚拟机上, 有如下几点考虑: 1) 使用Azure Policy服务,扫描订阅中全部的网络安全组(NSG: Network Security Group) 资源 2) 判断入站规则,判断是否是33
【Azure Policy】添加策略用于审计Azure 网络安全组(NSG)规则 -- 只能特定的IP地址允许3389/22端口访问 【Azure Policy】添加策略用于审计Azure 网络安全组(NSG)规则 -- 只能特定的IP地址允许3389/22端口访问