Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

表格标注后生成的html有问题 #128

Open
linqi1321 opened this issue Dec 22, 2024 · 1 comment
Open

表格标注后生成的html有问题 #128

linqi1321 opened this issue Dec 22, 2024 · 1 comment

Comments

@linqi1321
Copy link

表格标注之后生成的gt.txt中的html格式不正确,检查标注和excel都没有问题,就是最后的html格式不正确,重新点表格识别,重新标注后结果正确。标注500张有50张不正确的

@GreatV
Copy link
Collaborator

GreatV commented Dec 22, 2024

根据您的描述,表格标注后生成的 gt.txt 中的 HTML 格式在部分情况下不正确,导致一些标注的表格数据在训练验证阶段出现问题。问题的具体表现为:标注 500 张表格,有 50 张生成的 HTML 格式错误,重新标注后问题能够解决。这种情况可能与以下几个因素有关:

可能的原因:

  1. 标注工具生成逻辑的局限性
    根据 Issue #116,PPOCRLabel 的表格标注工具在合并单元格时是基于自动生成的 Excel 文件进行操作。如果标注过程中原始表格顺序或逻辑有误,而工具依赖错误的逻辑去生成 HTML,可能导致生成的 gt.txt 文件中 HTML 不符合预期。

  2. 标注顺序问题
    Issue #103 提到,PPOCRLabel 在处理标注时,如果矩形标识数量较多,可能需要手动调整顺序。目前工具无法自动按照从上到下、从左到右的顺序排列,这可能导致生成的 HTML 出现顺序混乱的问题。

  3. 标注数据与训练格式不匹配
    Issue #72 提到了导出的 gt.txt 文件与训练需要的数据格式(如 PubTabNet 的 JSONL 格式)存在不一致的问题。如果生成的 gt.txt 格式中 cellstokens 信息不匹配,可能导致训练验证失败。例如,错误提示中提到:

    The number of cells needs to be consistent with the number of tokens but the number of cells is {boxes_num}, and the number of tokens is {tokens_num}.
    

    这可能是因为标注过程中某些单元格或 token 信息丢失或多余,导致生成的 HTML 不符合训练验证的要求。

  4. 工具的稳定性问题
    根据 Issue #118,在验证数据集的过程中,部分 gt.txt 文件的生成格式问题可能与工具本身存在的稳定性或兼容性问题有关。


解决方法:

以下是一些可能的解决方法,供您参考:

  1. 标注顺序优化

    • 确保标注时遵循从上到下、从左到右的顺序,这有助于减少 HTML 生成时的逻辑错误。
    • 如果标注量较大,可以尝试优化标注工具的代码逻辑,或者手动调整标注顺序。对于顺序调整的痛点,Issue #103 中建议开发自动排序功能,但目前尚未实现。
  2. 验证数据集一致性

    • 使用工具自带的验证功能,例如您运行的命令:
      python main.py -c paddlex/configs/table_recognition/SLANet_plus.yaml \
          -o Global.mode=check_dataset \
          -o Global.dataset_dir=/home/aistudio/PaddleX/train_data
      该命令会检查数据集的一致性,确保 cellstokens 的数量匹配。对于不一致的数据,可以通过手动校正或重新标注解决。
  3. 检查工具版本与配置

    • 确保使用的是 PPOCRLabel 最新版本。部分问题可能已在后续更新中修复。
    • 检查配置文件(如 SLANet_plus.yaml)是否正确,确保与数据格式匹配。
  4. 手动校正错误文件

    • 对于生成 HTML 格式错误的文件,可以手动检查并修正。例如,核对 cellstokens 的数量是否一致,确保没有空单元格或多余的单元格。
  5. 参考社区讨论或提问

    • 如果问题仍然无法解决,可以参考或参与相关讨论,例如 Issue #118,提供详细的错误日志和示例文件,向社区寻求帮助。

总结

您的问题可能与标注工具的逻辑错误、标注顺序的混乱或数据格式的兼容性有关。建议优先优化标注顺序,使用工具的验证功能检查数据集一致性,并针对错误的文件进行手动修正。如果问题反复出现,可以尝试更新工具版本或参考社区建议。

如需进一步协助,请提供更多的错误示例或数据文件,以便更精准地定位问题。


Response generated by feifei-bot | chatgpt-4o-latest

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants