We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
表格标注之后生成的gt.txt中的html格式不正确,检查标注和excel都没有问题,就是最后的html格式不正确,重新点表格识别,重新标注后结果正确。标注500张有50张不正确的
The text was updated successfully, but these errors were encountered:
根据您的描述,表格标注后生成的 gt.txt 中的 HTML 格式在部分情况下不正确,导致一些标注的表格数据在训练验证阶段出现问题。问题的具体表现为:标注 500 张表格,有 50 张生成的 HTML 格式错误,重新标注后问题能够解决。这种情况可能与以下几个因素有关:
gt.txt
标注工具生成逻辑的局限性: 根据 Issue #116,PPOCRLabel 的表格标注工具在合并单元格时是基于自动生成的 Excel 文件进行操作。如果标注过程中原始表格顺序或逻辑有误,而工具依赖错误的逻辑去生成 HTML,可能导致生成的 gt.txt 文件中 HTML 不符合预期。
标注顺序问题: Issue #103 提到,PPOCRLabel 在处理标注时,如果矩形标识数量较多,可能需要手动调整顺序。目前工具无法自动按照从上到下、从左到右的顺序排列,这可能导致生成的 HTML 出现顺序混乱的问题。
标注数据与训练格式不匹配: Issue #72 提到了导出的 gt.txt 文件与训练需要的数据格式(如 PubTabNet 的 JSONL 格式)存在不一致的问题。如果生成的 gt.txt 格式中 cells 和 tokens 信息不匹配,可能导致训练验证失败。例如,错误提示中提到:
cells
tokens
The number of cells needs to be consistent with the number of tokens but the number of cells is {boxes_num}, and the number of tokens is {tokens_num}.
这可能是因为标注过程中某些单元格或 token 信息丢失或多余,导致生成的 HTML 不符合训练验证的要求。
工具的稳定性问题: 根据 Issue #118,在验证数据集的过程中,部分 gt.txt 文件的生成格式问题可能与工具本身存在的稳定性或兼容性问题有关。
以下是一些可能的解决方法,供您参考:
标注顺序优化:
验证数据集一致性:
python main.py -c paddlex/configs/table_recognition/SLANet_plus.yaml \ -o Global.mode=check_dataset \ -o Global.dataset_dir=/home/aistudio/PaddleX/train_data
检查工具版本与配置:
SLANet_plus.yaml
手动校正错误文件:
参考社区讨论或提问:
您的问题可能与标注工具的逻辑错误、标注顺序的混乱或数据格式的兼容性有关。建议优先优化标注顺序,使用工具的验证功能检查数据集一致性,并针对错误的文件进行手动修正。如果问题反复出现,可以尝试更新工具版本或参考社区建议。
如需进一步协助,请提供更多的错误示例或数据文件,以便更精准地定位问题。
Response generated by feifei-bot | chatgpt-4o-latest
Sorry, something went wrong.
No branches or pull requests
表格标注之后生成的gt.txt中的html格式不正确,检查标注和excel都没有问题,就是最后的html格式不正确,重新点表格识别,重新标注后结果正确。标注500张有50张不正确的
The text was updated successfully, but these errors were encountered: