TabPedia 表格理解大模型
AI开源项目 Excel
TabPedia 表格理解大模型

TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。

广告也精彩

TabPedia:全面视觉表格理解的新型大型视觉-语言模型
1. 项目简介
TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。

2. 主要功能
表格检测(TD):在文档图像中定位表格位置。
表格结构识别(TSR):解析表格中心图像中的表格结构。
表格查询(TQ):从整个图像中识别表格结构。
表格问题回答(TQA):基于表格内容回答问题。
3. 使用方法
TabPedia通过以下步骤使用:

输入文档图像,TabPedia利用双视觉编码器(ViT-L和Swin-B)提取全局和细粒度的局部信息。
通过投影层将视觉特征与大型语言模型(LLM)的输入维度对齐。
引入介导令牌(meditative tokens)到LLM中,实现概念协同机制,使不同视觉嵌入和任务指令中有用的信息能够灵活地协同工作。
利用LLM的全面能力,生成准确和合理的响应。
4. 适用场景
处理电子格式的文档,尤其是包含大量表格数据的科学文献、财务报告等。
自动化数据录入和校对,减少人工处理表格数据的时间和误差。
5. 适用人群
研究人员和开发者,他们可以利用TabPedia进行视觉表格理解的研究和应用开发。
需要处理大量文档和表格数据的专业人士,如数据分析师、财务专家等。
6. 优缺点介绍
优点:
集成多种VTU任务于统一框架,提高效率。
利用大型语言模型的能力,提升表格理解的准确性。
通过概念协同机制,有效整合多源视觉嵌入和任务指令。
开源的ComTQA基准测试,提供新的评估工具。
缺点:
当前模型可能无法准确解析扭曲或变形的表格结构。
对于直接从原始文档图像中回答表格问题的能力还有待提高。
在表格单元识别方面存在一定的局限性。
7. 分类标签推荐
视觉表格理解、人工智能、自然语言处理、机器学习、数据挖掘、信息检索

论文地址:

https://arxiv.org/abs/2406.01326

ComTQA数据集:

https://huggingface.co/datasets/ByteDance/ComTQA

相关导航