SIP – Sistema Integrado de Processos
Menu: TCCs de Ciência da Computação

Título: UMA NOVA CODIFICAÇÃO POSICIONAL PARA RECONHECIMENTO DE TABELAS COM MODELOS TRANSFORMERS IMAGEM-PARA-SEQUÊNCIA

Autoria de: João Paulo Paiva Lima

Orientação de: Denilson Alves Pereira

Presidente da banca: Denilson Alves Pereira

Primeiro membro da banca: Marluce Rodrigues Pereira

Segundo membro da banca: Paula Christina Figueira Cardoso

Palavras-chaves: Extração de Dados, Extração de Tabelas, Processamento de Linguagem Natural, Aprendizado de Máquina, Recuperação de Informação

Data da defesa: 13/12/2023

Semestre letivo da defesa: 2023-2

Data da versão final: 20/12/2023

Data da publicação: 20/12/2023

Referência: Lima, J. P. P. UMA NOVA CODIFICAÇÃO POSICIONAL PARA RECONHECIMENTO DE TABELAS COM MODELOS TRANSFORMERS IMAGEM-PARA-SEQUÊNCIA. 2023. 26 p. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação Bacharelado)-Universidade Federal de Lavras, Lavras, 2023.

Resumo: Neste trabalho, é apresentada a utilização de um modelo imagem-para-sequência pré-treinado para Entendimento de Documentos Visuais na tarefa de Reconhecimento de Tabela. Também, visando obter o máximo da arquitetura Transformer, foi criada uma codificação intermediária que, em conjunto com embeddings posicionais de três dimensões, reduz o tamanho de sequência, que expande a capacidade de generalização do modelo e que pode ser convertida de e para HTML sem perda de dados. Com a nova codificação, conseguiu-se com que o acerto para estrutura de tabelas complexas após uma única época de treinamento passasse de 88,9 para 91,6 TEDS (Tree Edit Distance Score).

URI: sip.prg.ufla.br/publico/trabalhos_conclusao_curso/acessar_tcc_por_curso/
ciencia_da_computacao/20232201920242

URI alternaviva: sem URI do Repositório Institucional da UFLA até o momento.

Curso: G010 - CIÊNCIA DA COMPUTAÇÃO (BACHARELADO)

Nome da editora: Universidade Federal de Lavras

Sigla da editora: UFLA

País da editora: Brasil

Gênero textual: Trabalho de Conclusão de Curso

Nome da língua do conteúdo: Português

Código da língua do conteúdo: por

Licença de acesso: Acesso aberto

Nome da licença: Licença do Repositório Institucional da Universidade Federal de Lavras

URI da licença: repositorio.ufla.br

Termos da licença: Acesso aos termos da licença em repositorio.ufla.br

Detentores dos direitos autorais: João Paulo Paiva Lima e Universidade Federal de Lavras

Baixar arquivo