SIP – Sistema Integrado de Processos
Menu: TCCs de Engenharia de Controle e Automação

Título: SELEÇÃO INTELIGENTE DE DADOS PARA TREINAMENTO DE MÁQUINA UTILIZANDO CURVAS PRINCIPAIS

Título alternativo: SMART DATA SELECTION FOR MACHINE TRAINING USING PRINCIPAL CURVES

Autoria de: Fernando Elias de Melo Borges

Orientação de: Danton Diego Ferreira

Presidente da banca: Danton Diego Ferreira

Primeiro membro da banca: Wilian Soares Lacerda

Palavras-chaves: Curvas Principais, Seleção de Dados, Big-Data, Aprendizagem de Máquina, Redes Neurais.

Data da defesa: 24/08/2020

Semestre letivo da defesa: 2020-1

Data da versão final: 10/09/2020

Data da publicação: 10/09/2020

Referência: Borges, F. E. d. M. SELEÇÃO INTELIGENTE DE DADOS PARA TREINAMENTO DE MÁQUINA UTILIZANDO CURVAS PRINCIPAIS. 2020. 61 p. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação Bacharelado)-Universidade Federal de Lavras, Lavras, 2020.

Resumo: Nos tempos atuais, sistemas inteligentes aplicados a ambientes envolvendo grande volume de dados em altas taxas de aquisição, vêm tendo sua importância e uso aumentados. Tais sistemas geram eventos com elevada dimensionalidade e complexidade e necessitam de processamento eficaz com elevados requisitos de tempo de processamento e consumo de memória. A fim de processar grandes volumes de dados, ferramentas de aprendizagem de máquina de alta complexidade vem sendo aplicadas nos ambientes de Big-Data. De maneira a reduzir a carga dos algoritmos de aprendizagem, mantendo os parâmetros de desempenho com redução no tempo de desenvolvimento do modelo, torna-se viável a proposta de métodos de redução no volume dados a serem utilizados no treinamento dos modelos. Neste trabalho é proposto um método de seleção inteligente de dados utilizando Curvas Principais que explora correlações não lineares nos dados por meio destas. Para a execução desta tarefa, é realizado o mapeamento das distâncias dos dados à sua respectiva Curva Principal e são propostas abordagens de seleção. Para o teste do método, foi utilizada uma base de dados real do sistema de filtragem online de elétrons do experimento ATLAS do CERN (Centro Europeu para a Pesquisa Nuclear). Realizada a seleção de dados, os conjuntos de dados reduzidos foram testados em uma Rede Neural objetivando simular o processo real do sistema. Resultados de testes preliminares mostraram um potencial do método, gerando resultados similares de desempenho com redução significativa de tempo de processamento em estudos comparativos entre todo o conjunto de dados e os conjuntos de dados reduzidos.

Abstract: Nowadays, smart systems applied to environments involving a large volume of data at high acquisition rates have increased in importance and use. Such systems generate events with high dimensionality and complexity and require efficient processing with high requirements for processing time and memory consumption. To processing big data, machine learning tools with high complexity have been applied. In order to reduce the processing cost of the learning algorithms, maintaining the performance parameters with reduction in the development time of the model, it is feasible to propose methods to reduce the volume of data to be used for training. In this work, a method of smart data selection using Principal Curves is proposed, which exploits non-linear correlations in the data through them. To do this, the mapping of the data distances to their respective Principal Curve is realized and selection approaches are proposed. For the test of the method, a real dataset from the online electron trigger system of the ATLAS experiment at CERN (European Center for Nuclear Research) was used. After data selection, the reduced datasets were tested in a Neural Network in order to simulate the real process of the system. The results showed the potential of the method, generating similar performance results with significant reduction of processing time in comparison with studies including the complete data set.

URI: sip.prg.ufla.br/publico/trabalhos_conclusao_curso/acessar_tcc_por_curso/
engenharia_de_controle_e_automacao/20201201420606

URI alternaviva: repositorio.ufla.br/handle/1/45038

Curso: G022 - ENGENHARIA DE CONTROLE E AUTOMAÇÃO (BACHARELADO)

Nome da editora: Universidade Federal de Lavras

Sigla da editora: UFLA

País da editora: Brasil

Gênero textual: Trabalho de Conclusão de Curso

Nome da língua do conteúdo: Português

Código da língua do conteúdo: por

Licença de acesso: Acesso aberto

Nome da licença: Licença do Repositório Institucional da Universidade Federal de Lavras

URI da licença: repositorio.ufla.br

Termos da licença: Acesso aos termos da licença em repositorio.ufla.br

Detentores dos direitos autorais: Fernando Elias de Melo Borges e Universidade Federal de Lavras

Baixar arquivo