INTEGRAÇÃO ENTRE A PLATAFORMA LATTES E O OPENALEX: MODELO DE ENRIQUECIMENTO DE DADOS PARA O BRCRIS

Authors

  • Fabio Lorensi do Canto Universidade Federal de Santa Catarina (UFSC) Autor
  • Thiago Magela Rodrigues Dias Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) Autor
  • Washington Luís Ribeiro de Carvalho Segundo Instituto Brasileiro de informação em Ciência e Tecnologia (IBICT) Autor
  • Raulivan Rodrigo da Silva Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) Autor
  • Marcel Garcia de Souza Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) Autor

Abstract

Descreve um modelo de integração de dados entre a Plataforma Lattes e o OpenAlex por meio do cruzamento de identificadores persistentes de autores e de publicações. Foram listados mais de 1 milhão e 166 mil registros DOI e 250 mil registros ORCID de todos currículos da plataforma Lattes. Foi utilizada uma infraestrutura computacional em nuvem na Amazon Web Services para processamento de mais de 250 milhões de registros de publicações extraídos do OpenAlex. As listas de DOI e ORCID do Lattes foram cruzadas com os dados das publicações do OpenAlex, identificando-se 98,8% dos registros DOI e 52,2% de registros ORCID. O conjunto final resultado dos dois cruzamentos foi deduplicado e carregado na plataforma BrCris, enriquecendo e diminuindo inconsistências. Constatou-se que o modelo de integração utilizado baseado em identificadores persistentes possibilita o enriquecimento de conjuntos de dados a serem disponibilizados em plataformas abertas, especialmente sistemas CRIS nacionais.

Author Biographies

  • Fabio Lorensi do Canto, Universidade Federal de Santa Catarina (UFSC)
    É Doutor (2022) e Mestre (2018) em Ciência da Informação pela Universidade Federal de Santa Catarina - UFSC. É Graduado em Biblioteconomia - Gestão da Informação pela Universidade do Estado de Santa Catarina - UDESC (2005) e Bacharel em Direito pela Faculdade CESUSC (2012). Atua como Bibliotecário/Documentalista na Biblioteca Central da Universidade Federal de Santa Catarina - UFSC e como professor substituto do Departamento de Biblioteconomia da Universidade do Estado de Santa Catarina (UDESC). É bolsista do Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT).
  • Thiago Magela Rodrigues Dias, Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)
    Doutor em Modelagem Matemática e Computacional pelo CEFET-MG (2016) tendo trabalhado com Bibliometria, Extração de Dados Científicos e Análise de Redes de Colaboração Científica. Mestre em Modelagem Matemática e Computacional pelo CEFET-MG (2008), trabalhando com Arquitetura Orientada a Serviços e Web Mining com o tema: Uma Arquitetura Orientada a Serviços para emprego em Sistemas de Mineração de Dados na Web. Possui graduação em Ciência da Computação pelo Centro Universitário de Formiga - UNIFOR (2004), além de Especialização em Produção de Software - com Ênfase em Software Livre pela UFLA (2007) e Especialização em Melhoria do Processo de Software, UFLA (2007). Atua como Professor no Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) lecionando disciplinas na Graduação e Pós-graduação da instituição. Professor do Programa de Pós-graduação em Modelagem Matemática e Computacoinal do CEFET-MG e Professor Permanente do Programa de Pós-graduação em Ciência da Informação da Universidade Federal de Santa Catarina (UFSC). Também tem atuação como Colaborador em Projetos no Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT). Tem experiência na área de Ciência da Computação e Ciência da Informação, atuando principalmente nos seguintes temas: Bibliometria, Cientometria, Extração e Integração de Dados, Análise de Redes Sociais, Análise de Redes de Colaboração Científica, Acesso Aberto, Recuperação e Organização da Informação, Ciência de Dados, Data Mining, Text Mining e Web Mining. Membro da Sociedade Brasileira de Computação (SBC) e da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (ANCIB).
  • Washington Luís Ribeiro de Carvalho Segundo, Instituto Brasileiro de informação em Ciência e Tecnologia (IBICT)
    É Doutor e Mestre em Informática pela Universidade de Brasília, com Estágio de Doutorado Sanduíche no Kings College London. Possui graduação em Matemática (Bacharelado e Licenciatura) também pela Universidade de Brasília. É Coordenador-geral de Informação Científica e Técnica no Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict / MCTI). É membro e coordena projetos, comitês nas áreas de Ciência Aberta e Ciência de Dados. É líder do Grupo de Pesquisa e Laboratório do Ecossistema da Pesquisa Científica Brasileira (LaEPeCBr) (http://dgp.cnpq.br/dgp/espelhogrupo/9750187028652303, https://pnipe.mctic.gov.br/laboratory/3911).Áreas de interesse em pesquisa: Métodos Formais, Repositórios Digitais Abertos, Repositórios de Dados Científicos, Interoperabilidade entre Sistemas de Informação Abertos, Ciência Aberta e Ciência de Dados.
  • Raulivan Rodrigo da Silva, Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)
    Doutorando em Modelagem Matemática e Computacional pelo CEFET-MG (2022). Mestre em Modelagem Matemática e Computacional pelo CEFET-MG (2022). Especialista em Engenharia de sistemas baseado em tecnologias JAVA pela PUC Minas campus Coração Eucarístico em BH/MG (2013). Bacharel em Sistema de Informação pela Faculdade Pitágoras campus Divinópolis/MG (2011). Atualmente professor efetivo do CEFET MG no campus Divinópolis, lotado no Departamento de Computação (2019), lecionando disciplinas no ensino médio/técnico e graduação. Tem experiência na área Ciência da Computação e Ciência da Informação, destacando as seguintes temáticas: Patentometria, Cientometria, Análise e Desenvolvimento de Software, Programação para dispositivos móveis, Arquitetura de Software.
  • Marcel Garcia de Souza, Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
    Doutorando em Ciência da Informação pela Universidade de Brasília. Mestre em Educação em Ciências pela Universidade Federal do Rio Grande do Sul (2016). Graduado em Psicologia pela Universidade Católica de Brasília (2005). Servidor público federal; Analista em Ciência e Tecnologia no Instituto Brasileiro de Informação em Ciência e Tecnologia atuando como Coordenador de Tratamento, Análise e DFisseminação da Informação Científica, além de coordenar pesquisas aplicadas voltadas à Ciência da Informação, Informação para Sustentabilidade, Avaliação do Ciclo de Vida, Informação Tecnológica.

Published

2025-01-02

Conference Proceedings Volume

Section

GT 8 – Dados, Informação e Tecnologia