<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>Vitória, Brazil, October</journal-title>
      </journal-title-group>
    </journal-meta>
    <article-meta>
      <title-group>
        <article-title>Infraestrutura da arquitetura e pipeline de automação da governança de um grafo de conhecimento com fontes de dados estruturadas e não estruturadas: Uma aplicação na plataforma ELLAS</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Rodgers Fritoli</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Rita Cristina Galarraga Berardi</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Programa de Pós Graduação em Computação Aplicada (PPGCA), Universidade Tecnológica Federal do Paraná</institution>
          ,
          <addr-line>Curitiba, Paraná</addr-line>
          ,
          <country country="BR">Brasil</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Projeto Latin American Open Data for Gender Equality Policies Focusing on Leadership in STEM( ELLAS)</institution>
          ,
          <country country="BR">Brasil</country>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2024</year>
      </pub-date>
      <volume>0</volume>
      <fpage>7</fpage>
      <lpage>10</lpage>
      <abstract>
        <p>Knowledge graph technology is rapidly evolving, as it enables the integration of diferent types of data into a semantic context, facilitating complex analyses and innovative discoveries. However, the creation of an initial architecture for these graphs faces challenges such as choosing the right infrastructure to support the volume and variety of data, while ensuring performance and security. In the context of the ELLAS project, which involves data from various sources across Latin America, a systematic literature review was conducted to identify the best infrastructure for governance of these data. The review focused on scalable and flexible solutions suitable for the growth of the graph over time, and explored technologies such as clustering, Big Data, relational and graph databases, and cloud servers. The results contribute to the discussion of appropriate infrastructures for practical applications of knowledge graphs, addressing an existing gap in the literature.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. Introdução</title>
      <p>segurança e custos excessivos ou até mesmo custos desnecessários quando da implementação de recursos
desproporcionais ao seu uso.</p>
      <p>A motivação para esta pesquisa é a construção de uma plataforma de dados abertos conectados que
centraliza em um grafo de conhecimento dados dispersos em formatos não estruturados (como artigos
acadêmicos em publicações textuais) como também dados estruturados abertos que são trazidos para a
plataforma de forma automatizada e com um enfoque específico em 3 línguas diferentes (português,
espanhol e inglês). Esta plataforma é da rede ELLAS de pesquisa3, que é uma rede de pesquisa no
contexto da América Latina com a participação de pesquisadores do Brasil, Peru e Bolívia que propõe
uma plataforma que coleta, centraliza, integra em um grafo de conhecimento dados abertos sobre
variáveis que podem estar relacionadas à baixa presença de mulheres em cursos e carreiras de áreas
STEM (Ciência, Tecnologia, Engenharia e Matemática).Para aplicações de dados abertos conectados
(ou comumente conhecidos com o termo grafos de conhecimento após o Google mencioná-lo [29]), se
consideram inúmeras coletas de dados RDF disponíveis na Web e para processar tais volumes. Embora
estudos anteriores indicam que arquiteturas distribuídas [4,5], ou uma arquitetura em cluster [6,7] sejam
ideais, este estudo demonstra a aplicabilidade de uma infraestrutura mais simples em um grafo de menor
escala e por isso requer um estudo mais dedicado a essas características.A arquitetura completa da
plataforma ELLAS foi definida e explicada em [24] onde foram definidas as fontes de dados, as camadas
de processamento, entradas e saídas de cada componente, no entanto as definições para a infraestrutura
que implementa esta arquitetura está exposta neste artigo assim como toda a metodologia empregada
para defini-la.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Revisão Sistemática da Literatura</title>
      <p>Com o objetivo de identificar as melhores práticas e lacunas de conhecimento sobre infraestrutura
de grafos de conhecimento com RDF, conduzimos uma revisão sistemática da literatura. Nesta
seção, detalhamos a metodologia empregada, apresentamos os principais resultados e discutimos suas
implicações.</p>
      <sec id="sec-2-1">
        <title>2.1. Metodologia da RSL</title>
        <p>A RSL seguiu critérios bem definidos, foi utilizado a base de dados ACM Digital Library4 e IEEE5 . A
estratégia de busca adotada foi delineada através da seguinte string: "architecture AND graphdb OR
(triplestore infrastructure) OR (semantic pipeline) OR (linked data pipeline)". Na base ACM Digital Library,
retornou o total de 211 artigos com as strings pesquisadas, enquanto na IEEE o resultado foi de 38.
Após a exclusão de 6 artigos duplicados, foi realizada uma seleção preliminar com base nos títulos,
identificando 104 artigos que demonstravam relevância com o tema do estudo. A etapa subsequente
envolveu uma análise mais aprofundada, com a leitura dos resumos desses 104 artigos, resultando na
seleção criteriosa de 13 publicações para uma leitura integral de seus conteúdos.</p>
      </sec>
      <sec id="sec-2-2">
        <title>2.2. Artigos Resultantes da RSL</title>
        <p>Nos artigos [11] e [12] foi indicado como melhor estratégia de armazenamento e gerenciamento
dos arquivos RDF na nuvem a utilização de Hadoop. Os autores propõem a utilização do modelo de
programação MapReduce [9] para realizar pesquisas em grandes volumes de dados. Também é sugerido
o Hadoop no artigo [23], onde foram comparadas duas tecnologias, uma com os dados no Hadoop como
o banco de dados HBase e outra tecnologia com o banco de dados relacional MySQL Cluster. Como
infraestrutura são utilizadas nove máquinas comuns para criar o cluster. O volume de dados foi de um
conjunto entre 38.600 e 80.043.000 de triplas. O artigo [21] apresenta uma infraestrutura que envolve
um cluster com Hadoop. Foi relatado que o cluster contém 20 nós sem mencionar especificamente
3https://ellas.ufmt.br/pt/inicio/
4https://dl.acm.org/
5https://ieeexplore.ieee.org/
qual o hardware de cada nó. No artigo [13], é implementada uma arquitetura para o armazenamento e
disponibilização de dados RDF utilizando o banco de dados NoSQL Amazon SimpleDB, e o serviço de
armazenamento no Amazon Simple Storage Service (S3), para criação de máquinas virtuais é utilizado
serviço Amazon Elastic Compute Cloud (EC2) e o serviço de fila Amazon Simple Queue Service (SQS),
possibilitando filas de execução síncronas de consultas. Nos artigos [14] e [15]” ambos não expõem qual
infraestrutura foi utilizada para o armazenamento do RDF, somente é detalhado como foi construído
um sistema com a utilização de RDF e OWL mas não é mencionado qual foi o servidor ou outra
característica da sua infraestrutura. Já no artigo [16] são detalhados os testes realizados com o banco de
dados de grafos Virtuoso6 e o Blazegraph7 .Para a configuração do servidor foi utilizado como cloud a
Amazon com o serviço Amazon Elastic Compute Cloud (EC2) para armazenamento dos dados brutos do
Simple Storage Solutions(S3). Na pesquisa [17] foi abordada sobre a modelagem e o design do banco de
dados para o RDF. É relatado no artigo que o design físico do banco de dados RDF é difícil e não há
consenso sobre a melhor abordagem, o desempenho pode ser ruim para diferentes cargas de dados. Na
pesquisa foram mencionados testes de criação do banco de dados com RDF-3x 8.9ms, GStore, MonetDB
e Virtuoso, embora não tenha sido descrito qual a configuração da infraestrutura de servidores que
foi utilizada. No artigo [18] é proposta a criação de um banco de dados RDF relacional baseado em
caminhos, funcionando de forma independente das informações dos esquemas RDF. Quanto à volumetria
de dados foi utilizado o Gene Ontology8 que é um consórcio internacional que fornece um vocabulário
estruturado e padronizado para descrever funções dos genes, seu volume total é de 45.443 termos. O
artigo [19] detalha uma aplicação desenvolvida pelo governo brasileiro para uma infraestrutura de
dados abertos utilizando RDF Este trabalho relata um caso em que o governo disponibilizou um grande
volume de dados em diversos formatos (estruturados, semiestruturados e não estruturados) em seu
Portal da Transparência. No artigo é detalhado como foi desenvolvido o sistema utilizando a linguagem
Java, no entanto não é relatado qual infraestrutura de sustentação para a aplicação. No artigo [20] é
proposto um método para projetar modelos de entidade relacionamento (ER) com base no RDF(S) e
SPARQL(SPARQL Protocol and RDF Query Language). As etapas incluem formulação de regras com
a linguagem para consulta de dados SPARQL, análise de recursos e design do modelo ER traduzindo
RDF(S), no entanto a discussão fica somente acerca da modelagem, sem apresentar uma infraestrutura
proposta. Por fim, o artigo [22] fornece uma explicação de como foi realizado uma interface de pesquisa
em RDF utilizando um desenvolvimento em JAVA com a biblioteca Sesane 2 RDF9 . A biblioteca é um
framework de software livre e de código aberto para trabalhar com dados RDF, fornece vários recursos
como armazenamento e gerenciamento de dados RDF.A Tabela 1 apresenta os estudos que apresentaram
uma solução de infraestrutura para tipo de armazenamento triplestore, as tecnologias utilizadas para a
infraestrutura e o tipo de ambiente utilizado.</p>
        <p>Tabela 1
Relação dos principais artigos e os tipos de infraestrutura utilizada</p>
        <p>Artigo</p>
        <p>Zoi Kaoudi [11,12]
Francesca Bugiotti [13]</p>
        <p>Franke, C [23]</p>
        <p>De Witte, D. [16]
Waterloo, G. A. U. [17]</p>
        <p>Matono, A. [18]
Victorino, M. [19]</p>
        <p>Huang, J. [21]</p>
        <p>Infraestrutura</p>
        <p>Tipo de Ambiente</p>
        <p>Hadoop</p>
        <p>EC2 + SIMPLEDB</p>
        <p>MySQL Cluster + Hadoop
EC2 + S3 + Virtuoso + BlazeGraph</p>
        <p>Virtuoso + MonetDB
Postgree + Linux + Apache Jena</p>
        <p>Mysql + Apache Jena</p>
        <p>Hadoop + RDF+3X</p>
        <p>Cloud
Cloud
Cloud
Cloud
On-Premises
On-Premises
On-Premises
Cloud
6https://virtuoso.openlinksw.com/
7https://blazegraph.com/
8https://geneontology.org/
9https://www.w3.org/2001/sw/wiki/Sesame</p>
      </sec>
      <sec id="sec-2-3">
        <title>2.3. Discussão sobre as definições de infraestruturas encontradas na RSL</title>
        <p>Esta seção discute as infraestruturas de banco de dados em grafo encontradas na RSL. O Hadoop com
MapReduce [11,12,23,21] oferece escalabilidade e flexibilidade, mas tem implementação complexa e
custos elevados na nuvem. O Amazon SimpleDB [13] compartilha essas vantagens e desafios. O HBase
[23] é eficiente na inserção de grandes volumes de dados, mas tem desempenho inferior em consultas e
alto custo na transformação de dados RDF. O MySQL Cluster [23] oferece bom desempenho em consultas,
mas sua escalabilidade é limitada. O PostgreSQL [18], embora suporte RDF, tem modelagem complexa e
desempenho avaliado em um conjunto de dados pequeno.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>3. Contexto de Aplicação: Grafo de Conhecimento para a plataforma</title>
    </sec>
    <sec id="sec-4">
      <title>ELLAS</title>
      <p>A plataforma desenvolvida pela rede de pesquisa ELLAS de pesquisa tem como objetivo providenciar
uma maneira de coletar e centralizar dados que auxiliem na compreensão e mitigação da baixa
representatividade feminina em cursos e carreiras das áreas STEM (Ciência, Tecnologia, Engenharias e
Matemática). Esses dados são espalhados em muitas fontes com diversas granularidades, diferentes
línguas, vocabulários e quantidades e na plataforma são conectados para assim, favorecer que
pesquisadores e tomadores de decisão produzam estudos para recomendações de políticas para instituições
públicas e privadas [24,25]. Tal produção está concentrada em três países da América do Sul (Brasil,
Bolívia e Peru) e pretende abordar sistematicamente a questão da liderança feminina em STEM revisando
a literatura internacional. A ideia é criar uma plataforma de dados abertos e conectados por ontologias
(assegurando sua organização, acessibilidade e reutilização) [27], com o intuito de simplificar e incentivar
o uso por qualquer indivíduo interessado no tema. Em resumo, foram definidos dois processos de coleta
e estruturação de dados, um para dados não estruturados e outro para estruturados, mais bem descritos
em [24, 25, 30, 31]. Os dados não estruturados são organizados em planilhas CSV e passam por etapas
de modelagem de ontologias baseada nos dados, validadas em conjunto com os especialistas de domínio
do projeto e então são triplificadas e armazenadas no grafo de conhecimento. Já os dados estruturados
são coletados de forma automatizada, tendo até o momento como fontes a UNESCO e o INEP (dados
estatísticos da educação superior com corte em gênero em cursos de área STEM) [30], e outras fontes
serão adicionadas com o tempo.</p>
    </sec>
    <sec id="sec-5">
      <title>4. Proposta da Infraestrutura da Arquitetura e Pipeline para a</title>
    </sec>
    <sec id="sec-6">
      <title>Plataforma ELLAS</title>
      <p>As análises realizadas com os resultados da RSL e as principais características do contexto do projeto
ELLAS evidenciaram que não há semelhanças com os cenários discutidos nos artigos da RSL e por isso
exigiram novas definições para a infraestrutura da arquitetura quanto pipelines para automação da
governança de grafos de conhecimento. Dentre as características, destacamos a quantidade de dados que
não é tão volumosa, a necessidade de padronizar os dados em sua forma inicial em planilhas CSV devido
à equipe de especialistas de domínio possuir familiaridade com planilhas e nenhum conhecimento em
grafos de conhecimento nem em ontologias e a necessidade de oferecer visualizações compatíveis com
o conhecimento não técnico dos perfis de usuários, que serão tomadores de decisão formadores de
políticas para atração de mulheres em carreiras STEM.</p>
      <sec id="sec-6-1">
        <title>4.1. Definições para a Infraestrutura da Arquitetura</title>
        <p>A infraestrutura do grafo é gerenciada por um usuário "Admin"em um computador local, com
armazenamento na AWS. Utiliza-se o EC2 da AWS para o servidor virtual, rodando Windows Server, escolhido
pela familiaridade da equipe. O servidor é dedicado ao projeto ELLAS, com um pipeline que transforma
dados CSV em um grafo de conhecimento no GraphDB da empresa Ontotext10 . Neste ambiente, está
configurada a API para consumo de aplicativos externos e também da plataforma ELLAS. Como já
mencionado, nas infraestruturas resultantes da RSL as definições para triplestore se concentravam em
grandes volumes de dados, que não é a realidade de muitos projetos medianos de grafos de
conhecimento. Buscando por triplestores com essas características, foi realizada uma comparação em [28]
onde o triplestore Graphdb da empresa Ontotext apresentou-se como uma solução compatível com o
cenário do projeto ELLAS, tornando-se inclusive um case de sucesso reportado no seu site11 .Na Figura
1, é ilustrada uma versão macro da infraestrutura da arquitetura de governança em que se mostram as
definições de ferramental que permite a governança desde o acesso à plataforma pelos administradores
dos dados até o usuário final em dispositivos como website e aplicativos.</p>
        <p>Figura 1: Infraestrutura da Arquitetura de Governança do Grafo de Conhecimento para a plataforma ELLAS.
Fonte: o autor.</p>
      </sec>
      <sec id="sec-6-2">
        <title>4.2. Pipeline de Dados</title>
        <p>Foi projetado um Pipeline que prevê a manipulação dos dados desde a sua forma crua em formato CSV
até a inserção dos dados no triplestore. Para obter um processo de carga de dados de forma automática,
foi utilizado o Pentaho Data Integration12 que é uma ferramenta de orquestração de dados de forma
visual que combina diversos conjuntos de dados. Na Figura 2 é representado o fluxo de transformação
para manipulação dos dados não estruturados (ou dados primários).Os dados brutos em formato CSV
são localizados, mapeados e transformados em triplas, para serem inseridos no banco de dados Graphdb
em uma rotina de execução pré-estabelecida.</p>
        <p>Figura 2: Pipeline automatizado utilizando Pentaho. Fonte: autor
10https://www.ontotext.com/products/graphdb/?ref=menu
11https://www.ontotext.com/knowledgehub/case-studies/stem-ellas-uses-graphdb-to-help-fight-gender-inequality-in-leadership-positions/
12https://pentaho.com/products/pentaho-data-integration/</p>
      </sec>
    </sec>
    <sec id="sec-7">
      <title>5. Aplicação e Testes</title>
      <p>A aplicação desta infraestrutura, em comparação com os artigos da RSL, é consideravelmente mais
simplificada, pois não utiliza camadas de Big Data ou ferramentas mais complexas como o Hadoop que
são necessárias para a projetos com grandes volumes de dados. A instalação do GraphDB no servidor
foi simples, com um arquivo executável com interface conhecida no formato Windows, dispensando
configurações avançadas com uso de terminais. Utilizando a licença da Ontotext e seguindo a
documentação, foi criada uma API em Python para consultas SPARQL. Embora o GraphDB possua um workbench
para consultas, por segurança e para evitar a exposição do banco, um módulo de consulta em Python
foi desenvolvido, controlando as execuções permitidas. Para facilitar a documentação, aplicamos o
Swagger13 junto com a biblioteca Flask14 no Python para criar uma página com o serviço de busca para as
consultas SPARQL.Como no escopo do projeto temos como premissa uma infraestrutura simples e com
um custo-benefício otimizado, na Tabela 2 mostramos o consumo em Dólares (U$) por mês do ano de
2024 desta infraestrutura implementada manipulando um grafo de conhecimento de aproximadamente
50 mil triplas.</p>
      <p>Tabela 2
Custo mensal do ano de 2024 da infraestrutura aplicada no Projeto ELLAS.</p>
      <p>Mês
Valor (U$)</p>
      <p>Janeiro</p>
    </sec>
    <sec id="sec-8">
      <title>6. Conclusão</title>
      <p>A escolha da melhor abordagem para armazenar e gerenciar dados RDF é influenciada por vários
fatores, como o volume de dados, o tipo de consultas necessárias, restrições orçamentárias e o nível de
familiaridade com a tecnologia e o perfil de pessoas envolvidas na construção e consumo dos grafos de
conhecimento. É preciso analisar cuidadosamente as vantagens e desvantagens de cada opção, bem
como revisar pesquisas já realizadas para tomar decisões. Foi realizada uma RSL buscando compreender
o estado da arte com relação a infraestruturas das arquiteturas desenvolvidas para compreender quais as
características dessas arquiteturas bem como dos cenários de aplicação. Para grandes volumes de dados,
recursos como Apache Hadoop e formatos como HDFS foram encontrados, esta abordagem pode ser
complexa e onerosa, tornando-se menos viável economicamente. Em um banco de dados de tamanho
moderado conclui-se que pode ser utilizado um servidor na Amazon com o serviço EC2, já das opções
apresentadas o ideal é trabalhar com um banco de dados de triplestore sem que haja a necessidade de
tratamentos em bancos de dados relacionais para armazenar os arquivos RDF e as ontologias. Espera-se
que os desafios encontrados pelo time da plataforma ELLAS na definição da infraestrutura da sua
arquitetura e pipelines sejam amenizados em projetos semelhantes no futuro para assim fomentar mais
e mais o uso de grafos de conhecimento.</p>
    </sec>
    <sec id="sec-9">
      <title>Referências</title>
      <p>[1] D. Quass, J. Widom, R. Goldman, K. Haas, Q. Luo, J. McHugh, S. Nestorov, A. Rajaraman, H. Rivero,
S. Abiteboul, J. Ullman, and J. Wiener. "Lore: a lightweight object repository for semistructured
data."*In Proceedings of the ACM SIGMOD International Conference on Management of Data
(SIGMOD)*, 1996.
[2] S. Trißl and U. Leser. "Fast and practical indexing and querying of very large graphs."*In Proceedings
of the ACM SIGMOD International Conference on Management of Data (SIGMOD)*, 2007.
13https://swagger.io/
14https://flask.palletsprojects.com/en/3.0.x/
[3] G. Raschia, M. Theobald, and I. Manolescu. "Proceedings of the first international workshop on
open data (WOD)."2012.
[4] Z. Kaoudi, K. Kyzirakos, and M. Koubarakis. "SPARQL Query Optimization on Top of DHTs."*In</p>
      <p>Proceedings of the International Semantic Web Conference (ISWC)*, 2010.
[5] Z. Kaoudi, I. Miliaraki, and M. Koubarakis. "RDFS Reasoning and Query Answering on Top of</p>
      <p>DHTs."*In Proceedings of the International Semantic Web Conference (ISWC)*, 2008.
[6] O. Erling and I. Mikhailov. "RDF Support in the Virtuoso DBMS."*Networked Knowledge -
Networked Media*, 2009.
[7] S. Harris, N. Lamb, and N. Shadbolt. "4store: The Design and Implementation of a Clustered RDF</p>
      <p>Store."*In 5th International Workshop on Scalable Semantic Web Knowledge Base Systems*, 2009.
[8] F. N. Afrati, V. R. Borkar, M. J. Carey, N. Polyzotis, and J. D. Ullman. "Map-Reduce Extensions
and Recursive Queries."*In Proceedings of the International Conference on Extending Database
Technology (EDBT)*, 2011.</p>
      <p>[9] Apache Hadoop. "http://hadoop.apache.org/", 2012.
[10] A. Owens, A. Seaborne, N. Gibbins, and M. Schraefel. "Clustered TDB: A Clustered Triple Store for</p>
      <p>Jena."*Technical Report*, 2008.
[11] Zoi Kaoudi, Ioana Manolescu. "RDF in the Clouds: A Survey."*The VLDB Journal*, 2014.
fhal01020977f.
[12] Zoi Kaoudi, Ioana Manolescu. "Cloud-based RDF data management."*In ACM SIGMOD Conference*,</p>
      <p>June 2014, Snowbird, United States. f10.1145/2588555.2588891f.
[13] Francesca Bugiotti, François Goasdoué, Zoi Kaoudi, Ioana Manolescu. "RDF Data Management
in the Amazon Cloud."*In Workshop on Data Analytics in the Cloud (DanaC)*, Mar 2012, Berlin,
Germany. fhal-00670492f.
[14] Melanie Herschel, Ioana Manolescu. "Data Bridges: Data Integration for Digital Cities."*In
International Workshop on City Data Management (CDMW)*, November 2012, Maui, HI, United States.
fhal-00757569f.
[15] E. Meena, A. Kumar, and L. Romary. "An extensible framework for eficient document management
using RDF and OWL."*In Proceedings of the Workshop on NLP and XML (NLPXML-2004)*, 2004.
[16] D. De Witte, L. De Vocht, R. Verborgh, K. Knecht, F. Pattyn, H. Constandt, E. Mannens, and R. Van
de Walle. "Big Linked Data ETL Benchmark on Cloud Commodity Hardware."*Proceedings of the
International Workshop on Semantic Big Data*, 2016.
[17] G. A. Waterloo, G. Aluç, M. Tamer Özsu, and O. M. A. Metrics. "Workload matters: Why RDF</p>
      <p>Databases Need A New Design."*Proceedings of the VLDB Endowment*, vol. 7, no. 10, 2014.
[18] A. Matono, T. Amagasa, M. Yoshikawa, and S. Uemura. "A path-based relational RDF database."*In</p>
      <p>Proceedings of the 16th Australasian Database Conference*, 2005.
[19] M. Victorino, M. T. de Holanda, E. Ishikawa, E. C. Oliveira, G. Ghinea, and S. Chhetri. "Proposal
of a Brazilian Database Government Open Linked Data: DBgoldbr."*In Proceedings of the 9th
International Conference on Management of Digital EcoSystems*, 2017.
[20] L. Xu, S. Lee, and S. Kim. "ER model based RDF data storage in RDB."*In Proceedings of the 3rd</p>
      <p>International Conference on Computer Science and Information Technology*, 2010.
[21] J. Huang, D. J. Abadi, and K. Ren. "Scalable SPARQL querying of large RDF graphs."*Proceedings
of the VLDB Endowment*, vol. 4, no. 11, 2011.
[22] B. Guilfoos, S. Samsi, J. C. Chaves, J. Unpingco, J. Nehrbass, A. Chalker, and A. Krishnamurthy.
"Web Interface for Querying/Searching RDF Database."*In Proceedings of the 2007 DoD High
Performance Computing Modernization Program Users Group Conference*, 2007.
[23] C. Franke, S. Morin, A. Chebotko, J. Abraham, and P. Brazier. "Eficient processing of semantic
web queries in HBase and MySQL cluster."*IT Professional*, vol. 15, no. 3, 2012.
[24] R. C. G. Berardi. "ELLAS Architecture and Process: Collecting and Curating Data on Women’s</p>
      <p>Presence in STEM."*Journal of Information Systems (JIS)*, vol. 15, no. 1, 2024.
[25] C. Maciel, I. R. Guzman, R. C. G. Berardi, N. Rodriguez-Rodriguez, L. Salgado, L. B. Frigo, B.</p>
      <p>Branisa, and E. Jimenez. "An Open Data Platform to Advance Gender Equality in STEM in Latin
America."*Communications of the ACM*, Online First, 2024. doi: 10.1145/3653294.
[26] B. Branisa, P. Cabero, and I. Guzman. "The main factors explaining IT Career Choices of Female</p>
      <p>Students in Bolivia."*In AMCIS 2021 Proceedings*, 2021.
[27] M. T. de Araújo and A. M. Tonini. "A Participação das Mulheres nas Áreas de STEM (Science,
Technology Engineering and Mathematics)."*Revista de Ensino de Engenharia*, vol. 38, no. 3, 2020.</p>
      <p>Available: http://revista.educacao.ws/revista/index.php/abenge/article/view/1693/905.
[28] G. A. Michelon and R. C. G. Berardi. "Comparative Study of Tools for Modeling, Storage, and
Integration of Data on the Semantic Web for the ELLAS Network Platform."*In Proceedings of the
WELLAS Conference*, 2023.
[29] A. Hogan, E. Blomqvist, M. Cochez, C. d’Amato, G. D. Melo, C. Gutierrez, and A. Zimmermann.</p>
      <p>"Knowledge Graphs."*ACM Computing Surveys (CSUR)*, vol. 54, no. 4, 2021.
[30] N. Hildebrand, B. Amador, C. Maciel, and R. Berardi. "A Escassez de Dados Abertos
Estruturados em Países Latino-Americanos com Enfoque de Gênero na Educação Superior."*In
Anais do XVIII Women in Information Technology*, Brasília/DF, 2024, pp. 161-172. doi:
https://doi.org/10.5753/wit.2024.2574.
[31] R. Berardi, P. Auceli, C. Maciel, G. Davila, I. Guzman, and L. Mendes. "ELLAS: Uma plataforma
de dados abertos com foco em lideranças femininas em STEM no contexto da América
Latina."*In Anais do XVII Women in Information Technology*, João Pessoa/PB, 2023, pp. 124-135.
doi: https://doi.org/10.5753/wit.2023.230764.</p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>