Portuguese Word Embeddings for the specific domain of Oil and Gas
O artigo que descreve esse trabalho foi publicado no Congresso da Rio Oil and Gas 2018, e está disponível em: https://stt.ibp.org.br/eventos/2018/riooil2018/pdfs/rev/Riooil2018_1401_wordembeddingsparaoeg_artigo_c.pdf
GOMES, D., CORDEIRO, F., EVSUKOFF, A. Word Embeddings em português para o domínio específico de óleo e gás. Rio Oil&Gas 2018.
Vetorização de palavras (word embeddings) compõem uma das unidades fundamentais dos algoritmos de processamento de linguagem natural e são utilizados para modelar matematicamente a representação de palavras considerando suas relações de similaridade semântica e sintática no contexto em que ocorrem. Este trabalho descreve o processo de geração e disponibilização do primeiro conjunto público de modelos de word embeddings em português para o domínio específico de óleo e gás. Para a sua geração, um conjunto de dados textual (corpus) foi composto a partir de diversas fontes de dados publicadas por instituições de referência nesta área de conhecimento. Os modelos são qualitativamente analisados no aspecto de sua capacidade de representação de termos técnicos na área de O&G. São descritos os passos utilizados no pré-processamento, no treinamento dos modelos e os resultados obtidos na análise qualitativa. Por fim, os scripts, o corpus e os algoritmos utilizados no estudo, assim como os modelos gerados, são disponibilizados para uso público.
Word embeddings are some of the fundamental units of natural language processing algorithms, used to represent words mathematically by considering semantic and syntactic similarities in the context in which they occur. This paper describes the process of generating the first set of word embeddings models in portuguese for the specific domain of oil and gas. A textual dataset (corpus) was composed from several data sources published by reference institutions in this field. The generated models are qualitatively evaluated in their ability to represent technical terms in the O&G domain. We describe each step, since pre-processing, training and the results obtained in the qualitative analysis. Finally, the scripts, corpus and algorithms used in the study, as well as the generated models, are made available for public use.