wordEmbeddingsOG

Portuguese Word Embeddings for the specific domain of Oil and Gas

O artigo que descreve esse trabalho foi publicado no Congresso da Rio Oil and Gas 2018, e está disponível em: https://stt.ibp.org.br/eventos/2018/riooil2018/pdfs/rev/Riooil2018_1401_wordembeddingsparaoeg_artigo_c.pdf

GOMES, D., CORDEIRO, F., EVSUKOFF, A. Word Embeddings em português para o domínio específico de óleo e gás. Rio Oil&Gas 2018.

Word Embeddings em português para o domínio específico de óleo e gás

Vetorização de palavras (word embeddings) compõem uma das unidades fundamentais dos algoritmos de processamento de linguagem natural e são utilizados para modelar matematicamente a representação de palavras considerando suas relações de similaridade semântica e sintática no contexto em que ocorrem. Este trabalho descreve o processo de geração e disponibilização do primeiro conjunto público de modelos de word embeddings em português para o domínio específico de óleo e gás. Para a sua geração, um conjunto de dados textual (corpus) foi composto a partir de diversas fontes de dados publicadas por instituições de referência nesta área de conhecimento. Os modelos são qualitativamente analisados no aspecto de sua capacidade de representação de termos técnicos na área de O&G. São descritos os passos utilizados no pré-processamento, no treinamento dos modelos e os resultados obtidos na análise qualitativa. Por fim, os scripts, o corpus e os algoritmos utilizados no estudo, assim como os modelos gerados, são disponibilizados para uso público.

Portuguese Word Embeddings for the specific domain of Oil and Gas

Word embeddings are some of the fundamental units of natural language processing algorithms, used to represent words mathematically by considering semantic and syntactic similarities in the context in which they occur. This paper describes the process of generating the first set of word embeddings models in portuguese for the specific domain of oil and gas. A textual dataset (corpus) was composed from several data sources published by reference institutions in this field. The generated models are qualitatively evaluated in their ability to represent technical terms in the O&G domain. We describe each step, since pre-processing, training and the results obtained in the qualitative analysis. Finally, the scripts, corpus and algorithms used in the study, as well as the generated models, are made available for public use.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Corpora		Corpora
_corpus unificado		_corpus unificado
geracaoEmbeddings		geracaoEmbeddings
preProcessamento		preProcessamento
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

wordEmbeddingsOG

Word Embeddings em português para o domínio específico de óleo e gás

Portuguese Word Embeddings for the specific domain of Oil and Gas

About

Releases

Packages

Languages

diogosmg/wordEmbeddingsOG

Folders and files

Latest commit

History

Repository files navigation

wordEmbeddingsOG

Word Embeddings em português para o domínio específico de óleo e gás

Portuguese Word Embeddings for the specific domain of Oil and Gas

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages