Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

write sources -> MBR script #53

Open
1 of 2 tasks
odanoburu opened this issue May 10, 2018 · 21 comments
Open
1 of 2 tasks

write sources -> MBR script #53

odanoburu opened this issue May 10, 2018 · 21 comments

Comments

@odanoburu
Copy link
Contributor

odanoburu commented May 10, 2018

como discutido em #48 , é interessante termos um script que pegue nossas fontes originais e apliquem todas as modificações/correções/conversões necessárias para obtermos o MorphoBr. assim disponibilizamos um recurso de fácil reprodução, e quando introduzirmos erros percebidos tardiamente (quando modificações posteriores já os propagaram), só precisamos de alterar esse script para consertar o problema.

estou me baseando na lista de problemas dos recursos-fonte para escrever os scripts.

  • correção:
    • tools/prepare-{delaf,freeling}.sh
    • garcia
  • conversão
odanoburu added a commit that referenced this issue May 10, 2018
- add splitting of `W31` in delaf
- add script for freeling
- update upstream-problems.org
@leoalenc
Copy link
Contributor

@odanoburu Concordo!

@LR-POR LR-POR deleted a comment from leoalenc Jun 20, 2018
@LR-POR LR-POR deleted a comment from leoalenc Jun 20, 2018
@leoalenc
Copy link
Contributor

@odanoburu Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.

@odanoburu
Copy link
Contributor Author

Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.

podemos fazer, mas acho que não precisa, já que vamos converter para MBR logo em seguida! (e além disso, não há como o computador confundir os dois, já que não são da mesma classe..)

@leoalenc nos scripts de correção só falta corrigir a falta de itens. a gente já começou esse trabalho, mas vc acha que é melhor seguir corrigindo ou fazer um script que gera as formas corretamente e depois remover as erradas com base em tags duplicadas?

@leoalenc
Copy link
Contributor

@odanoburu acho melhor seguir na estratégia que já estamos utilizando, ou seja, corrigir substituindo logo as formas erradas pelas corretas. Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.

@odanoburu
Copy link
Contributor Author

ok!

Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.

concordo, só pensei nisso pq limitaria isso aos verbos marcados pela presença de clíticos..

@arademaker
Copy link
Contributor

Acho que seja lá o que está sendo feito aqui ainda precisa ficar mais claro objetivo. Teremos este script como ponto de partida apenas certo?

Dados originais - este script - expansões do Leonel via FST - deduplicacoes - final

E isso ?

@odanoburu
Copy link
Contributor Author

sim!

dados originais - script -> dados corrigidos
dados corrigidos - conversão -> dados em formato MBR
dados MBR - expansões FST -> morphobr com duplicatas
morphobr com duplicatas - sort -u -> morphobr final

@leoalenc
Copy link
Contributor

Eu imagino que o fluxo de operações para gerar o recurso final está assim:
Número um: bash scripts para a relação e adições mecânicas

@leoalenc
Copy link
Contributor

Eu imagino que o fluxo de operações para gerar o recurso final está assim:
Número um: bash scripts para a correção de erros de formatação e adições mecânicas de lacunas do dicionário de São Carlos ( O primeiro escrito está incompleto e o segundo ainda falta )

Número dois: conversão para o nosso formato (Veja meu programa linguagem piton; parece que temos pelo menos 2 possibilidades de fazer isso, com o meu programa e com programa do
@odanoburu)

Número três: anotação dos clíticos (veja meu programa em linguagem piton)

Número quatro: expansões por meio da morfologia de estados finitos

@leoalenc
Copy link
Contributor

escrito -> script no comentário acima

leoalenc added a commit that referenced this issue Jun 28, 2018
leoalenc added a commit that referenced this issue Jul 2, 2018
@leoalenc
Copy link
Contributor

leoalenc commented Jul 2, 2018

@odanoburu Eu incluí no script de preparação do dicionário de São Carlos, na pipeline de correção dos verbos com pronomes clíticos, o meu programa em linguagem piton para separação de formas verbais e pronomes clíticos.

@leoalenc
Copy link
Contributor

leoalenc commented Jul 2, 2018

odanoburu added a commit that referenced this issue Jul 3, 2018
odanoburu added a commit that referenced this issue Jul 3, 2018
@odanoburu
Copy link
Contributor Author

@leoalenc estou trabalhando em https://github.com/LFG-PTBR/MorphoBr/tree/i53

já avancei bastante, falta acertar detalhes de paths e testar. quando estiver pronto, vou fazer um PR. fica o convite pra vc já ir pensando no script que incrementa os dicionários com o FST.

@leoalenc
Copy link
Contributor

leoalenc commented Jul 4, 2018

@odanoburu muito bom! Dei uma olhada no código, se eu não me engano, falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos. Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos". Aquele meu programa em linguagem piton tem uma função que permite resolver essa ambiguidade. Sim, vou preparar script para integrar no dicionário as formas criadas pelos autômatos de estados finitos. Mas antes precisamos resolver essas pendências.

@leoalenc
Copy link
Contributor

leoalenc commented Jul 4, 2018

Na verdade, este programa em linguagem piton faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os climáticos.

@leoalenc leoalenc closed this as completed Jul 4, 2018
@leoalenc leoalenc reopened this Jul 4, 2018
@leoalenc
Copy link
Contributor

leoalenc commented Jul 4, 2018

@odanoburu Na verdade, este programa em linguagem piton já faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os clíticos:

tools/python-tools/AnnotateClitics.py

@odanoburu
Copy link
Contributor Author

falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos.

sim! eu considerei elas adições feitas por XFST, já que é falta de cobertura do recurso, e não um erro de sintaxe das entradas..

Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos".

não lida, mas eu estou usando o seu agora! ainda vou deletar o meu.

@leoalenc
Copy link
Contributor

leoalenc commented Jul 4, 2018

@odanoburu Falta script para resolver isto:

filling of systematic gaps (missing tense forms):
the paradigms of the 1st verb conjugation systematically lacks the 3rd person singular forms of two tenses: the imperfect indicative (all forms missing) and the plusperfect (all but 5 forms missing). These forms are identical to the corresponding ones of the 1st person. There seems to be no reason for these gaps, since the analog forms of the 2nd conjugation are present. These missing forms were included in MophoBr.
2nd verb conjugation sistematically lacks SBJF 3 SG

https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org

@odanoburu
Copy link
Contributor Author

odanoburu commented Jul 4, 2018 via email

@leoalenc
Copy link
Contributor

leoalenc commented Jul 4, 2018

@odanoburu Sim, já tinha implementado isso. Vou subir o script amanhã.

@leoalenc
Copy link
Contributor

leoalenc commented Jul 9, 2018

Eu coloquei no ramo mestre, na pasta ferramentas, uma nova versão do script do @odanoburu, capaz de lidar com a mesóclise bem como a ambiguidade do pronome "nos". Esse script, na verdade, é redundante em relação ao módulo análogo que elaborei em linguagem piton, o qual está na pasta ferramentas em linguagem piton.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants