write sources -> MBR script #53

odanoburu · 2018-05-10T17:06:09Z

como discutido em #48 , é interessante termos um script que pegue nossas fontes originais e apliquem todas as modificações/correções/conversões necessárias para obtermos o MorphoBr. assim disponibilizamos um recurso de fácil reprodução, e quando introduzirmos erros percebidos tardiamente (quando modificações posteriores já os propagaram), só precisamos de alterar esse script para consertar o problema.

estou me baseando na lista de problemas dos recursos-fonte para escrever os scripts.

correção:
- tools/prepare-{delaf,freeling}.sh
- garcia
conversão

- add splitting of `W31` in delaf - add script for freeling - update upstream-problems.org

leoalenc · 2018-06-20T14:43:27Z

@odanoburu Concordo!

leoalenc · 2018-06-20T22:05:00Z

@odanoburu Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.

odanoburu · 2018-06-25T13:43:24Z

Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.

podemos fazer, mas acho que não precisa, já que vamos converter para MBR logo em seguida! (e além disso, não há como o computador confundir os dois, já que não são da mesma classe..)

@leoalenc nos scripts de correção só falta corrigir a falta de itens. a gente já começou esse trabalho, mas vc acha que é melhor seguir corrigindo ou fazer um script que gera as formas corretamente e depois remover as erradas com base em tags duplicadas?

leoalenc · 2018-06-25T17:07:17Z

@odanoburu acho melhor seguir na estratégia que já estamos utilizando, ou seja, corrigir substituindo logo as formas erradas pelas corretas. Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.

odanoburu · 2018-06-25T17:17:52Z

ok!

Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.

concordo, só pensei nisso pq limitaria isso aos verbos marcados pela presença de clíticos..

arademaker · 2018-06-25T17:45:49Z

Acho que seja lá o que está sendo feito aqui ainda precisa ficar mais claro objetivo. Teremos este script como ponto de partida apenas certo?

Dados originais - este script - expansões do Leonel via FST - deduplicacoes - final

E isso ?

odanoburu · 2018-06-25T17:51:26Z

sim!

dados originais - script -> dados corrigidos
dados corrigidos - conversão -> dados em formato MBR
dados MBR - expansões FST -> morphobr com duplicatas
morphobr com duplicatas - sort -u -> morphobr final

leoalenc · 2018-06-28T14:07:07Z

Eu imagino que o fluxo de operações para gerar o recurso final está assim:
Número um: bash scripts para a relação e adições mecânicas

leoalenc · 2018-06-28T14:14:10Z

Eu imagino que o fluxo de operações para gerar o recurso final está assim:
Número um: bash scripts para a correção de erros de formatação e adições mecânicas de lacunas do dicionário de São Carlos ( O primeiro escrito está incompleto e o segundo ainda falta )

Número dois: conversão para o nosso formato (Veja meu programa linguagem piton; parece que temos pelo menos 2 possibilidades de fazer isso, com o meu programa e com programa do
@odanoburu)

Número três: anotação dos clíticos (veja meu programa em linguagem piton)

Número quatro: expansões por meio da morfologia de estados finitos

leoalenc · 2018-06-28T14:15:03Z

escrito -> script no comentário acima

…anges in the other Python modules

leoalenc · 2018-07-02T15:44:13Z

@odanoburu Eu incluí no script de preparação do dicionário de São Carlos, na pipeline de correção dos verbos com pronomes clíticos, o meu programa em linguagem piton para separação de formas verbais e pronomes clíticos.

leoalenc · 2018-07-02T15:46:24Z

https://github.com/LFG-PTBR/MorphoBr/tree/master/tools/python-tools

odanoburu · 2018-07-03T21:15:04Z

@leoalenc estou trabalhando em https://github.com/LFG-PTBR/MorphoBr/tree/i53

já avancei bastante, falta acertar detalhes de paths e testar. quando estiver pronto, vou fazer um PR. fica o convite pra vc já ir pensando no script que incrementa os dicionários com o FST.

leoalenc · 2018-07-04T14:04:26Z

@odanoburu muito bom! Dei uma olhada no código, se eu não me engano, falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos. Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos". Aquele meu programa em linguagem piton tem uma função que permite resolver essa ambiguidade. Sim, vou preparar script para integrar no dicionário as formas criadas pelos autômatos de estados finitos. Mas antes precisamos resolver essas pendências.

leoalenc · 2018-07-04T14:15:34Z

Na verdade, este programa em linguagem piton faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os climáticos.

leoalenc · 2018-07-04T14:17:59Z

@odanoburu Na verdade, este programa em linguagem piton já faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os clíticos:

tools/python-tools/AnnotateClitics.py

odanoburu · 2018-07-04T14:45:17Z

falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos.

sim! eu considerei elas adições feitas por XFST, já que é falta de cobertura do recurso, e não um erro de sintaxe das entradas..

Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos".

não lida, mas eu estou usando o seu agora! ainda vou deletar o meu.

leoalenc · 2018-07-04T17:41:43Z

@odanoburu Falta script para resolver isto:

filling of systematic gaps (missing tense forms):
the paradigms of the 1st verb conjugation systematically lacks the 3rd person singular forms of two tenses: the imperfect indicative (all forms missing) and the plusperfect (all but 5 forms missing). These forms are identical to the corresponding ones of the 1st person. There seems to be no reason for these gaps, since the analog forms of the 2nd conjugation are present. These missing forms were included in MophoBr.
2nd verb conjugation sistematically lacks SBJF 3 SG

https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org

odanoburu · 2018-07-04T17:51:14Z

sim @leoalenc. mas vc diz que falta nesse script de correção dos dados upstream, ou que ele não existe? vc já implementou isso, certo? nesse caso, eu julgo ser melhor colocar isso na fase seguinte da pipeline que estabelecemos.

…

On Wed, Jul 4, 2018, 14:41 Leonel Figueiredo de Alencar < ***@***.***> wrote: @odanoburu <https://github.com/odanoburu> Falta script para resolver isto: filling of systematic gaps (missing tense forms): the paradigms of the 1st verb conjugation systematically lacks the 3rd person singular forms of two tenses: the imperfect indicative (all forms missing) and the plusperfect (all but 5 forms missing). These forms are identical to the corresponding ones of the 1st person. There seems to be no reason for these gaps, since the analog forms of the 2nd conjugation are present. These missing forms were included in MophoBr. 2nd verb conjugation sistematically lacks SBJF 3 SG https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#53 (comment)>, or mute the thread <https://github.com/notifications/unsubscribe-auth/ASc3wx7Nl8ImpnQPPDMEbIe5NF7PQYI3ks5uDP5cgaJpZM4T6OQc> .

leoalenc · 2018-07-04T19:20:03Z

@odanoburu Sim, já tinha implementado isso. Vou subir o script amanhã.

…d mesoclisis

leoalenc · 2018-07-09T15:36:47Z

Eu coloquei no ramo mestre, na pasta ferramentas, uma nova versão do script do @odanoburu, capaz de lidar com a mesóclise bem como a ambiguidade do pronome "nos". Esse script, na verdade, é redundante em relação ao módulo análogo que elaborei em linguagem piton, o qual está na pasta ferramentas em linguagem piton.

odanoburu added a commit that referenced this issue May 10, 2018

(#53) bootstrap scripts

8a48cbe

- add splitting of `W31` in delaf - add script for freeling - update upstream-problems.org

odanoburu mentioned this issue May 10, 2018

missing V tag in clitics #48

Closed

LR-POR deleted a comment from leoalenc Jun 20, 2018

odanoburu added a commit that referenced this issue Jun 25, 2018

(#53) shellcheck scripts

bc1272c

odanoburu added a commit that referenced this issue Jun 25, 2018

(#53) use C runtime for better performance in GF syntax-checking

54f1bd0

leoalenc added a commit that referenced this issue Jun 28, 2018

#53 adding separate delaf=>mbr converter and clitic annotator

6c109a1

leoalenc added a commit that referenced this issue Jun 28, 2018

#53 new tag mapping files

8465a8f

leoalenc added a commit that referenced this issue Jul 2, 2018

#42 #48 #53 Python module for separating clitics from verbs; minor ch…

1fb3897

…anges in the other Python modules

odanoburu added a commit that referenced this issue Jul 3, 2018

(#53) merge Leonel's work

e0d38d4

odanoburu added a commit that referenced this issue Jul 3, 2018

(#53) merge Leonel's work

0cc197e

leoalenc closed this as completed Jul 4, 2018

leoalenc reopened this Jul 4, 2018

leoalenc added a commit that referenced this issue Jul 9, 2018

#53: a new version of Bruno's script capable of handling ambiguity an…

5b43f1b

…d mesoclisis

leoalenc added a commit that referenced this issue Jul 9, 2018

#53: testfiles for python converter; minor change in the new converter

7dcdc2c

leoalenc added a commit that referenced this issue Jul 9, 2018

#53: minor change in the new converter

aa3e5d9

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

write sources -> MBR script #53

write sources -> MBR script #53

odanoburu commented May 10, 2018 •

edited

Loading

leoalenc commented Jun 20, 2018

leoalenc commented Jun 20, 2018

odanoburu commented Jun 25, 2018

leoalenc commented Jun 25, 2018

odanoburu commented Jun 25, 2018

arademaker commented Jun 25, 2018

odanoburu commented Jun 25, 2018

leoalenc commented Jun 28, 2018

leoalenc commented Jun 28, 2018

leoalenc commented Jun 28, 2018

leoalenc commented Jul 2, 2018

leoalenc commented Jul 2, 2018

odanoburu commented Jul 3, 2018

leoalenc commented Jul 4, 2018

leoalenc commented Jul 4, 2018

leoalenc commented Jul 4, 2018

odanoburu commented Jul 4, 2018

leoalenc commented Jul 4, 2018

odanoburu commented Jul 4, 2018 via email

leoalenc commented Jul 4, 2018

leoalenc commented Jul 9, 2018

write sources -> MBR script #53

write sources -> MBR script #53

Comments

odanoburu commented May 10, 2018 • edited Loading

leoalenc commented Jun 20, 2018

leoalenc commented Jun 20, 2018

odanoburu commented Jun 25, 2018

leoalenc commented Jun 25, 2018

odanoburu commented Jun 25, 2018

arademaker commented Jun 25, 2018

odanoburu commented Jun 25, 2018

leoalenc commented Jun 28, 2018

leoalenc commented Jun 28, 2018

leoalenc commented Jun 28, 2018

leoalenc commented Jul 2, 2018

leoalenc commented Jul 2, 2018

odanoburu commented Jul 3, 2018

leoalenc commented Jul 4, 2018

leoalenc commented Jul 4, 2018

leoalenc commented Jul 4, 2018

odanoburu commented Jul 4, 2018

leoalenc commented Jul 4, 2018

odanoburu commented Jul 4, 2018 via email

leoalenc commented Jul 4, 2018

leoalenc commented Jul 9, 2018

odanoburu commented May 10, 2018 •

edited

Loading