-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
write sources -> MBR script #53
Comments
- add splitting of `W31` in delaf - add script for freeling - update upstream-problems.org
@odanoburu Concordo! |
@odanoburu Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo. |
podemos fazer, mas acho que não precisa, já que vamos converter para MBR logo em seguida! (e além disso, não há como o computador confundir os dois, já que não são da mesma classe..) @leoalenc nos scripts de correção só falta corrigir a falta de itens. a gente já começou esse trabalho, mas vc acha que é melhor seguir corrigindo ou fazer um script que gera as formas corretamente e depois remover as erradas com base em tags duplicadas? |
@odanoburu acho melhor seguir na estratégia que já estamos utilizando, ou seja, corrigir substituindo logo as formas erradas pelas corretas. Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta. |
ok!
concordo, só pensei nisso pq limitaria isso aos verbos marcados pela presença de clíticos.. |
Acho que seja lá o que está sendo feito aqui ainda precisa ficar mais claro objetivo. Teremos este script como ponto de partida apenas certo? Dados originais - este script - expansões do Leonel via FST - deduplicacoes - final E isso ? |
sim! dados originais - script -> dados corrigidos |
Eu imagino que o fluxo de operações para gerar o recurso final está assim: |
Eu imagino que o fluxo de operações para gerar o recurso final está assim: Número dois: conversão para o nosso formato (Veja meu programa linguagem piton; parece que temos pelo menos 2 possibilidades de fazer isso, com o meu programa e com programa do Número três: anotação dos clíticos (veja meu programa em linguagem piton) Número quatro: expansões por meio da morfologia de estados finitos |
escrito -> script no comentário acima |
@odanoburu Eu incluí no script de preparação do dicionário de São Carlos, na pipeline de correção dos verbos com pronomes clíticos, o meu programa em linguagem piton para separação de formas verbais e pronomes clíticos. |
@leoalenc estou trabalhando em https://github.com/LFG-PTBR/MorphoBr/tree/i53 já avancei bastante, falta acertar detalhes de paths e testar. quando estiver pronto, vou fazer um PR. fica o convite pra vc já ir pensando no script que incrementa os dicionários com o FST. |
@odanoburu muito bom! Dei uma olhada no código, se eu não me engano, falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos. Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos". Aquele meu programa em linguagem piton tem uma função que permite resolver essa ambiguidade. Sim, vou preparar script para integrar no dicionário as formas criadas pelos autômatos de estados finitos. Mas antes precisamos resolver essas pendências. |
Na verdade, este programa em linguagem piton faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os climáticos. |
@odanoburu Na verdade, este programa em linguagem piton já faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os clíticos: tools/python-tools/AnnotateClitics.py |
sim! eu considerei elas adições feitas por XFST, já que é falta de cobertura do recurso, e não um erro de sintaxe das entradas..
não lida, mas eu estou usando o seu agora! ainda vou deletar o meu. |
@odanoburu Falta script para resolver isto: filling of systematic gaps (missing tense forms): https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org |
sim @leoalenc. mas vc diz que falta nesse script de correção dos dados
upstream, ou que ele não existe? vc já implementou isso, certo? nesse caso,
eu julgo ser melhor colocar isso na fase seguinte da pipeline que
estabelecemos.
…On Wed, Jul 4, 2018, 14:41 Leonel Figueiredo de Alencar < ***@***.***> wrote:
@odanoburu <https://github.com/odanoburu> Falta script para resolver isto:
filling of systematic gaps (missing tense forms):
the paradigms of the 1st verb conjugation systematically lacks the 3rd
person singular forms of two tenses: the imperfect indicative (all forms
missing) and the plusperfect (all but 5 forms missing). These forms are
identical to the corresponding ones of the 1st person. There seems to be no
reason for these gaps, since the analog forms of the 2nd conjugation are
present. These missing forms were included in MophoBr.
2nd verb conjugation sistematically lacks SBJF 3 SG
https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#53 (comment)>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/ASc3wx7Nl8ImpnQPPDMEbIe5NF7PQYI3ks5uDP5cgaJpZM4T6OQc>
.
|
@odanoburu Sim, já tinha implementado isso. Vou subir o script amanhã. |
Eu coloquei no ramo mestre, na pasta ferramentas, uma nova versão do script do @odanoburu, capaz de lidar com a mesóclise bem como a ambiguidade do pronome "nos". Esse script, na verdade, é redundante em relação ao módulo análogo que elaborei em linguagem piton, o qual está na pasta ferramentas em linguagem piton. |
como discutido em #48 , é interessante termos um script que pegue nossas fontes originais e apliquem todas as modificações/correções/conversões necessárias para obtermos o MorphoBr. assim disponibilizamos um recurso de fácil reprodução, e quando introduzirmos erros percebidos tardiamente (quando modificações posteriores já os propagaram), só precisamos de alterar esse script para consertar o problema.
estou me baseando na lista de problemas dos recursos-fonte para escrever os scripts.
The text was updated successfully, but these errors were encountered: