Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

novos lemas verbais do dhbb #74

Open
arademaker opened this issue Apr 24, 2020 · 6 comments
Open

novos lemas verbais do dhbb #74

arademaker opened this issue Apr 24, 2020 · 6 comments

Comments

@arademaker
Copy link
Contributor

@lucasrct , pode apontar aqui para script e listas que vc produziu de possíveis verbos faltando no MorphoBr?

@lucasrct
Copy link
Contributor

Eu não produzi uma lista específica dos possíveis verbos que não constam no MorphoBr, os que encontrei, foi olhando mesmo.... teve o "zerar" que de fato não existe no morphoBr e o "freqüentar" (com trema) que existe no morphoBr mas sem a trema, então não está de fato faltando.

@arademaker
Copy link
Contributor Author

Bem, não temos zerar e freqüentar no MorphoBr, isto é fato.

O que Lucas fez foi rodar https://github.com/cpdoc/dhbb-nlp/blob/master/udp/not_in_morpho.sh e obter esta lista https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs.not_in_morpho!

Mas UDPipe comete errors como

# text = Batiam-se pelo intervencionismo governamental nos assuntos econômicos, com ênfase nas questões financeiras e nos problemas suscitados pela crescente importância dos transportes ferroviários.
1-2     Batiam-se       _       _       _       _       _       _       _       _
1       Batiam  Batir   VERB    _       Mood=Ind|Number=Plur|Person=3|Tense=Imp|VerbForm=Fin    0       root ...

Ou seja, ele errou o lema de Batiam e ao invés de bater lematizou para batir. Note @lucasrct que tirei o seu downcase do script, não lematizar para minusculas é outro erro de UDPipe e não queremos mascarar né?

@arademaker
Copy link
Contributor Author

arademaker commented Apr 28, 2020

OK. Melhorei um pouco o script do comentário acima. Gerei dois arquivos, um que os dados dhbb de verbos são comparados por lemma com o morphobr, e outro onde são comparados por forma flexionada.

  1. https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-form.tsv
  2. https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-lemma.tsv

@vcvpaiva
Copy link

hmm, nao entendi o que aconteceu com downcasing do script. porque de 9.3K casos em
https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-lemma.tsv
quase 2K (1870) sao de verbos que estao uppercase ne?

@arademaker
Copy link
Contributor Author

Correto, erros de lemmatização do UDPipe, por isso o by-form.

@vcvpaiva
Copy link

vcvpaiva commented Apr 29, 2020

erros de lemmatização do UDPipe, por isso o by-form

mas isso nao ajuda, nao e'? o que a gente quer (eu suponho) e' descobrir lemas que realmente estao faltando no Morpho. exemplos como "frequentar" com trema sao faceis de corrigir (vc pode simplesmente grep os verbos com "qu" e adicionar a forma com trema (que acho agora esta' errada, ms estava correta ate o ultimo acordo BR-PT). o que 'e interessante 'e descobrir exemplos como "zerar" que esta' no wiktionary (https://en.wiktionary.org/wiki/zerar) e tb no OWN-PT http://wn.mybluemix.net/synset?id=00297507-v

@arademaker arademaker added this to the pre-release 1.0.0 milestone Sep 30, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants