-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
lemma of "comparatives" #28
Comments
I disagree @livyreal . if we lose the information that "melhor" is a comparative of "bom" we will have difficulties when dealing with comparatives. We have done nothing of this sort yet, but throwing away this kind of information is not sensible. (I am not saying we need always to transform stuff in comparatives, hence the two possibilities, but losing the info is no good.) |
@vcvpaiva, I got your point, but 2 lemmas is weird. |
@claudiafreitas post processing of some sort would work for me, but just changing the lemma seems to me the wrong thing to do. and I don't know about the size of the problem, haven't done much work on that, but comparatives are logically important and difficult! |
@claudiafreitas we are thinking now more on correcting UD 7.5 version, so yes, it implies changes in PALAVRAS annotation. Dealing with it in Freeling is much easier, we just need to change it in the dictionary. But we are postponing this work for now and looking to what should be the better "Bosque" version that we can get. After it, we think on Freeling conversion. We have two different tasks and choices on them could be different. So let's think on Bosque. What we prefer to have in Bosque? I agree with @vcvpaiva that having this information encoded is (logically) important, but my point is closer to Claudia's point. Those words, as "melhor", "pior", are more often used as simple adjectives. Maybe the better way to deal with comparatives in Portuguese would be looking to the syntactic structure they appear ("melhor do que", "pior que", etc"). We hope (and this is why we are putting so much effort on this project) many information (including semantic information) could arise from dependency relations. And I think we have comparative adjectives in Portuguese only when we have some sort of syntactic structure doing it (maybe it is a very strong statement, but it's my feeling now). Different from Latin (or even English) in which this information is encoded in the lexical form itself. Let's see some examples from English: He is the best! We have one single lexical item in PT, melhor. When we want to say "better" in Portuguese, we need to use a syntactic structure to it (or a contextual information! I love context and you know I'm a big fan of DRT, but let's consider the step we are in NLP and not in linguist theory :( ), so the comparative information is not in the lexical item itself. What do you think? Am I going to far with my lexical semantics? Valeria what you can add in this English discussion? For sure you know much better than me. |
@livyreal He is the better teacher/player/musician. you need to be able to infer that there are two teachers/players/musicians being talked about, right? |
acho que estas discussões estão meio perdidas. Acho que uma forma pode ser lematizada para outra desde que a informação seja preservada na POS tag e features. De fato não podemos perder informação. @vcvpaiva não acho que 'both' é opção, estamos anotando um corpus, um token não poderá ter duas anotações. Se a decisão do corpus irá precisar ser depois refletida em como queremos que as ferramentas se comportem. Ter no dict do freeling dois pares (lema,POS tag) para uma mesma forma é possivel, se necessário, e neste caso o contexto é que irá ajudar a resolver a melhor opção. @claudiafreitas a questão aqui é a anotação, nossa prioridade. Sobre perda de informação, se 'melhor' for lematizado para 'bom' mas a informação for transferida para a tag de POS e features, não vejo problema. @livyreal a mudança no PALAVRAS e Freeling imagino ser a mesma, o léxico de ambos terão que ser mudados. Posso estar enganado por não conhecer os detalhes da implementação do PALAVRAS, mas acho que a lematização e POS funcionam guidas por um léxico em ambos. A forma de desambiguar é que é diferente. Ou seja, uma coisa é o sistema capturar para cada forma a possível POS e lemma, depois é decidir qual das opções é melhor no contexto.
Neste caso, o que vcs estão querendo é dizer que podemos marcar como adj superlativo/comparativo quando for o caso com lemas adequados? |
@livyreal voltei agora na tese do @EckhardBick ! Me parece (vide página 9 do livro dele) que o processo de busca no dict é bem semelhante ao freeling. Para uma data form, o dicionário irá conter as regras de flexão e afixos e o módulo PALMORF é responsável por recuperar o dicionário as opções de pares (POS, lema) para cada wordform. A coisa é um pouco mais complicada porque outras coisas precisam ser consideradas, como expressões multi palavras, mas é basicamente a idéia de que o dict irá conter as opções de pares. |
one more case:
in "Eles tiveram que fazer isso se os escravos fossem superiores em qualidades que os próprios brancos valorizavam, onde estaria a justificativa moral para mantê-los escravizados?" ref="CF27-4" it does not seems that "superiores" is the comparative of "alto". |
Related to #219 de qq modo, penso que a lematização de copiado do #304 |
Em UniversalDependencies/docs#889, concordei em considerar que no PT temos os comparativos marcados por processos sintáticos apenas. Documentação em https://universaldependencies.org/pt/feat/Degree.html. Basicamente, só temos agora os valores Abs, Dim e Aug para Degree. Esta decisão é compatível com as discussões acima de desconsiderar os comparativos de superioridade anômalos (Nova Gramática do português contemporâneo, Cunha e Cintra, 7 edição, página 274).
Mas o que fazer quanto aos superlativos absolutos anômalos: ótimo, péssimo, máximo, mínimo? Para estes, ainda podemos usar Degree=Abs. Destes, apenas ótimo ainda não normalizei o lemma para ótimo, e hoje são os únicos casos marcados com Degree=Abs. E ainda temos vários casos de superlativos absolutos sintéticos que não estão marcados e lematizados corretamente:
Também aproveitei para remover entradas de LR-POR/MorphoBr@e5b6aef |
also related to errors introduced by the change in the validation given that Cmp was removed as a value of Degree
"maior", "melhor" and "ótimo" in Freeling dictionary have lemmas "maior", "melhor" and "ótimo". We have discussed it before ( @fcbr, @arademaker and me) and decided that not always these adjectives are used as comparatives (specially "ótimo" and we decided that having an uniform treatment would be the better choice), so the best way to tag them would be keep themselves as lemmas.
In Bosque [1,2](what comes from PALAVRAS), the lemmas of these words are: "grande", "bom" and "bom".
The same situation for "péssimo", "pior" and "menor". (except by "péssimo" whose Freeling lemma is "mau", but it something that I should have corrected before but I didn't).
What solution should we take now?
I prefer to keep the lemmas as the word themselves, maior maior; ótimo ótimo, etc. Mainly because I do not think this relations really exist nowadays, it is something from Latin grammar that survived in traditional grammar. It seems to me "horrível", "terrível", "horroroso" are so related to "mau" as "péssimo" is.
For reference:
The text was updated successfully, but these errors were encountered: