Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
andres-lou committed Nov 26, 2023
1 parent abbb177 commit 1b46630
Show file tree
Hide file tree
Showing 5 changed files with 186 additions and 8 deletions.
2 changes: 1 addition & 1 deletion .github/workflows/ci.yml
Original file line number Diff line number Diff line change
Expand Up @@ -22,4 +22,4 @@ jobs:
restore-keys: |
mkdocs-material-
- run: pip install mkdocs-windmill
- run: mkdocs gh-deploy --force
- run: mkdocs gh-deploy --force
35 changes: 35 additions & 0 deletions docs/flores.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,35 @@
# FLORES-Mayas

## Qué es un FLORES

Los datasets [FLORES-101](https://arxiv.org/abs/2106.03193) y [FLORES-200](https://arxiv.org/pdf/2207.04672.pdf), (probablemente un acrónimo de *Focus on Low Resources*; en ningún lugar se aclara de manera explícita) son una iniciativa llevada a cabo por el equipo de Inteligencia Artificial de Meta que busca enfocarse en la evaluación de sistemas de TAN multilingüe de lenguas de infrarrepresentadas o de escasos recursos.

<!-- > In this work, we introduce the Flores-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia and covering a variety of different topics and domains. These sentences have been translated in 101 languages by professional translators through a carefully controlled process. The resulting dataset enables better assessment of model quality on the long tail of low-resource languages, including the evaluation of many-to-many multilingual translation systems, as all translations are fully aligned. -->

Nuestros objetivo es construir un dataset para la evaluación de sistemas de TAN de lenguas mayas siguiendo los mismos métodos que se utilizaron para construir los FLORES. A este dataset los llamaremos FLORES-Mayas.

## En qué consiste un FLORES

Los FLORES consisten en una selección de aproximadamente 3 000 oraciones tomadas de Wikipedia en inglés, abarcando varias temáticas, las cuales son traducidas a las distintas lenguas objetivo, con el propósito de crear un corpus paralelo entre estas. El artículo de FLORES-101 entra en más detalle pero, en resumen, el dataset se divide en tres fracciones de aproximadamente 1 000 oraciones cada una, denominadas `dev`, `devtest`, `test`, de las cuales las primeras dos han sido publicadas ([aquí](https://github.com/facebookresearch/flores/blob/main/flores200/README.md#flores-101) para FLORES-101 y [aquí](https://github.com/facebookresearch/flores/blob/main/flores200/README.md#download))[^1].

[^1]: Del artículo: “The primary motivation for keeping the test set available only through an evaluation server is to guarantee equivalent assessment of models and reduce overfitting to the test set. Further, as the dataset is many-to-many, if the source sentences are released, the target sentences would also be released”.

## Cómo se construye un FLORES

La construcción de un FLORES conlleva una serie de pasos con el propósito de asegurar su calidad como recurso de procesamiento de lenguaje natural (PLN). En nuestro caso, este control de calidad (QA) es de especial importancia debido a la escasez de recursos en el campo; FLORES se convertirá en una cota de referencia (una _benchmark_) que podrá utilizarse para cualquier futuro esfuerzo de TAN de las lenguas mayas por parte de cualquier otro equipo de investigación.

### Traducción desde el español
Puesto que es improbable que los traductores de lenguas mayas tengan un dominio fluido del inglés (o por lo menos comparable al que tuvieran del español), y para mantenerse en paralelo con los corpora de los FLORES, nuestras tareas de traducción se darán no desde las oraciones en inglés de Wikipedia sino desde sus respectivas traducciones al español. Estamos al tanto del fenómeno del *translationese*, [es decir](https://aclanthology.org/W19-5208.pdf):

> In a nutshell, compared to original texts, translations tend to be simpler, more standardised, and more explicit and they retain some characteristics that pertain to the source language.
Sin embargo, creemos que los efectos del *translationese* son menos importantes que la posibilidad de trabajar con las lenguas mayas en paralelo con otras lenguas de escasos recursos del mundo. Si eligiéramos trabajar desde los textos originales en inglés, nos expondríamos a tiempos de procesamiento mucho más prolongados y a traducciones de inferior calidad.

### Selección de proveedores de servicios lingüísticos
Tanto FLORES-101 como FLORES-200 hablan de los llamados *Language Service Providers* (LSP) como las entidades encargadas de las traducciones y sus correspondientes controles de calidad. Tomando en cuenta nuestro escenario, es probable que nuestros LSP sean a traductores individuales para cada una de las lenguas en las que nos enfoquemos. Necesitamos un mínimo de dos traductores por lengua, uno para traducir y el otro para QA, aunque idealmente querríamos tres, con tal de seguir más de cerca el método de los FLORES, el cual estipula que dos LSP se encarguen de la traducción y uno del control de calidad.

### Las lenguas de la tarea
A pesar que nuestro objetivo sería la inclusión de todas las lenguas mayas reconocidas, como primera fase, comenzaríamos con las cinco lenguas mayas más habladas del páis: qʼeqchiʼ, kʼicheʼ, mam, kaqchikel, y chʼol. Como proyecto piloto, comenzaríamos con kʼicheʼ o qʼeqchiʼ, dependiendo del personal que lográramos contactar.

<!-- #### Nota sobre la ortografía
Es muy importante notar que el carácter que denota consonantes implosivas en las lenguas mayas, `ʼ`, es el MODIFIER LETTER APOSTROPHE ([pag 2](https://www.unicode.org/charts/PDF/U02B0.pdf)), cuyo código es `U+02BC`, y no el APOSTROPHE, `'`, ni el RIGHT SINGLE QUOTATION MARK, `’`, cuyos códigos son respectivamente `U+0027` y `U+2019`. A pesar de ser tipográficamente muy similares y hasta indistinguibles, la distinción es vital cuando se trata de segmentación a nivel de carácter; en las lenguas mayas, el apóstrofo unido a una consonante es un dígrafo que denota una fonema distinguible, y no una contracción, como ocurre en el caso del inglés (eg *don't*) o una elisión, como ocurre en el francés (eg *l'île*). -->
14 changes: 13 additions & 1 deletion docs/style.css
Original file line number Diff line number Diff line change
Expand Up @@ -7,9 +7,21 @@
}

.wm-toc-li.wm-toc-lev1.wm-current.wm-page-toc-opener.wm-page-toc-open {
font-size: 20px ;
font-size: 15px ;
}

.wm-toc-li.wm-toc-lev1 {
font-size: 15px ;
}

p {
font-size: 20px ;
}

.container-fluid.wm-page-content {
font-size: 10px;
}

ul {
font-size: 20px ;
}
136 changes: 132 additions & 4 deletions docs/textos.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,12 +8,140 @@ Los textos paralelos son necesarios para los sistemas modernos de TAN porque, pa

## Los vocabularios

Llamamos __vocabularios__ al conjunto de documentos en varios idiomas mayas, publicados en su mayoría por la Academia de Lenguas Mayas de Guatemala (ALMG), con excepción del tzeltal, que consisten en listados voces en la lengua maya y el español y ejemplos del uso de cada una de estas. El siguiente es un ejemplo de una entrada en el vocabulario mam:
Publicados por la Academia de Lenguas Mayas de Guatemala (ALMG), con la excepción del tzeltal, cada uno de los __vocabularios__ consiste en un listado de voces en una lengua maya, oraciones que ejemplifican sus usos, y sus correspondientes traducciones al español. El siguiente es un ejemplo de una entrada en el vocabulario mam:

![Ejemplo de entrada en el vocabulario mam](assets/vocab_qeqchi.png)

Los vocabularios son un recurso muy valioso pues, además de tratarse de una colección de varios miles de frases en paralelo en diversas lenguas mayas, el registro lingüístico que utilizan corresponde al del uso más frecuente de los hablantes de cada comunidad lingüística.
Los vocabularios son un recurso invaluable pues, además de tratarse de una colección de varios miles de frases en paralelo en diversas lenguas mayas, el registro lingüístico que utilizan corresponde al del uso más frecuente de los hablantes de cada comunidad lingüística.

La extracción original de los vocabularios mayas, publicados por la ALMG en formato pdf de texto, fue llevada a cabo utilizando [`pdfplumber`](https://github.com/jsvine/pdfplumber) y mucha paciencia.
La extracción original de los vocabularios mayas, publicados por la ALMG en formato pdf de texto, fue llevada a cabo utilizando [`pdfplumber`](https://github.com/jsvine/pdfplumber).

La ALMG ha publicado muchos más textos mono y bilingües que con los que contamos actualmente. A continuación un listado de los documentos de los que podríamos extraer textos paralelos (omito los textos que no contienen más que listados de palabras aisladas):
La ALMG ha publicado muchos más textos mono y bilingües que con los que contamos actualmente. A continuación un listado de los documentos de los que podríamos extraer textos paralelos:

#### Achi

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/09/VOCABULARIO.pdf)
- [Sinónimos](https://www.almg.org.gt/wp-content/uploads/2020/09/SINONIMOS.pdf)
- [Compendio de leyes](https://www.almg.org.gt/wp-content/uploads/2020/09/COMPENDIO-DE-LEYES.pdf)\*
- [Constitución de la república](https://www.almg.org.gt/wp-content/uploads/2020/09/CONSTITUCI%C3%93N-POL%C3%8DTICA-DE-LA-REP%C3%9ABLICA-DE-G..pdf)\*

#### Akateko

- [Expresiones](https://www.almg.org.gt/wp-content/uploads/2020/09/EXPRESIONES.pdf?__cf_chl_tk=xurSsxfHtKKkupKqUp7TMbnHzzu7x7LjeBKHDDcIWJI-1693406204-0-gaNycGzNDPs)\*
- [Popol Wu](https://www.almg.org.gt/wp-content/uploads/2023/05/Popol-Wu-Akateko.pdf)\*
- [Compendio de literatura](https://www.almg.org.gt/wp-content/uploads/2020/09/COMPENDIO-DE-LITERATURA-KUKUY-AKATEKA.pdf)\*

#### Awakateko

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/09/VOCABULARIO-1.pdf)
- [Vocabulario ilustrado](https://www.almg.org.gt/wp-content/uploads/2020/09/VOCABULARIO-ILUSTRADO-PEDAG%C3%93GICO.pdf).\*
- [Plantas Medicinales](https://www.almg.org.gt/wp-content/uploads/2020/09/PLANTAS-MEDICIONALES.pdf)\*
- [Lectura infantil](https://www.almg.org.gt/wp-content/uploads/2020/09/LITERATURA-INFANTIL.pdf)
- [Lectura infantil 2](https://www.almg.org.gt/wp-content/uploads/2020/09/LITERATURA-INFANTIL-VOLUMEN-No.-2.pdf)
- [Numeración](https://www.almg.org.gt/wp-content/uploads/2020/09/NUMERACI%C3%93N.pdf)

#### Ch'orti'

- [Vocabulario pedagógico](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-PEDAG%C3%93GICO-DEL-IDIOMA-CH_ORTI_.pdf)
- [Ley de idiomas mayas y su reglamento](https://www.almg.org.gt/wp-content/uploads/2020/10/LEY-DE-IDIOMAS-NACIONALES-Y-SU-REGLAMENTO.pdf)
- [Ley de catastro](https://www.almg.org.gt/wp-content/uploads/2020/10/LEY-DE-CATASTRO.pdf)
- [Ley de información pública](https://www.almg.org.gt/wp-content/uploads/2020/10/INFORMACION-PUBLICA.pdf)
- [Literatura](https://www.almg.org.gt/wp-content/uploads/2020/09/LITERATURA-BILINGUE-FINAL.pdf)

#### Chuj

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO.pdf)

#### Itza'

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-ITZA_.pdf)
- [Vocabulario pedagógico](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-PEDAG%C3%93GICO-ITZA_-FINAL.pdf)
- [Neologismos](https://www.almg.org.gt/wp-content/uploads/2020/10/NEOLOGISMOS.pdf)
- [Ley de idiomas mayas y su reglamento](https://www.almg.org.gt/wp-content/uploads/2020/10/TRADUCCI%C3%93N-19-2003.pdf)\*
- [Ley contra la violencia sexual, explotación y trata de personas](https://www.almg.org.gt/wp-content/uploads/2020/10/LEY-CONTRA-LA-VIOLENCIA-SEXUAL-EXPLOTACI%C3%93N-Y-TRATA-DE-PERSONAS.pdf)\*
- [Ley contra el femicidio y otras formas de violencia contra la mujer](https://www.almg.org.gt/wp-content/uploads/2020/10/TRADUCCI%C3%93N-DEL-DECRETO-22-2008.pdf)\*
- [Acuerdo de identidad de los pueblos indígenas](https://www.almg.org.gt/wp-content/uploads/2020/10/TRADUCCI%C3%93N-ACUERDO-SOBRE-IDENTIDAD-Y-DD-DE-LOS-PUEBLOS-IND%C3%8DGENAS.pdf)\*

#### Ixil

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-1.pdf)
- [Textos literarios](https://www.almg.org.gt/wp-content/uploads/2020/10/LITERATURA.pdf)\*

#### Jakalteco/Popti

- [Vocabulario pedagógico](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-PEDAG%C3%93GICO.pdf)
- [Ley contra el femicidio y otras formas de la violencia contra la mujer](https://www.almg.org.gt/wp-content/uploads/2020/10/LEY-CONTRA-EL-FEMICIDIO.pdf)
- [Ley de simplificación de requisitos y trámites administrativos](https://www.almg.org.gt/wp-content/uploads/2020/10/LEY-DE-ACCESO.pdf)
- [Diccionario\*](https://www.almg.org.gt/wp-content/uploads/2020/10/ENTRADAS-DICCIONARIO-ESTANDAR.pdf)
- [Album infantil](https://www.almg.org.gt/wp-content/uploads/2020/10/TRADICI%C3%93N-ORAL-ALBUM-INFANTIL.pdf)\*

#### Kaqchikel

- [Ley de idiomas mayas y su reglamento](https://www.almg.org.gt/wp-content/uploads/2020/10/LEY-DE-IDIOMAS-NACIONALES.pdf)
- [Ley de simplificación de requisito y trámites administrativos](https://www.almg.org.gt/wp-content/uploads/2023/05/LEY-PARA-LA-SIMPLIFICACION-DE-REQUISITOS-Y-TRAMITES-ADMINISTRATIVOS-1.pdf)
- [Popol Wuj](https://www.almg.org.gt/wp-content/uploads/2023/05/Popol-Wuj-Kaqchikel.pdf)\*(pdf de imágenes)

#### K'iche'

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-2.pdf)
- [Vocabulario de sinónimos](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-DE-SIN%C3%93NIMOS.pdf)\*
- [Ley de simplificación de requisito y trámites administrativos](https://www.almg.org.gt/wp-content/uploads/2023/05/LEY-PARA-LA-SIMPLIFICACION-DE-REQUISITOS-Y-TRAMITES-ADMINISTRATIVOS-1.pdf)

#### Mam

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-3.pdf)
- [Diccionario de sinónimos](https://www.almg.org.gt/wp-content/uploads/2020/10/DICCIONARIO-DE-SIN%C3%93NIMOS-1.pdf)\*
- [Ley de simplificación de requisito y trámites administrativos](https://www.almg.org.gt/wp-content/uploads/2023/05/LEY-PARA-LA-SIMPLIFICACION-DE-REQUISITOS-Y-TRAMITES-ADMINISTRATIVOS-1.pdf)
- [Diccionario bilingüe](https://www.almg.org.gt/wp-content/uploads/2020/10/DICCIONARIO-MAM-COLIMAM.pdf)
- [Popol U'j](https://www.almg.org.gt/wp-content/uploads/2023/05/Pop-Uj-Mam-_-ALMG.pdf)\*(pdf de imágenes)
- [Numeración maya](https://www.almg.org.gt/wp-content/uploads/2020/10/NUMERACI%C3%93N-MAYA.pdf)

#### Mopan

- [Ley mopan](https://www.almg.org.gt/wp-content/uploads/2020/10/22-2008-Ley-Mopan.pdf)\*
- [Código municipal](https://www.almg.org.gt/wp-content/uploads/2020/10/TRADUCCION-CODIGO-MUNICIPAL.pdf)\*
- [Ley de consejos de desarrollo urbano y rural](https://www.almg.org.gt/wp-content/uploads/2020/10/TRADUCCION-LEY-DE-CONSEJOS-DE-DESARROLLO-URBANO-Y-RURAL.pdf)\*

#### Poqomam

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/DICCIONARIO-POQOM-ESPA%C3%91OL-2019.pdf)

#### Poqomchi

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-4.pdf)
- [Ley de idiomas mayas y su reglamento](https://www.almg.org.gt/wp-content/uploads/2020/10/LEY-DE-IDIOMAS-NACIONALES-1.pdf)
- [Diccionario bilingüe](https://www.almg.org.gt/wp-content/uploads/2020/10/DICCIONARIO-2003.pdf)
- [Lectura](https://www.almg.org.gt/wp-content/uploads/2020/10/ILHUJB_AL-POQOMCHI_-TEXTO-LECTURA.pdf)\*

#### Q'anjob'al

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-5.pdf)

#### Q'eqchi'

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-6.pdf)
- [Ley de simplificación de requisito y trámites administrativos](https://www.almg.org.gt/wp-content/uploads/2023/05/LEY-PARA-LA-SIMPLIFICACION-DE-REQUISITOS-Y-TRAMITES-ADMINISTRATIVOS-1.pdf)
- [Poopol Hu](https://www.almg.org.gt/wp-content/uploads/2023/05/Popol-Wj-Infantil-Qeqchi.pdf)\*

#### Sakapulteko

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-7.pdf) (pdf de imágenes)

#### Sipakapense

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-8.pdf)

#### Tektiteko

- [Diccionario bilingüe](https://www.almg.org.gt/wp-content/uploads/2020/10/DICCIONARIO-BILINGUE-TEKTITEKO.pdf)

#### Tz'utujil

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-9.pdf)

#### Uspanteko

- [Vocabulario](https://www.almg.org.gt/wp-content/uploads/2020/10/VOCABULARIO-10.pdf)
- [Popol Wuuj](https://www.almg.org.gt/wp-content/uploads/2023/05/Popol-Wuj-Uspanteka.pdf)\*

\*<small>denota texto mayormente monolingüe.</small>
7 changes: 5 additions & 2 deletions mkdocs.yml
Original file line number Diff line number Diff line change
@@ -1,10 +1,13 @@
site_name: Saqil Tzij
nav:
- Inicio: index.md
- Textos paralelos: textos.md
- JW: jw.md
- Vocabularios y textos paralelos: textos.md
- JW Crawler: jw.md
- FLORES-Mayas: flores.md
- Sobre el proyecto: about.md
theme:
name: windmill
extra_css:
- style.css
markdown_extensions:
- footnotes

0 comments on commit 1b46630

Please sign in to comment.