Skip to content

Commit

Permalink
Merge pull request #343 from sbosio/separador-tex
Browse files Browse the repository at this point in the history
Separador basado en tex-hyphen-spanish
  • Loading branch information
cosmoscalibur authored Dec 30, 2024
2 parents 2450881 + e783f93 commit a44f867
Show file tree
Hide file tree
Showing 11 changed files with 6,229 additions and 9,285 deletions.
1 change: 0 additions & 1 deletion .gitignore
Original file line number Diff line number Diff line change
Expand Up @@ -5,5 +5,4 @@
.vscode
.zed
productos/
.versiones.cfg
contrib/
5 changes: 2 additions & 3 deletions .versiones.cfg-EJEMPLO → .versiones.cfg
Original file line number Diff line number Diff line change
@@ -1,14 +1,13 @@
# asignación de variables en lenguaje shell de Bash
#
# CORRECTOR, versión de la edición actual del corrector ortográfico
CORRECTOR="2.5"
CORRECTOR="2.9"

# SEPARACION, versión de la edición actual del patrón de silabeo
SEPARACION="0.2"
SEPARACION="5.0"

# SINONIMOS, versión de la edición actual del patrón de silabeo
SINONIMOS="24/02/2013"

# LO_DICTIONARIES_GIT, ruta a la copia local de https://gerrit.libreoffice.org/admin/repos/dictionaries
LO_DICTIONARIES_GIT="/home/olea/git/libreoffice-dictionaries/"

Original file line number Diff line number Diff line change
Expand Up @@ -23,21 +23,23 @@ SUMARIO
inicialmente por Santiago Bosio; mediante el uso de la herramienta libre
"patgen" y datos de entrenamiento etiquetados manualmente.

Actualmente, se genera a partir del proyecto "tex-hyphen-spanish" de Javier
Bezos, adaptado por Edward Villegas.

2. LICENCIA

Este listado de patrones para separación silábica, integrado por el
fichero hyph_es_ANY.dic se distribuye bajo un triple esquema de licencias
fichero hyph_es.dic se distribuye bajo un triple esquema de licencias
disjuntas: GNU GPL versión 3 o posterior, GNU LGPL versión 3 o posterior, ó
MPL versión 1.1 o posterior. Puede seleccionar libremente bajo cuál de
estas licencias utilizará este diccionario. En el fichero LICENSE.md
encontrá más detalles.

3. COLABORACIÓN
encontrará más detalles.

Este diccionario es resultado del trabajo colaborativo de muchas personas.
La buena noticia es que ¡usted también puede participar!
El fichero retiene por obligación la licencia del fichero original para TeX,
disponible bajo licencia MIT, cuya transformación se distribuye como parte
del diccionario bajo el esquema de licenciamiento descrito.

¿Tiene dudas o sugerencias? ¿Desearía ver palabras agregadas, o que se
realizaran correcciones? Consulte las indicaciones técnicas publicadas en
CONTRIBUTING.md. Estaremos encantados de atenderle.
3. COLABORACIÓN

Puede reportar errores del separador directamente al proyecto
tex-hyphen-spanish.
25 changes: 12 additions & 13 deletions separacion/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,28 +9,27 @@ preparados para funcionar con la herramienta
modificada de los patrones para el [sistema de separación silábica
utilizado por _TeX_](http://www.tug.org/docs/liang/).

La biblioteca _Hyphen_ posee características avanzadas para dar soporte
La biblioteca _Hyphen_ posee características avanzadas para dar soporte
a la separación silábica de palabras compuestas y reglas no estándares,
además de admitir codificaciones de caracteres multibyte como _UTF-8_.

El listado de patrones de separación silábica ha sido generado por
El listado de patrones de separación silábica fue generado inicialmente por
Santiago Bosio, utilizando la herramienta
[_patgen_](https://linux.die.net/man/1/patgen), escrita inicialmente
por Frank Liang y basada en el algoritmo de Donald Knuth.

La herramienta __patgen__ produce un listado de patrones con el formato
_Tex_, procesando el fichero
[_entrenamiento.txt_](https://github.com/sbosio/rla-es/blob/master/separacion/entrenamiento.txt),
que contiene más de 8.000 lemas elegidos al azar del listado de palabras
del diccionario, y que han sido separados manualmente en sílabas, intentando
respetar las reglas y recomendaciones indicadas en el apartado referido a la
[utilización del guion como signo de división de palabras](http://lema.rae.es/dpd/srv/search?id=cvqPbpreSD6esL3ahc)
del Diccionario Panhispánico de Dudas.
por Frank Liang y basada en el algoritmo de Donald Knuth. A partir del
2024-12-27, se genera a partir de los patrones del proyecto
[tex-hyphen-spanish](https://github.com/jbezos/tex-hyphen-spanish/blob/master/tex/hyph-es.tex).

Finalmente, el listado en formato _Tex_ se procesa con la herramienta
[_substrings.pl_](https://github.com/hunspell/hyphen/blob/master/substrings.pl)
para producir el fichero con el formato correcto para _Hyphen_.

Para actualizar los patrones desde el proyecto "tex-hyphen-spanish", ejecute:

```
source build_hyph_dic.sh
```

Puede obtener más información sobre diccionarios de separación silábica
consultando
[este enlace](http://localization-guide.readthedocs.org/en/latest/guide/hyphenation.html).
[este enlace](https://localization-guide.readthedocs.org/en/latest/guide/hyphenation.html).
43 changes: 0 additions & 43 deletions separacion/README_hyph_es.txt

This file was deleted.

15 changes: 15 additions & 0 deletions separacion/build_hyph_dic.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1,15 @@
#!/usr/bin/bash

# Se usa como fuente los patrones para patgen de tex-hyphen-spanish
wget https://raw.githubusercontent.com/jbezos/tex-hyphen-spanish/refs/heads/master/tex/hyph-es.tex
# Se hace uso de `substrings.pl` de Hunspell para convertir a Libhnj
wget https://raw.githubusercontent.com/hunspell/hyphen/refs/heads/master/substrings.pl
perl substrings.pl hyph-es.tex hyph_es.dic
# Ajustes a `hyph_es.dic`
sed -i -e '/^}/d' -e '1s/^/UTF-8\nLEFTHYPHENMIN 2\nRIGHTHYPHENMIN 2\n/' hyph_es.dic
# Se remueven fuentes externas
rm hyph-es.tex substrings.pl
# Tests
sed '/^%/d' hyph_es.dic | tr '\n' ' ' | sed 's/UTF-8 LEFTHYPHENMIN 2 RIGHTHYPHENMIN 2 //g' > hyph_es_test.dic
python hyphenate.py
rm hyph_es_test.dic
Loading

0 comments on commit a44f867

Please sign in to comment.