Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Propuesta de nombres propios #265

Closed
pereelmagne opened this issue Jun 1, 2022 · 18 comments
Closed

Propuesta de nombres propios #265

pereelmagne opened this issue Jun 1, 2022 · 18 comments

Comments

@pereelmagne
Copy link

Pere Farrando

[email protected]

Propuesta de entradas para la extensión Hunspell de idioma español

Nombres propios

AENA (sin partición)
Alberto
Alcorcón
Alfredo
Alguer
Aleixandre
Amberes
Ampurdán
Ámsterdam (Áms-ter-dam, no Ám-ster-dam; Ortografía lengua española 2010, p405)
Aníbal
Arán
Arévalo
Atapuerca
Aurelia
Aurelio
Basilea
Bilbao
Bolshói (Bol-shói)
Bonaparte
Calígula
Caronte
Carlos
Castellblanch (Cas-tell-blanch, no Cas-te-ll-blanch)
Cerdeña
Citroën
Claudio
Clitemnestra
Coriolano
Córcega
Dalila
Damm
Demetrio
Delhi (Del-hi; Ortografía lengua española 2010, apartado f, p406-407)
Diocleciano
Domiciano
Dorotea
Dubrovnik
Dubái
Echegaray
Efraím
Egeo
Emporion
Enríquez
Escandinavia
Escobedo
Espartaco
Esopo
Everest
Ezequiel
Fedra
Feroe
Figueruelas
Finisterre
Flórez
Freud
Ginesa
Godoy
Granollers
Grandvalira
Guadiana
Guijuelo
Hollywood (Hol-ly-wood, según dicc. Merriam-Webster)
Händel
Ibiza
IRPF (sin partición, sigla de 'impuesto sobre la renta de las persona físicas')
Jimeno
Lavapiés
Lerroux
Liechtenstein (Liech-ten-stein según dicc. Pons; no Liec-h-tens-tein)
Llafranc
Machín
Majadahonda (Ma-ja-dahon-da; Ortografía lengua española 2010, apartado f, p406-407)
Marcela
Marcelo
Massachusetts (Mas-sa-chu-setts segun dicc. Merriam-Webster)
MOMA
Múnich
Numancia
Nuremberg
Ordóñez
Otelo
Otilia
Otón
Ovidio
PSOE
Renault
S’Agaró (S’A-ga-ró)
Safo
Sajonia
Seat
Shanghái (Shan-ghái, pronunciaciíon española; no Sha-n-ghái)
Sófocles
Springsteen (Spring-steen; segú Merriam-Webster, no Springs-teen)
Tarancón
Teide
Tijuana
Toulouse (Tou-louse según pronuncia francesa; no Tou-lou-se)Microsoft
Transilvania
Veracruz
Villoro
Vivaldi
Vic
Voll-Damm
Waterloo
Yucatán
Zúrich

@Pompilos
Copy link
Contributor

Hola. No sé cuál es el criterio para decidir qué nombres propios se añaden. Yo, por mi parte, añadiría estos 60, que incluyen títulos de libros del Antiguo Testamento (Deuteronomio), personajes (Ulises) y lugares muy importantes (Londres). Lo que no sé es cómo se indica al corrector la separación de sílabas, si es que se hace. ¿Los añado ya?

Abel, Alabama, Aladino, Amberes, Ámsterdam, Andrómeda, Belcebú, Bombay, Borbón, Boston, Cambridge, Canaán, Carlomagno, Caín, Chicago, Cleopatra, Constantinopla, Corfú, Damocles, Deuteronomio, Eclesiastés, Elba, Estambul, Euclides, Éufrates, Fidias, Ganges, Gomorra, Hamlet, Harvard, Himalaya, Isaías, Job, Jonás, Josué, Judea, Judit, Lombardía, Londres, Luciano, Malaquías, Mármara, Neptuno, Nínive, Orión, Oxford, Paracelso, Perseo, Persia, Prometeo, Sodoma, Sumatra, Tahití, Terranova, Texas, Tigris, Trafalgar, Ulises, Vitruvio.

@pereelmagne
Copy link
Author

Sobre la lista:
No veo ningún problema en los nombres que das. Solo ocurre que están mezclados topónimos con nombres de persona y de personajes literarios o de otro tipo. No pasa nada, pero al manejar grandes listas de palabras creo que es mejor estar organizado. Además, sería bueno tener fuentes abiertas, de dominio público, por ejemplo, nombres de ciudades de España, de Europa, de Argentina, etc. Esto permitiría enriquecer de golpe y de una forma más sistemática el corrector. Habría que saber si hay algún nomenclátor abierto que se pueda revisar y luego volcar.
Por ejemplo, he encontrado esta página donde se puede descargar el "Nomenclátor Geográfico Básico de España" en XML: https://datos.gob.es/es/catalogo/e0dat0002-nomenclator-geografico-basico-de-espana

Sobre las particiones:
En Hunspell, el verificador ortográfico y el motor de particiones van separados. El verificador consta de los ficheros ".aff" i ".dic", mientras que las particiones están en el fichero "hyph_es.dic". Por lo tanto, entiendo que un nombre propio puede ser reconocido, porque conste en el verificador, pero tener una partición incorrecta, porque el motor de particiones no la resuelve bien. Y viceversa, que el topónimo esté en el motor de particiones no quiere decir que sea reconocido por el verificador.
Las reglas de Hunspell se basan en la biblioteca "libhyph", pero en este tema no puedo decir nada, porque no soy programador.

@Pompilos
Copy link
Contributor

Pompilos commented Sep 19, 2023

Hola.

  1. Es cierto que sería mejor que los nombres propios se listaran en documentos diferentes para antropónimos, topónimos, etc., pero por ahora nadie ha propuesto hacerlo, y la lista actual se llama simplemente «Nombres propios». Tanto tú en tu primer mensaje como yo en el siguiente, nos limitamos a proponer ampliarla.

  2. Estaría bien contar con esas bases de datos de dominio público, pero les veo un problema no pequeño. Hablamos de nomenclátores geográficos, porque no creo que haya bases de datos de nombres propios o apellidos, por ejemplo, en los que conste la lengua a la que pertenecen: ¿diferenciarían un español González con tilde de un catalán/catalanizado Gonzalez sin tilde? Sobre los nomenclátores geográficos, tampoco hacen constar el idioma en el que están: contienen el nombre oficial, así que figuraría en ellos Bilbao, en español, junto a Hondarribia en vasco, en vez del español Fuenterrabía. En Wikipedia en español saben/sabemos el enorme problema que supone fijar la forma española de muchos topónimos de zonas bilingües. Si a eso añadimos los topónimos de Hispanoamérica, la tarea es inabarcable. La RAE hace un diccionario con, creo, unos 70.000 nombres comunes, pero nunca se ha atrevido a elaborar un diccionario de topónimos en español, que debería incluir cientos de miles o millones de nombres. Resumiendo, me inclino por dejar el archivo «Nombres propios» e ir añadiendo los más habituales que usuarios como tú y yo propongamos.
    Eso sí, siempre podemos añadir los topónimos incluidos en la Ortografía de la Real Academia (1999), sección «Topónimos cuya versión tradicional en castellano difiere de la original». Esta práctica es tan peliaguda, que la propia RAE ha eliminado este apartado de la Ortografía... de 2010. Además, habría resolver la duda de si esa lista es de dominio público o no.

  3. Sobre las particiones, no he entendido mucho de lo que dices.

Un saludo.

@cosmoscalibur
Copy link
Collaborator

Respecto al tema de listados de nombres propios, efectivamente en el proyecto los tenemos clasificados, y tienen contexto también regional.
Si topónimos, deben estar en el directorio toponimos, y allí acorde a lo que veo, la propuesta es para una inclusión general, entonces estarían en toponimos-mundo.txt . En el caso de nombres de personajes, esto sería en noRAE/NombresPropiosSiglas.txt, por ser contexto general. En el caso de aplicar alguno para el contexto regional, es revisar en los respectivos directorios en l10n.

@amunizp
Copy link

amunizp commented Sep 1, 2024

Hola @cosmoscalibur entonces con relación a los nombres propios de personas:

por ejemplo, en el caso de es_es están metidos todos lo para nombrs nombres de aquí?

https://ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177009&menu=resultados&idp=1254734710990

Y en el caso de es_CO están incluidos los de aquí?

https://www.idescat.cat/estad/ncp?lang=es

Si no es así, merecería hacer un PR con estos nombres o es mejor intentar connectarlo mediante un API que pueda existir?

@pereelmagne
Copy link
Author

Los nombres de pila listados por Idescat son en realidad multilingües, porque no se tiene en cuenta cuál es la primera lengua de la persona en cuestión. Por ejemplo, hay 214 casos de "Andy". Por lo tanto, no es una lista aprovechable.

@amunizp
Copy link

amunizp commented Sep 10, 2024

Son multilingües pero si yo vivo en Barcelona y mi vecino se llama "Andy" y hay 213 otros casos en cataluña, no crees que se debería de añadir? El pobre Andy tiene que pasar la vida actualizando su nombre como si fuese una errata?

Pero si creo una lista que viene de esta pero que filtra solo los que tienen una frecuencia de 500 por ejemplo?

Lo que quiero decir, si el nombre esta en una acta de nacimiento de un área geográfica no considero que sea una errata.

@pereelmagne
Copy link
Author

Es cierto: el objetivo es reducir los casos de incorrecciones innecesarias.

Para empezar, el hecho de que estos nombres lleven mayúscula inicial añade una primera capa de "identificación" o discriminación ('Martín' versus 'martín (pescador)', pájaro).

No soy experto en tomar estas decisiones, pero me pregunto si en ES vale la pena introducir formas como 'Martí' o 'Gerard'.

(Por cierto, yo creía que en Cataluña usábamos es_ES. No puede existir un es_CA, porque en la ISO 3166-1 alpha-2 el código CA corresponde a Canadá.)

@amunizp
Copy link

amunizp commented Sep 10, 2024

(Por cierto, yo creía que en Cataluña usábamos es_ES. No puede existir un es_CA, porque en la ISO 3166-1 alpha-2 el código CA corresponde a Canadá.)

Si. Es errata mia.

@cosmoscalibur
Copy link
Collaborator

@amunizp , desconozco si todos los nombres de dicha lista están en es_ES, en mi caso estoy al tanto es de las particularidades para es_CO.
Respecto a es_CAT, este caso no existe. Las especificaciones para L10N usan el código ISO 3166-1 alpha-2, no podemos simplemente inventar un código para una región. Y esto se basa en países.
Con los nombres no castellanizados no hemos tenido restricción en el proyecto, siempre y cuando se considere que sea un nombre de alta frecuencia o de alto uso (ejemplo, puede ser un nombre poco común, pero se usa recurrente en textos por ser de un personaje importante).

@amunizp
Copy link

amunizp commented Sep 11, 2024

gracias @cosmoscalibur corregí la errata y he actualizado el ejemplo para es_CO (para simplificar la conversación).

My interesante con lo de nombres de gente importante. ?Supongo que famosos también contará? Por ejemplo los raperos Orishas?

OK entonces siguiendo el ejemplo de es_CO debería crear un archivo txt llamado NombresPropiosSiglas.txt
ortografia/palabras/noRAE/l10n/es_CO/NombresPropiosSiglas.txt

ortografia/palabras/noRAE/l10n/es_ES/NombresPropiosSiglas.txt

También encontré los topónimos están en documentos separados: https://github.com/sbosio/rla-es/tree/master/ortografia/palabras/toponimos

He visto que las últimas modificaciones fueron hace 4 años por @olea

Por cierto, supongo que dará igual si hago una lista conjunta de Mujeres y Hombres (Si es que es adecuada la distinción para grámatica?)

Asi que propuesta A:

  1. creo un PR con NombresPropiosMujeres.txt y NombresPropiosHombres.txt https://ine.es/daco/daco42/nombyapel/nombres_por_edad_media.xlsx quizás NombresPropiosApellidos y lo meto en /noRAE/l10n/es_ES/
  2. miro la lista topónimos que compartió @pereelmagne y la contasto con la lista de https://github.com/sbosio/rla-es/tree/master/ortografia/palabras/toponimos y si faltan algunos lo propongo como PR.
  3. intentar encontrar algún sitio dónde vengan listadas las siglas y hacer lo mismo?

O propuesta B:

  1. Investigar API https://ine.es/dyngs/DataLab/manual.html?cid=45
  2. Crear un programa o servicio web que genere los txt y compare con los existentes para facilitar la vida al que venga detrás.

Supongo que hacer Propuesta A y quitarlo de en medio vendría mejor de momento. La propuesta B siempre se puede mirar luego?

@amunizp
Copy link

amunizp commented Sep 12, 2024

El INE no se responsabiliza de los resultados que los usuarios obtengan a partir de nuestros ficheros basados en sus propios cálculos. Además, toda persona que utilice ficheros del INE se compromete a citar, en cualquier publicación obtenida a partir de ellos, al INE como fuente del dato primario (fuente: INE, www.ine.es), así como a que el grado de exactitud o fiabilidad de la información derivada por elaboración propia de los autores es de la exclusiva responsabilidad de estos.

Tengo que citar INE como referencia pero datos son libres.

@nognkantoor
Copy link

No escribo en español.
A continuación, la traducción de Bing.

I don't write Spanish. Translation by Bing follows my English.
(I can read Spanish, and understand some spoken Spanish.)
(Reading the Bing translation, I am not convinced that Bing Translate is any better than my written Spanish.)

Following up on a Telegram thread. (#MyNameIsNotATypo #RightMyName)

Every country has a slightly different idea of what can be under copyright, and what can not be under copyright. In the United States, sweat of the brow content usually is not copyrightable. In Europe, it usually is. As a general rule, a list of names would be sweat of the brow in both Europe and the United States. However, only in Europe could that list be copyrightable.

A list of names, such as all of the named individuals in the Bible, would usually fall under Derivative Copyright, and hence copyrightable by the creator of the Bible translation that was used to create the list of names.

European governments tend to throw all work-product under copyright, and then give a list a conditions that must be met, to use the content without requesting further permission. In the United States, all work product created by the Federal Government, and most Federal Agencies is automatically in the Public Domain. Thus the list of names at https://www.ssa.gov/OACT/babynames/decades/century.html and https://www.ssa.gov/cgi-bin/namesbystate.cgi can be used without further permission. (Sorry, I don't have a URL for their list of surnames.)

Cada país tiene una idea ligeramente diferente de lo que puede estar bajo derechos de autor y lo que no puede estar bajo derechos de autor. En los Estados Unidos, el contenido del sudor de la frente generalmente no está sujeto a derechos de autor. En Europa, suele serlo. Como regla general, una lista de nombres sería un sudor de frente tanto en Europa como en Estados Unidos. Sin embargo, solo en Europa esa lista podría ser susceptible de derechos de autor.

Una lista de nombres, como todos los individuos nombrados en la Biblia, generalmente caería bajo derechos de autor derivados y, por lo tanto, susceptible de derechos de autor por el creador de la traducción de la Biblia que se utilizó para crear la lista de nombres.

Los gobiernos europeos tienden a poner todo el producto de trabajo bajo derechos de autor, y luego le dan a una lista una condición que debe cumplirse, para usar el contenido sin solicitar más permiso. En los Estados Unidos, todo el producto de trabajo creado por el gobierno federal y la mayoría de las agencias federales está automáticamente en el dominio público. Por lo tanto, la lista de nombres en https://www.ssa.gov/OACT/babynames/decades/century.html y https://www.ssa.gov/cgi-bin/namesbystate.cgi se puede utilizar sin más permiso. (Lo siento, no tengo una URL para su lista de apellidos.)

@cosmoscalibur
Copy link
Collaborator

@amunizp , es correcto, los topónimos no han tenido actualización hace 4 años, pero los topónimos de los países que poseen dichos listados, entiendo que en general, están listados de forma completa. Entonces no es que sean susceptibles a ser modificados en este lapso de tiempo probablemente. Al menos, el caso particular de Colombia, los topónimos los listé de los listados oficiales de la entidad encargada de estas definiciones. Ya lo específico que modificó Olea fue una reorganización de los archivos, y no de los lemas.
Respecto a los nombres propios, la idea en general es que con famosos o importantes se entienda que son de uso común. El ejemplo específico que das, no tengo contexto entonces no sabría indicarte, pues no sé si es que son muy mencionados en medios.
Respecto a separación de nombres propios masculinos y femeninos, eso no lo hacemos en el proyecto, pues el proyecto no posee manejo gramatical sino ortográfico. Van en conjunto en un archivo NombresPropiosSiglas.txt.
Respecto a los topónimos, importante validar contexto si puede ser general, o si es por país.
Respecto a siglas, es el mismo archivo NombresPropiosSiglas.txt en el cual se deben disponer, e igualmente dependiendo de si es de un país o de interés general.
La propuesta B sobre la API, estaría fuera del alcance de este proyecto, y sería más una utilidad personal en la forma que generas los listados. Pero eso es externo a este proyecto donde solo se recopilan los lemas.

@amunizp
Copy link

amunizp commented Sep 16, 2024

Me decanté por los 100 más fecuentes porque es dónde INE pasa de página con los apellidos. Si hay que arreglar algo estoy disponible.

@amunizp
Copy link

amunizp commented Sep 26, 2024

@RickieES siguiendo la conversación en #188 me he leído la wiki y sugiere que adjudique un milestone. No he sido capaz de asignarle milestone 2.9

Este pull request tiene definitivamente más de 10 palabras.

Pero al no ser una lista que se encuentra en DLE, ¿como puedo hacerlo más fácil para que se pruebe que estoy usando las palabras de INE y que no colé alguna barrabasada?

Mi sugerencia es que cree un Python script simple que extraiga la información y haga un diff. Los adim no tendría que revisar cada palabra solo unas líneas de código. ¿Si puedo lo en hago menos de 10?

@cosmoscalibur
Copy link
Collaborator

@amunizp , te he dejado una observación en el PR #328 (review)

@cosmoscalibur
Copy link
Collaborator

Dado que no hay criterios de la frecuencia en corpus o de uso actual, este reporte por su tamaño no es viable para validación. Se cierra.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants