-
Notifications
You must be signed in to change notification settings - Fork 49
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Propuesta de nombres propios #265
Comments
Hola. No sé cuál es el criterio para decidir qué nombres propios se añaden. Yo, por mi parte, añadiría estos 60, que incluyen títulos de libros del Antiguo Testamento (Deuteronomio), personajes (Ulises) y lugares muy importantes (Londres). Lo que no sé es cómo se indica al corrector la separación de sílabas, si es que se hace. ¿Los añado ya? Abel, Alabama, Aladino, Amberes, Ámsterdam, Andrómeda, Belcebú, Bombay, Borbón, Boston, Cambridge, Canaán, Carlomagno, Caín, Chicago, Cleopatra, Constantinopla, Corfú, Damocles, Deuteronomio, Eclesiastés, Elba, Estambul, Euclides, Éufrates, Fidias, Ganges, Gomorra, Hamlet, Harvard, Himalaya, Isaías, Job, Jonás, Josué, Judea, Judit, Lombardía, Londres, Luciano, Malaquías, Mármara, Neptuno, Nínive, Orión, Oxford, Paracelso, Perseo, Persia, Prometeo, Sodoma, Sumatra, Tahití, Terranova, Texas, Tigris, Trafalgar, Ulises, Vitruvio. |
Sobre la lista: Sobre las particiones: |
Hola.
Un saludo. |
Respecto al tema de listados de nombres propios, efectivamente en el proyecto los tenemos clasificados, y tienen contexto también regional. |
Hola @cosmoscalibur entonces con relación a los nombres propios de personas: por ejemplo, en el caso de es_es están metidos todos lo para nombrs nombres de aquí? Y en el caso de es_CO están incluidos los de aquí? https://www.idescat.cat/estad/ncp?lang=es Si no es así, merecería hacer un PR con estos nombres o es mejor intentar connectarlo mediante un API que pueda existir? |
Los nombres de pila listados por Idescat son en realidad multilingües, porque no se tiene en cuenta cuál es la primera lengua de la persona en cuestión. Por ejemplo, hay 214 casos de "Andy". Por lo tanto, no es una lista aprovechable. |
Son multilingües pero si yo vivo en Barcelona y mi vecino se llama "Andy" y hay 213 otros casos en cataluña, no crees que se debería de añadir? El pobre Andy tiene que pasar la vida actualizando su nombre como si fuese una errata? Pero si creo una lista que viene de esta pero que filtra solo los que tienen una frecuencia de 500 por ejemplo? Lo que quiero decir, si el nombre esta en una acta de nacimiento de un área geográfica no considero que sea una errata. |
Es cierto: el objetivo es reducir los casos de incorrecciones innecesarias. Para empezar, el hecho de que estos nombres lleven mayúscula inicial añade una primera capa de "identificación" o discriminación ('Martín' versus 'martín (pescador)', pájaro). No soy experto en tomar estas decisiones, pero me pregunto si en ES vale la pena introducir formas como 'Martí' o 'Gerard'. (Por cierto, yo creía que en Cataluña usábamos es_ES. No puede existir un es_CA, porque en la ISO 3166-1 alpha-2 el código CA corresponde a Canadá.) |
Si. Es errata mia. |
@amunizp , desconozco si todos los nombres de dicha lista están en |
gracias @cosmoscalibur corregí la errata y he actualizado el ejemplo para es_CO (para simplificar la conversación). My interesante con lo de nombres de gente importante. ?Supongo que famosos también contará? Por ejemplo los raperos Orishas? OK entonces siguiendo el ejemplo de es_CO debería crear un archivo txt llamado NombresPropiosSiglas.txt
También encontré los topónimos están en documentos separados: https://github.com/sbosio/rla-es/tree/master/ortografia/palabras/toponimos He visto que las últimas modificaciones fueron hace 4 años por @olea Por cierto, supongo que dará igual si hago una lista conjunta de Mujeres y Hombres (Si es que es adecuada la distinción para grámatica?) Asi que propuesta A:
O propuesta B:
Supongo que hacer Propuesta A y quitarlo de en medio vendría mejor de momento. La propuesta B siempre se puede mirar luego? |
Tengo que citar INE como referencia pero datos son libres. |
No escribo en español. I don't write Spanish. Translation by Bing follows my English. Following up on a Telegram thread. (#MyNameIsNotATypo #RightMyName) Every country has a slightly different idea of what can be under copyright, and what can not be under copyright. In the United States, sweat of the brow content usually is not copyrightable. In Europe, it usually is. As a general rule, a list of names would be sweat of the brow in both Europe and the United States. However, only in Europe could that list be copyrightable. A list of names, such as all of the named individuals in the Bible, would usually fall under Derivative Copyright, and hence copyrightable by the creator of the Bible translation that was used to create the list of names. European governments tend to throw all work-product under copyright, and then give a list a conditions that must be met, to use the content without requesting further permission. In the United States, all work product created by the Federal Government, and most Federal Agencies is automatically in the Public Domain. Thus the list of names at https://www.ssa.gov/OACT/babynames/decades/century.html and https://www.ssa.gov/cgi-bin/namesbystate.cgi can be used without further permission. (Sorry, I don't have a URL for their list of surnames.) Cada país tiene una idea ligeramente diferente de lo que puede estar bajo derechos de autor y lo que no puede estar bajo derechos de autor. En los Estados Unidos, el contenido del sudor de la frente generalmente no está sujeto a derechos de autor. En Europa, suele serlo. Como regla general, una lista de nombres sería un sudor de frente tanto en Europa como en Estados Unidos. Sin embargo, solo en Europa esa lista podría ser susceptible de derechos de autor. Una lista de nombres, como todos los individuos nombrados en la Biblia, generalmente caería bajo derechos de autor derivados y, por lo tanto, susceptible de derechos de autor por el creador de la traducción de la Biblia que se utilizó para crear la lista de nombres. Los gobiernos europeos tienden a poner todo el producto de trabajo bajo derechos de autor, y luego le dan a una lista una condición que debe cumplirse, para usar el contenido sin solicitar más permiso. En los Estados Unidos, todo el producto de trabajo creado por el gobierno federal y la mayoría de las agencias federales está automáticamente en el dominio público. Por lo tanto, la lista de nombres en https://www.ssa.gov/OACT/babynames/decades/century.html y https://www.ssa.gov/cgi-bin/namesbystate.cgi se puede utilizar sin más permiso. (Lo siento, no tengo una URL para su lista de apellidos.) |
@amunizp , es correcto, los topónimos no han tenido actualización hace 4 años, pero los topónimos de los países que poseen dichos listados, entiendo que en general, están listados de forma completa. Entonces no es que sean susceptibles a ser modificados en este lapso de tiempo probablemente. Al menos, el caso particular de Colombia, los topónimos los listé de los listados oficiales de la entidad encargada de estas definiciones. Ya lo específico que modificó Olea fue una reorganización de los archivos, y no de los lemas. |
Me decanté por los 100 más fecuentes porque es dónde INE pasa de página con los apellidos. Si hay que arreglar algo estoy disponible. |
@RickieES siguiendo la conversación en #188 me he leído la wiki y sugiere que adjudique un milestone. No he sido capaz de asignarle milestone 2.9 Este pull request tiene definitivamente más de 10 palabras. Pero al no ser una lista que se encuentra en DLE, ¿como puedo hacerlo más fácil para que se pruebe que estoy usando las palabras de INE y que no colé alguna barrabasada? Mi sugerencia es que cree un Python script simple que extraiga la información y haga un diff. Los adim no tendría que revisar cada palabra solo unas líneas de código. ¿Si puedo lo en hago menos de 10? |
@amunizp , te he dejado una observación en el PR #328 (review) |
Dado que no hay criterios de la frecuencia en corpus o de uso actual, este reporte por su tamaño no es viable para validación. Se cierra. |
Pere Farrando
[email protected]
Propuesta de entradas para la extensión Hunspell de idioma español
Nombres propios
AENA (sin partición)
Alberto
Alcorcón
Alfredo
Alguer
Aleixandre
Amberes
Ampurdán
Ámsterdam (Áms-ter-dam, no Ám-ster-dam; Ortografía lengua española 2010, p405)
Aníbal
Arán
Arévalo
Atapuerca
Aurelia
Aurelio
Basilea
Bilbao
Bolshói (Bol-shói)
Bonaparte
Calígula
Caronte
Carlos
Castellblanch (Cas-tell-blanch, no Cas-te-ll-blanch)
Cerdeña
Citroën
Claudio
Clitemnestra
Coriolano
Córcega
Dalila
Damm
Demetrio
Delhi (Del-hi; Ortografía lengua española 2010, apartado f, p406-407)
Diocleciano
Domiciano
Dorotea
Dubrovnik
Dubái
Echegaray
Efraím
Egeo
Emporion
Enríquez
Escandinavia
Escobedo
Espartaco
Esopo
Everest
Ezequiel
Fedra
Feroe
Figueruelas
Finisterre
Flórez
Freud
Ginesa
Godoy
Granollers
Grandvalira
Guadiana
Guijuelo
Hollywood (Hol-ly-wood, según dicc. Merriam-Webster)
Händel
Ibiza
IRPF (sin partición, sigla de 'impuesto sobre la renta de las persona físicas')
Jimeno
Lavapiés
Lerroux
Liechtenstein (Liech-ten-stein según dicc. Pons; no Liec-h-tens-tein)
Llafranc
Machín
Majadahonda (Ma-ja-dahon-da; Ortografía lengua española 2010, apartado f, p406-407)
Marcela
Marcelo
Massachusetts (Mas-sa-chu-setts segun dicc. Merriam-Webster)
MOMA
Múnich
Numancia
Nuremberg
Ordóñez
Otelo
Otilia
Otón
Ovidio
PSOE
Renault
S’Agaró (S’A-ga-ró)
Safo
Sajonia
Seat
Shanghái (Shan-ghái, pronunciaciíon española; no Sha-n-ghái)
Sófocles
Springsteen (Spring-steen; segú Merriam-Webster, no Springs-teen)
Tarancón
Teide
Tijuana
Toulouse (Tou-louse según pronuncia francesa; no Tou-lou-se)Microsoft
Transilvania
Veracruz
Villoro
Vivaldi
Vic
Voll-Damm
Waterloo
Yucatán
Zúrich
The text was updated successfully, but these errors were encountered: