Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Cuban Digital Language (Corpus Clustering And Generator of Cuban's Comment) #4

Open
5 tasks done
danielorlando97 opened this issue Apr 29, 2022 · 2 comments
Open
5 tasks done
Labels

Comments

@danielorlando97
Copy link

danielorlando97 commented Apr 29, 2022

Datos del proyecto

Breve resumen

Generator of Cuban's Comment

Basado en un corpus de comentarios escrito por cubanos de las distintas redes sociales, se desea crear un generador de texto que pueda simular la escritura y lenguaje cubano. El resultado final se pretende incorporar a al trabajo final de Periodismo de Datos, de forma interactiva mezclando textos generados con textos del corpus relevantes sobre el tema prefijado. Sería interesante aprender del los resultado obtenidos en la interactividad del lector para refinar el modelo

Content detection and Corpus Clustering 

Dado un corpus de comentarios escrito por cubanos de las distintas redes sociales, se podría desarrollar un SRI (Sistema de Recuperación de Información) que sea capas de responder a la pregunta "¿Que piensan/escriben los cubanos sobre _______?" y en principio cualquier modelo clásico o derivado podría ser una opción. Pero, para computar que tan efectivo es el SRI se necesitan corpus de prueba, los cuales ya se encuentran debidamente documentados en cuanto a relevancia respecto a una lista de consultas. En el caso particular del corpus y la pregunta seleccionada, no se cuenta inicialmente con dichos documentos y consultas de prueba. Pero analizando la forma y origen del corpus podemos generalizar que, en su mayoría los documentos del corpus en cuestión son comentarios en respuesta a un tema inicial (publicación inicial), por tanto un conjunto de expertos (humanos, cubanos) determinaron que dichos documentos son relevantes sobre dicho tema, entonces en general podríamos considerar como sistema de pruebas la idea central de la publicación inicial como consulta y sus comentarios de primer nivel como documentos relevantes para dicha consulta. Esa idea inicial podría ser demasiado ajustada, pues no toma en cuenta el resto de comentarios que puedan tener otras publicación sobre el mismo tema. Un mejor banco de prueba sería si agrupamos los comentarios según el tema principal de la publicación inicial y excluimos del grupo a los comentarios fuera de contexto o incoherentes

Para lograr el objetivo antes descrito, se diseñara un modelo que sea capas de dar una medida de cuan semánticamente similares son dos textos de si entrada y con ese conocimiento poder realizar, para una epsilon vecindad determinada, clustering sobre dicho corpus. Determinando el centroide de cada uno de estos cluster tendremos un documento representativo de dicha vecindad para comparar con la consulta realizada y responder si la consulta se encuentra en dicha vecindad o no, y en consecuencia si los comentarios en ese cluster son relevantes para esa consulta

Miembros del equipo

  • Daniel Orlando Ortiz Pacheco (@danielorlando97 GitHub)(@danieloop Telegram)
  • Aldo Javier Veldecia Delgado (@Yulii01 GitHub)(@YulyG01 Telegram)
  • Yan Carlos González Blanco (@yanc1998 GitHub) (@Yan_k1 Telegram)
  • Henry Estevez Gómez (@HenryE10 GitHub) (@Henry_e99 Telegram)

Otras asignaturas o investigación en los que impacte el proyecto

De ambas ideas se podría encontrar información interesante para la asignatura Periodismo de Datos, aunque inicialmente Generator of Cuban's Comment
seria el mas relacionado. Los objetivos de Content detection and Corpus Clustering sería de gran ayuda para incorporar la evaluación a la asignatura SRI
a este proyecto (Cuban Digital Language)

Aprobación

Estos elementos serán chequeados por los profesores de la asignatura para aprobar el proyecto.

  • El repositorio indicado existe
  • El documento de reporte existe, y tiene la estructura inicial (nombre del proyecto, autores, breve descripción)
  • Los miembros del equipo tienen usuarios en Github y telegram debidamente identificados (avatar, nombre completo, y página de perfil)
  • El resumen describe una idea factible y de complejidad adecuada
  • El resumen describe una idea que impacta positivamente en otras asignatura o investigación

En caso de que algunas de las condiciones anteriores no se cumplan, en este issue les dejaremos todos los comentarios y discusiones necesarias para lograr la aprobación del proyecto.

Este issue será cerrado una vez se considere definitivamente aprobado o rechazado el proyecto, y se le pondrá la etiqueta correspondiente.

@dvaldes8128
Copy link
Collaborator

porfa agregen lo que hablamos

@danielorlando97
Copy link
Author

profe agregamos un parafo mas la final de la descripcion esperamos que responda a su pregunta

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants