You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Basado en un corpus de comentarios escrito por cubanos de las distintas redes sociales, se desea crear un generador de texto que pueda simular la escritura y lenguaje cubano. El resultado final se pretende incorporar a al trabajo final de Periodismo de Datos, de forma interactiva mezclando textos generados con textos del corpus relevantes sobre el tema prefijado. Sería interesante aprender del los resultado obtenidos en la interactividad del lector para refinar el modelo
Content detection and Corpus Clustering
Dado un corpus de comentarios escrito por cubanos de las distintas redes sociales, se podría desarrollar un SRI (Sistema de Recuperación de Información) que sea capas de responder a la pregunta "¿Que piensan/escriben los cubanos sobre _______?" y en principio cualquier modelo clásico o derivado podría ser una opción. Pero, para computar que tan efectivo es el SRI se necesitan corpus de prueba, los cuales ya se encuentran debidamente documentados en cuanto a relevancia respecto a una lista de consultas. En el caso particular del corpus y la pregunta seleccionada, no se cuenta inicialmente con dichos documentos y consultas de prueba. Pero analizando la forma y origen del corpus podemos generalizar que, en su mayoría los documentos del corpus en cuestión son comentarios en respuesta a un tema inicial (publicación inicial), por tanto un conjunto de expertos (humanos, cubanos) determinaron que dichos documentos son relevantes sobre dicho tema, entonces en general podríamos considerar como sistema de pruebas la idea central de la publicación inicial como consulta y sus comentarios de primer nivel como documentos relevantes para dicha consulta. Esa idea inicial podría ser demasiado ajustada, pues no toma en cuenta el resto de comentarios que puedan tener otras publicación sobre el mismo tema. Un mejor banco de prueba sería si agrupamos los comentarios según el tema principal de la publicación inicial y excluimos del grupo a los comentarios fuera de contexto o incoherentes
Para lograr el objetivo antes descrito, se diseñara un modelo que sea capas de dar una medida de cuan semánticamente similares son dos textos de si entrada y con ese conocimiento poder realizar, para una epsilon vecindad determinada, clustering sobre dicho corpus. Determinando el centroide de cada uno de estos cluster tendremos un documento representativo de dicha vecindad para comparar con la consulta realizada y responder si la consulta se encuentra en dicha vecindad o no, y en consecuencia si los comentarios en ese cluster son relevantes para esa consulta
Aldo Javier Veldecia Delgado (@Yulii01 GitHub)(@YulyG01 Telegram)
Yan Carlos González Blanco (@yanc1998 GitHub) (@Yan_k1 Telegram)
Henry Estevez Gómez (@HenryE10 GitHub) (@Henry_e99 Telegram)
Otras asignaturas o investigación en los que impacte el proyecto
De ambas ideas se podría encontrar información interesante para la asignatura Periodismo de Datos, aunque inicialmente Generator of Cuban's Comment
seria el mas relacionado. Los objetivos de Content detection and Corpus Clustering sería de gran ayuda para incorporar la evaluación a la asignatura SRI
a este proyecto (Cuban Digital Language)
Aprobación
Estos elementos serán chequeados por los profesores de la asignatura para aprobar el proyecto.
El repositorio indicado existe
El documento de reporte existe, y tiene la estructura inicial (nombre del proyecto, autores, breve descripción)
Los miembros del equipo tienen usuarios en Github y telegram debidamente identificados (avatar, nombre completo, y página de perfil)
El resumen describe una idea factible y de complejidad adecuada
El resumen describe una idea que impacta positivamente en otras asignatura o investigación
En caso de que algunas de las condiciones anteriores no se cumplan, en este issue les dejaremos todos los comentarios y discusiones necesarias para lograr la aprobación del proyecto.
Este issue será cerrado una vez se considere definitivamente aprobado o rechazado el proyecto, y se le pondrá la etiqueta correspondiente.
The text was updated successfully, but these errors were encountered:
Datos del proyecto
Breve resumen
Basado en un corpus de comentarios escrito por cubanos de las distintas redes sociales, se desea crear un generador de texto que pueda simular la escritura y lenguaje cubano. El resultado final se pretende incorporar a al trabajo final de Periodismo de Datos, de forma interactiva mezclando textos generados con textos del corpus relevantes sobre el tema prefijado. Sería interesante aprender del los resultado obtenidos en la interactividad del lector para refinar el modelo
Dado un corpus de comentarios escrito por cubanos de las distintas redes sociales, se podría desarrollar un SRI (Sistema de Recuperación de Información) que sea capas de responder a la pregunta "¿Que piensan/escriben los cubanos sobre _______?" y en principio cualquier modelo clásico o derivado podría ser una opción. Pero, para computar que tan efectivo es el SRI se necesitan corpus de prueba, los cuales ya se encuentran debidamente documentados en cuanto a relevancia respecto a una lista de consultas. En el caso particular del corpus y la pregunta seleccionada, no se cuenta inicialmente con dichos documentos y consultas de prueba. Pero analizando la forma y origen del corpus podemos generalizar que, en su mayoría los documentos del corpus en cuestión son comentarios en respuesta a un tema inicial (publicación inicial), por tanto un conjunto de expertos (humanos, cubanos) determinaron que dichos documentos son relevantes sobre dicho tema, entonces en general podríamos considerar como sistema de pruebas la idea central de la publicación inicial como consulta y sus comentarios de primer nivel como documentos relevantes para dicha consulta. Esa idea inicial podría ser demasiado ajustada, pues no toma en cuenta el resto de comentarios que puedan tener otras publicación sobre el mismo tema. Un mejor banco de prueba sería si agrupamos los comentarios según el tema principal de la publicación inicial y excluimos del grupo a los comentarios fuera de contexto o incoherentes
Para lograr el objetivo antes descrito, se diseñara un modelo que sea capas de dar una medida de cuan semánticamente similares son dos textos de si entrada y con ese conocimiento poder realizar, para una epsilon vecindad determinada, clustering sobre dicho corpus. Determinando el centroide de cada uno de estos cluster tendremos un documento representativo de dicha vecindad para comparar con la consulta realizada y responder si la consulta se encuentra en dicha vecindad o no, y en consecuencia si los comentarios en ese cluster son relevantes para esa consulta
Miembros del equipo
Otras asignaturas o investigación en los que impacte el proyecto
De ambas ideas se podría encontrar información interesante para la asignatura Periodismo de Datos, aunque inicialmente Generator of Cuban's Comment
seria el mas relacionado. Los objetivos de Content detection and Corpus Clustering sería de gran ayuda para incorporar la evaluación a la asignatura SRI
a este proyecto (Cuban Digital Language)
Aprobación
En caso de que algunas de las condiciones anteriores no se cumplan, en este issue les dejaremos todos los comentarios y discusiones necesarias para lograr la aprobación del proyecto.
Este issue será cerrado una vez se considere definitivamente aprobado o rechazado el proyecto, y se le pondrá la etiqueta correspondiente.
The text was updated successfully, but these errors were encountered: