En el Paro Nacional!
Este es un breve análisis de las publicaciones en redes sociales, es un ejercicio donde se utilizaron herramienta de procesamiento de lenguaje natural, R y Python
Se analizaron más de 70.000 publicaciones que utilizaron el HT #ParoNacionalEC desde el 8 al 11 de Octubre 2019, recogidas de manera aleatoria entre esos días.
Tabla de Tweets recogidos por día
día total
2019-10-08 14.698
2019-10-09 17.564
2019-10-10 12.498
2019-10-11 30.782
Gráfico de tweets recogidos por día.
Datos:
- Más de 27.000 cuentas tuitearon utilizando el HT #ParoNacionalEC.
- El usuario que más tweets publicó fue @Luca33182516 con 240.
- En total se usaron 967.000 palabras en 75.000 tweets.
- En promedio se utilizaron 13 palabras por cada tweet.
- En total 59 cuentas verificadas utilizaron el HT #ParoNacionalEC.
Frecuencia de Palabras
Aquí podemos ver una gráfica de las palabras más usadas, donde evidentemente las palabras Quito, indígenas, Lenín están en el TOP al estar en un momento coyuntural, donde en Quito se desarrollan la mayoría de las protestas por parte del movimiento indígena.
Nube de palabras más usadas
Relaciones entre palabras
Utilizando bigramas, logramos establecer relaciones que existen entre palabras, es decir cuales son las combinaciones de palabras más frecuentes.
Presidente pueblo Derechos Humanos indígena movimiento
Lenin humanitario organizaciones delincuencia guerra
Moreno marcha provincias ahora reprime
Quito Pichincha paro precautelar bombas
reprime lacrimogenas armas protestas asamblea
Estadístico TF-IDF
Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos*), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras.
Variaciones del esquema de peso tf-idf son empleadas frecuentemente por los motores de búsqueda como herramienta fundamental para medir la relevancia de un documento dada una consulta del usuario, estableciendo así una ordenación o ranking de los mismos. Tf-idf puede utilizarse exitosamente para el filtrado de las denominadas stop-words (palabras que suelen usarse en casi todos los documentos), en diferentes campos como la clasificación y resumen de texto.
Una de las funciones de ranking más sencillas se calcula como la suma de los valores tf-idf de cada término de la consulta. Muchas funciones de ranking más complejas constituyen variaciones de este simple modelo.**
*En este ejercicio los documentos son los tweets recolectados.
** Fuente Wikipedia
|palabra | tf_idf |
|ecuador | 0.2132474|
|atención | 0.0934041|
|urgente | 0.0752926|
|quito | 0.0637280|
|lenin | 0.0540566|
|pueblo | 0.0504687|
|pichinchauniver | 0.0480657|
|moreno | 0.0434054|
|guayaquil | 0.0366931|
|indígenas | 0.0361524|
|gobierno | 0.0287825|
|conaie | 0.0273924|
|octubre | 0.0248769|
|nacional | 0.0220701|
|paroenecuador | 0.0213618|
Los 15 términos más relevantes nos permiten observar a la cuenta de un medio de comunicación (@pichinchauniver) en tercer lugar, lo que nos podría indicar que los usuarios tenían como referencia a la misma, los demás términos nos indican las temáticas de la conversaciones.
Sentimientos
Para realizar un análisis de sentimiento, principalmente en español, debemos construir un diccionario de palabras y asignarles un valor numérico que represente un sentimiento, el reto en este tipo de análisis es encontrar como darle un contexto a las palabras o significado al sarcasmo, en este análisis solamente evaluaremos las equivalencias numéricas de las palabras.
Es todo por esta ocasión, se ha evaluado aquellos días del Paro Nacional Octubre 2019, sus alcances y reacciones a nivel de población general.
Favor dejen sus comentarios y sugerencias sobre este tema de interés nacional.
Autor: Roberto Esteves.
Twitter: @restevesd
LinkedIn: https://www.linkedin.com/in/restevesd/
Mail: [email protected]