Este es un breve análisis de las publicaciones en redes sociales, es un ejercicio donde se utilizaron herramienta de procesamiento de lenguaje natural, R y Python

Se analizaron más de 70.000 publicaciones que utilizaron el HT #ParoNacionalEC desde el 8 al 11 de Octubre 2019, recogidas de manera aleatoria entre esos días.

Tabla de Tweets recogidos por día

    día                  total

 2019-10-08              14.698

 2019-10-09              17.564

 2019-10-10              12.498

 2019-10-11              30.782

Gráfico de tweets recogidos por día.

 

Datos:

  • Más de 27.000 cuentas tuitearon utilizando el HT #ParoNacionalEC.
  • El usuario que más tweets publicó fue @Luca33182516 con 240.
  • En total se usaron 967.000 palabras en 75.000 tweets.
  • En promedio se utilizaron 13 palabras por cada tweet.
  • En total 59 cuentas verificadas utilizaron el HT #ParoNacionalEC.

Frecuencia de Palabras

Aquí podemos ver una gráfica de las palabras más usadas, donde evidentemente las palabras Quito, indígenas, Lenín están en el TOP al estar en un momento coyuntural, donde en Quito se desarrollan la mayoría de las protestas por parte del movimiento indígena.

 

Nube de palabras más usadas

Relaciones entre palabras

Utilizando bigramas, logramos establecer relaciones que existen entre palabras, es decir cuales son las combinaciones de palabras más frecuentes.

Presidente              pueblo             Derechos Humanos           indígena          movimiento

Lenin                       humanitario   organizaciones                   delincuencia      guerra

Moreno                   marcha            provincias                            ahora                reprime

Quito                       Pichincha        paro                                       precautelar      bombas

reprime                   lacrimogenas   armas                                   protestas          asamblea

 

Estadístico TF-IDF

Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos*), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras.

Variaciones del esquema de peso tf-idf son empleadas frecuentemente por los motores de búsqueda como herramienta fundamental para medir la relevancia de un documento dada una consulta del usuario, estableciendo así una ordenación o ranking de los mismos. Tf-idf puede utilizarse exitosamente para el filtrado de las denominadas stop-words (palabras que suelen usarse en casi todos los documentos), en diferentes campos como la clasificación y resumen de texto.

Una de las funciones de ranking más sencillas se calcula como la suma de los valores tf-idf de cada término de la consulta. Muchas funciones de ranking más complejas constituyen variaciones de este simple modelo.**

*En este ejercicio los documentos son los tweets recolectados.

** Fuente Wikipedia

|palabra         |   tf_idf |

|ecuador         | 0.2132474|

|atención        | 0.0934041|

|urgente         | 0.0752926|

|quito           | 0.0637280|

|lenin           | 0.0540566|

|pueblo          | 0.0504687|

|pichinchauniver | 0.0480657|

|moreno          | 0.0434054|

|guayaquil       | 0.0366931|

|indígenas       | 0.0361524|

|gobierno        | 0.0287825|

|conaie          | 0.0273924|

|octubre         | 0.0248769|

|nacional        | 0.0220701|

|paroenecuador   | 0.0213618|

Los 15 términos más relevantes nos permiten observar a la cuenta de un medio de comunicación (@pichinchauniver) en tercer lugar, lo que nos podría indicar que los usuarios tenían como referencia a la misma, los demás términos nos indican las temáticas de la conversaciones.

Sentimientos

Para realizar un análisis de sentimiento, principalmente en español, debemos construir un diccionario de palabras y asignarles un valor numérico que represente un sentimiento, el reto en este tipo de análisis es encontrar como darle un contexto a las palabras o significado al sarcasmo, en este análisis solamente evaluaremos las equivalencias numéricas de las palabras.

Es todo por esta ocasión, se ha evaluado aquellos días del Paro Nacional Octubre 2019, sus alcances y reacciones a nivel de población general.

Favor dejen sus comentarios y sugerencias sobre este tema de interés nacional.

Autor: Roberto Esteves.

Twitter: @restevesd

LinkedIn: https://www.linkedin.com/in/restevesd/

Mail: [email protected]

Escribe tu opinión

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Usted puede usar estas etiquetas y atributos HTML:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>