Metodología

¿Qué datos usamos?

Este proyecto utiliza datos de Twitter, una de las redes sociales más utilizadas en Argentina. Estudios previos muestran cómo la violencia de género en esta red social es un problema considerable (ELA, 2019, o Amnistía Internacional, 2019), y por lo tanto necesita con urgencia ser mejor entendido. A diferencia de Twitter, otras plataformas ampliamente utilizadas como YouTube y Facebook no disponibilizan los datos para proyectos de investigación como éste y, por lo tanto, no pueden ser utilizadas. 

Toda la recopilación de datos se hace mediante la API de Twitter, solo contiene información de usuario/as público/as, y son almacenados de forma segura en nuestra infraestructura en la nube. Existen sin embargo algunas limitaciones que deben tenerse en cuenta:



Listado de candidatas 

El tablero muestra datos de la cantidad, porcentaje y tipo de agravios dirigidos a las candidatas en las próximas elecciones al Congreso Nacional en Argentina. Elegimos este enfoque porque las mujeres - y particularmente figuras públicas - son constantemente agredidas en línea, y en algunos casos, hasta han reportado voluntad de dejar la vida pública debido al abuso al que han estado expuestas.


Actualmente, el monitor analiza tweets que mencionan a un total de 257 precandidatas de las 23 provincias Argentinas y la Ciudad Autónoma de Buenos Aires. Debido al alto número de precandidatas que se presentan a las elecciones Paso, redujimos el número a estudiar de acuerdo al siguiente criterio: para cada provincia, y cada partido, incluimos tantas candidatas como bancas a reemplazar en las elecciones. De las 257 candidatas seleccionadas, 219 (85%) tienen perfiles de Twitter, la mayoría de los cuales recopilamos manualmente y algunos otros los obtuvimos del proyecto de Guadalupe Gonzalez, politicxsentwitterDe esta forma, recolectamos cada mención de las candidatas en tiempo real y las presentamos en el tablero.

Si bien las candidatas más prominentes figuran en Twitter, el hecho de que no representen el 100% representa otra fuente de sesgo en el monitor. Al momento, sólo mostramos candidatas con al menos 10 insultos recibidos. 



Identificación de agresiones

Identificar lenguaje agresivo es una tarea difícil. Necesitábamos un método que equilibre precisión (es decir, todo lo que decimos que es un insulto en realidad lo sea), a la vez que abarcamos la mayor cantidad de agresiones existentes (es decir, todos los insultos que se hacen contra las candidatas son identificados). También necesitábamos que el método fuera escalable (es decir, que pudiera funcionar con un gran volumen de datos en un corto período de tiempo). Finalmente, queríamos que el método fuera transparente y fácil de explicar para que todos nuestros grupos de interés pudieran entender lo que estamos haciendo, evitando soluciones complejas de “caja negra”.


Considerando estas limitaciones, decidimos utilizar un enfoque simple basado en palabras clave. Dicho método aprovecha el hecho de que el idioma español distingue el género y que es muy probable que todas las menciones de las candidatas estén dirigidas a ellas. La metodología consiste en identificar si cada tweet contiene al menos un término de una lista de 400 insultos. La lista se construyó luego de inspeccionar más de 5000 tweets, y de realizar iterativamente numerosas pruebas sobre este método, asegurándonos de que cada insulto identificado sea de alta precisión y de que se identifique la gran mayoría de los tweets insultantes. Al final de cuatro rondas de evaluación y testeos, alcanzamos una precisión del 83%.


Dicho esto, advertimos que toda metodología tiene fallas. Es muy probable que al focalizarnos en agresiones explícitas, nuestro enfoque subestime la cantidad real de abuso que reciben las candidatas; decidimos que esto es un sacrificio razonable dado que queremos que todos nuestros hallazgos sean confiables. La metodología podría refinarse en el futuro para capturar la naturaleza cambiante del lenguaje abusivo en línea. En otros casos, puede que algunos insultos que han sido clasificados como tal en realidad no lo sean. Somos conscientes de que esto puede suceder, y estos casos están considerados dentro de la precisión reportada del 83%.


Algunas limitaciones metodológicas

A continuación comentamos brevemente algunas limitaciones de nuestra actual metodología.


Trabajo futuro


Conceptualización y categorización de agresiones

Entendemos que existen diferentes dimensiones y expresiones de la violencia verbal hacia candidatas y estamos trabajando en su conceptualización. La categorización expuesta a continuación fue desarrolada en el marco de un proyecto en curso de la Oficina de Proyectos Especiales (Unidad de Planificación y Control de Gestión) de la Honorable Cámara de Diputados la Nación Argentina. Para la misma, se adaptaron y expandieron previas categorizaciones hechas por ELA (2019) y el Alan Turing Institute (2020)