¿Qué datos usamos?
Este proyecto utiliza datos de Twitter, una de las redes sociales más utilizadas en Argentina. Estudios previos muestran cómo la violencia de género en esta red social es un problema considerable (ELA, 2019, o Amnistía Internacional, 2019), y por lo tanto necesita con urgencia ser mejor entendido. A diferencia de Twitter, otras plataformas ampliamente utilizadas como YouTube y Facebook no disponibilizan los datos para proyectos de investigación como éste y, por lo tanto, no pueden ser utilizadas.
Toda la recopilación de datos se hace mediante la API de Twitter, solo contiene información de usuario/as público/as, y son almacenados de forma segura en nuestra infraestructura en la nube. Existen sin embargo algunas limitaciones que deben tenerse en cuenta:
Los/as usuarios/as de Twitter no son representativos/as de la población general. Difieren en términos de su edad, género y niveles de educación.
El comportamiento en línea no es representativo del comportamiento fuera de línea, y no podemos asumir que su comportamiento va a ser igual online y offline.
El acceso a Internet difiere según cada región en Argentina.
Listado de candidatas
El tablero muestra datos de la cantidad, porcentaje y tipo de agravios dirigidos a las candidatas en las próximas elecciones al Congreso Nacional en Argentina. Elegimos este enfoque porque las mujeres - y particularmente figuras públicas - son constantemente agredidas en línea, y en algunos casos, hasta han reportado voluntad de dejar la vida pública debido al abuso al que han estado expuestas.
Actualmente, el monitor analiza tweets que mencionan a un total de 257 precandidatas de las 23 provincias Argentinas y la Ciudad Autónoma de Buenos Aires. Debido al alto número de precandidatas que se presentan a las elecciones Paso, redujimos el número a estudiar de acuerdo al siguiente criterio: para cada provincia, y cada partido, incluimos tantas candidatas como bancas a reemplazar en las elecciones. De las 257 candidatas seleccionadas, 219 (85%) tienen perfiles de Twitter, la mayoría de los cuales recopilamos manualmente y algunos otros los obtuvimos del proyecto de Guadalupe Gonzalez, politicxsentwitter. De esta forma, recolectamos cada mención de las candidatas en tiempo real y las presentamos en el tablero.
Si bien las candidatas más prominentes figuran en Twitter, el hecho de que no representen el 100% representa otra fuente de sesgo en el monitor. Al momento, sólo mostramos candidatas con al menos 10 insultos recibidos.
Identificación de agresiones
Identificar lenguaje agresivo es una tarea difícil. Necesitábamos un método que equilibre precisión (es decir, todo lo que decimos que es un insulto en realidad lo sea), a la vez que abarcamos la mayor cantidad de agresiones existentes (es decir, todos los insultos que se hacen contra las candidatas son identificados). También necesitábamos que el método fuera escalable (es decir, que pudiera funcionar con un gran volumen de datos en un corto período de tiempo). Finalmente, queríamos que el método fuera transparente y fácil de explicar para que todos nuestros grupos de interés pudieran entender lo que estamos haciendo, evitando soluciones complejas de “caja negra”.
Considerando estas limitaciones, decidimos utilizar un enfoque simple basado en palabras clave. Dicho método aprovecha el hecho de que el idioma español distingue el género y que es muy probable que todas las menciones de las candidatas estén dirigidas a ellas. La metodología consiste en identificar si cada tweet contiene al menos un término de una lista de 400 insultos. La lista se construyó luego de inspeccionar más de 5000 tweets, y de realizar iterativamente numerosas pruebas sobre este método, asegurándonos de que cada insulto identificado sea de alta precisión y de que se identifique la gran mayoría de los tweets insultantes. Al final de cuatro rondas de evaluación y testeos, alcanzamos una precisión del 83%.
Dicho esto, advertimos que toda metodología tiene fallas. Es muy probable que al focalizarnos en agresiones explícitas, nuestro enfoque subestime la cantidad real de abuso que reciben las candidatas; decidimos que esto es un sacrificio razonable dado que queremos que todos nuestros hallazgos sean confiables. La metodología podría refinarse en el futuro para capturar la naturaleza cambiante del lenguaje abusivo en línea. En otros casos, puede que algunos insultos que han sido clasificados como tal en realidad no lo sean. Somos conscientes de que esto puede suceder, y estos casos están considerados dentro de la precisión reportada del 83%.
Algunas limitaciones metodológicas
A continuación comentamos brevemente algunas limitaciones de nuestra actual metodología.
Tweets dirigidos a candidatas que no están explícitamente arrobadas. Si bien es cierto que en algunos casos se postean tweets denigrando a otras personas sin necesariamente arrobarlas en el mensaje, en la mayoría de los casos cuando se tiene intención de agredir directamente a una persona se utiliza la mención explícita (@usuario). Además, los tweets que contienen una mención directa son los que generan una notificación en la cuenta de la candidata. Por este motivo y por robustez metodológica decidimos no considerar tweets dirigidos a candidatas que no estén mencionadas.
Diferencias muestrales por provincia. El diverso número de representantes del Congreso Nacional por provincia sumado a la uso variable de Twitter de la población genera una diferencia muestral importante en la cantidad de menciones por provincia. Es por esto que al momento algunas provincias no se muestran en el monitor. Como criterio general, decidimos mostrar a las candidatas que reciben como mínimo 5 menciones diarias en un 80% de los días.
Trabajo futuro
Comparación con candidatos hombres. Consideramos que es importantísimo no estudiar el fenómeno de violencia contra las mujeres en aislamiento, sino en contexto y en conjunto con la violencia que reciben los hombres. Si bien la primera versión del monitor no mide agresión hacia hombres, es la primera expansión metodológica en la que vamos a trabajar.
Bots, trolls y ataques organizados. En diversas ocasiones se descubrieron y reportaron campañas y ataques organizados a personas específicas ya sea mediante cuentas automatizadas, semi automatizadas o regulares. Si bien la detección de cuentas automáticas y mensajes de trolls en algunos casos resulta muy sencilla (por ejemplo cuando se postean mensajes idénticos, o las cuentas tienen una actividad anormalmente alta), la detección automática de bots y trolls todavía no está del todo resuelta. Como trabajo futuro, planeamos testear e incluir algunas de estas metodologías para analizar qué porcentaje del abuso proviene de ataques organizados.
Conceptualización y categorización de agresiones
Entendemos que existen diferentes dimensiones y expresiones de la violencia verbal hacia candidatas y estamos trabajando en su conceptualización. La categorización expuesta a continuación fue desarrolada en el marco de un proyecto en curso de la Oficina de Proyectos Especiales (Unidad de Planificación y Control de Gestión) de la Honorable Cámara de Diputados la Nación Argentina. Para la misma, se adaptaron y expandieron previas categorizaciones hechas por ELA (2019) y el Alan Turing Institute (2020).
Abuso: Opiniones sobre la personalidad o cualidades de las personas. Incluyendo capacidades mentales, físicas o emocionales de las personas.
Menosprecio de capacidades: Comentarios sobre la personalidad o cualidades que menosprecian sus saberes, conocimientos o capacidades. Estos comentarios son alusivos a sus capacidades para hacer política.
Agresión directa: Comentarios y expresiones que desautorizan directamente la palabra y su efecto más directo es la clausura de la discusión.
Atribución de inmoralidad: Acusaciones directas que sugieren que una persona tiene malas intenciones. Habla de la forma de ser de una persona, y no de un hecho concreto.
Alusiones al cuerpo y a la sexualidad: Comentarios alusivos al cuerpo y la sexualidad. Están vinculados a la apariencia física, estereotipos corporales, calificaciones y valoraciones de su figura o complexión, a su sexualidad.
Abuso a la afiliación ideólogica: Expresiones derogativas hacia un colectivo que tiene afiliación (relativamente) voluntaria hacia un partido político, ideología, grupo de militanca, profesón, u otro grupo definido.
Abuso a la identidad: Expresones derogativas hacia aspectos fundamentales de la identidad, tales como religión, género, sexualidad, clase social, edad, ente otros.
Amenazas: Expresiones y contenido en tono violento, lascivo o agresivo que manifiestan una intención de daño a una persona, sus seres querido/s, o bienes.
Física: Expresiones que manifiestan intención de daño físico
Sexual: Expresiones que manifiestan intención de daño sexual
Simbólica: Expresiones que manifestan intención de sufrir consecuencias negativas por sus acciones o creencias, tanto específicas (e.g. ojalá te saquen de tu cargo), como genéricas (e.g. ya vas a recibir tu castigo divino)
Criticas al ejercicio político: Contenido de opinión o calficativo sobre el accionar o manejo político, independientemente de la veracidad de las acusaciones. Hace referencia a la práctica y no a la personalidad. En general deberían poder asociarse a un conjunto de acciones.
Delicuencia: Opiniones o acusaciones sobre accionar ilegal de la persona.
Acción o discurso: Opiniones o acusaciones sobre la práctica o discurso político.
Manejo del poder: Opiniones o acusaciones sobre el abuso de poder.