Metodología

La presente investigación se inicia como un análisis de los 10 últimos años los datos del Consejo General del Poder Judicial sobre la violencia de género. Este organismo empezó la recolección de datos estadísticos con los apartados específicos que se incluyeron unos meses antes de la Ley Orgánica de Medidas de Protección Integral contra la Violencia de Género.

Estos apartados se ampliaron desde el 29 de junio del mismo 2005 porque se crearon los juzgados de violencia sobre la mujer y las secciones especializadas dentro de las Audiencias Provinciales de toda España. Con estos juzgados se elaboraron boletines exclusivos de la problemática porque se declaró que debían «remitir todos los Juzgados de Violencia sobre la Mujer, con competencias exclusivas y con competencias compartidas al Consejo General del Poder Judicial para su tratamiento estadístico» (CGPJ – Datos estadísticos)⁠. 

Es así que en los últimos años «Las estadísticas se publican trimestralmente desglosadas por Tribunales Superiores de Justicia, provincias y partidos judiciales». El CGPJ realiza boletines estadísticos, estudios e informes a través de los que pone a disposición los datos de la Administración de Justicia. En el portal se aclara que la publicación anual puede darse hasta 4 meses después del año finalizado. También se toman datos del Portal Estadístico de la Delegación del Gobierno para la Violencia de Género.

En el proceso se aplicó el conocido método del mundo de la ciencia de datos Extract, Transform and Load (ETL) que, de acuerdo con Martínez, A., Galvis, A., Gómez, F. (2013) se resume en 3 pasos: «(1) analizar las fuentes de datos existentes para encontrar la semántica oculta en ellas y (2) diseñar el flujo de trabajo que extraiga los datos desde las fuentes, repare sus inconsistencias, los transforme en un formato deseado, y, finalmente, los inserte en la bodega de datos.»  

Los datos se encontraron en pdf o en xls. Los formatos que tienen 1 y hasta 2 estrellas de acuerdo con las 5 estrellas de los datos abiertos, pues dan problemas en el tratamiento,  necesitaron una limpieza hoja por hoja. Se extrajo la información de fuentes oficiales: Instituto Nacional de Estadística y Portal Estadístico del Consejo General del Poder Judicial.

El objetivo fue obtener la mayor cantidad de datos sobre violencia de género para analizar cuál ha sido la evolución de la violencia en los últimos 10 años. Esperamos encontrar denuncias, muertes, agresores y datos que nos dieran una línea más clara de cómo las políticas públicas han impactado hasta el momento. Sin embargo, la búsqueda de la información de: ‘a qué se referían los datos,’ o de ‘qué estaban mostrando’ era poco clara. Por ejemplo, solo al leer los archivos en formatos pdf se pudo descubrir que los homicidios “12 Se incluyen tanto los consumados como los intentados.” CGPJ. Violencia sobre la Mujer – Año 2008, p. 2.

En el proceso de transformación se encontraron encabezados de, al menos, 3 líneas más las columnas con descripciones compartidas. Si bien no hay datos nulos, por ejemplo, en las hoja de “Terminación” en todos los años, excepto por 2009, se encuentra datos en cifras y en este caso en porcentajes. También se incrementan columnas de acuerdo a los apartados que se incluyeron o modificaron entre los años y que no pueden ser tomados en cuenta porque no tenemos los mismo datos de los años pasados. Es el caso, por ejemplo, de los sobreseimientos, donde, desde 2008 se separan 2 de las 5 formas de terminación de procesos, estos son: sobreseimiento libre, sobreseimiento provisional. Por otro lado, en el 2009, eliminaron cifras de las demás formas de terminación.

Creamos agrupaciones por Provincias para obtener los datos de las Comunidades Autónomas porque sólo 2013 y 2018 contaban con estos. Finalmente, la necesidad de contexto de los datos ha hecho que, aunque tengamos más datasets recolectados, hayamos trabajado hasta la fecha con:

  1. Denuncias
  2. Órdenes
  3. Presupuestos
  4. Población
  5. Unidades forenses

Parte de la transformación de datos se realizo con la librería de Pandas de Python. Y la inserción de datos se realizó con la visualización de los datos mediante Flourish, un software especializado en la visualización de datos para contar historias.

Referencias

Martínez, A., Galvis, A., Gómez, F. (2013). Técnicas de modelado de procesos de ETL: una revisión de alternativas y su aplicación en un proyecto de desarrollo de una solución de BI. Scientia et Technica, ISSN 0122-1701, Vol. 18, Nº. 1, págs. 185-191. Extraído el 23 de diciembre de 2019 desde https://dialnet.unirioja.es/servlet/articulo?codigo=4271531

 

CGPJ. Violencia sobre la Mujer – Año 2008. Extraído el 22 de enero de 2020 desde http://www.poderjudicial.es/cgpj/es/Temas/Violencia-domestica-y-de-genero/Actividad-del-Observatorio/Datos-estadisticos/La-violencia-sobre-la-mujer-en-la-estadistica-judicial–datos-anuales-2008