En tiempos en que el periodista puede extraviarse en un universo infinito de datos, la destacada periodista de investigación, Giannina Segnini, muestra la ruta que puede seguir un reportero para verificar la calidad de los datos que obtiene. Segnini, profesora de la Universidad de Columbia, explica cada paso basada en más de dos décadas de trabajo.
Foto: Albert Marín - La Nación
Por Giannina Segnini*
Nunca antes los periodistas tuvieron tanto acceso a la información. Más de 3 exabytes de datos – equivalente a 750 millones de DVDs – son creados cada día, y ese número se duplica cada 40 meses. La producción global de datos es estimado hoy en día en yottabytes (un yottabite es equivalente a 250 trillones de DVDs de datos). Ya hay discusiones en marcha acerca de la nueva medición que se necesitará una vez que superemos el yottabyte.
El aumento en el volumen y la velocidad de la producción de datos puede ser abrumador para muchos periodistas, muchos de los cuales no están acostumbrados a usar grandes cantidades de datos para investigación o narración de historias. Pero la urgencia y el afán de hacer uso de los datos, y la tecnología disponible para procesarlos, no deberían distraernos de nuestra misión subyacente por la exactitud.
Para capturar completamente el valor de los datos, nosotros debemos ser capaces de distinguir entre información cuestionable y de calidad, y ser capaces de encontrar historias reales en medio de todo el ruido.
Una lección importante que he aprendido de dos décadas usando datos para investigación es que los datos mienten – casi tanto como la gente, o incluso más. Los datos, después de todo, son creados y sustentados por la gente.
Los datos están destinados a ser una representación de la realidad de un momento específico de tiempo. Entonces, ¿cómo verificamos que un conjunto de datos corresponde a la realidad?
Dos tareas de verificación son claves durante una investigación basada en datos. Una evaluación inicial debe ocurrir inmediatamente después de obtener los datos; y los hallazgos deben ser verificados al final de a fase de investigación o análisis.
La primera regla es cuestionar todo y a todos. No hay tal cosa como una fuente totalmente fiable cuando se trata de usar datos para hacer periodismo meticuloso.
Por ejemplo, ¿confiarías totalmente en una base de datos publicada por el Banco Mundial? La mayoría de los periodistas a los que les hice esta pregunta dijeron que sí; ellos consideran al Banco Mundial como una fuente segura. Vamos a probar esa suposición con dos grupos de datos del Banco Mundial para mostrar cómo verificar datos, y para reforzar que incluso las llamadas fuentes confiables puedes proveernos datos equivocados. Seguiré el proceso señalado en el gráfico de abajo.
1.¿Están los datos completos?
Una primera práctica que recomiendo es explorar los valores extremos (altos o bajos) para cada variable en un grupo de datos, y luego contar que el número de registros (filas) se enumeren dentro de cada uno de los valores posibles. Por ejemplo, el Banco Mundial publica una base de datos con más de 10,000 evaluaciones independientes realizadas a más de 8,600 proyectos desarrollados alrededor del mundo por la organización desde 1964.
Sólo ordenando la columna del costo de préstamos en orden ascendente en una hoja de cálculo, podemos rápidamente ver cómo múltiples registros tienen un cero en la columna de costo. Si creamos una tabla dinámica para contar cuántos proyectos tienen costo cero, en relación al total de registros, podemos ver cómo más de la mitad de ellos (53%) costaron cero (ver gráfico 1).
Gráfico 1
Esto significa que cualquiera que realiza un cálculo o análisis por país, región o año, que implica el costo de los proyectos, estaría equivocado si no pudieron dar cuenta de todas las entradas sin costo indicado. El conjunto de datos que se proporciona conducirá a una conclusión inexacta.
El Banco publica otra base de datos que supuestamente contiene los datos individuales para cada proyecto financiado (no solo evaluado) por la organización desde 1947 (ver gráfico 2).
Gráfico 3
Sólo con abrir el archivo api.csv en Excel (versión del 7 de diciembre, 2014), está claro que los datos están sucios y contienen muchas variables combinadas en una celda (como nombres de sectores o nombres de países). Pero incluso más notable es el hecho de que este archivo no contiene todos los proyectos financiados desde 1947.La base de datos de hecho sólo incluye 6,352 fuera de los más de 15,000 proyectos financiados por el Banco Mundial desde 1947. (Nota: el Banco eventualmente corrigió este error, para el 12 de febrero del 2015, el mismo archivo incluía 16, 215 registros.)
Después de poco tiempo de examinar los datos, vemos que el Banco Mundial no incluye el costo de todos los proyectos en su base de datos, publica datos sucios, y falló al incluir todos sus proyectos en al menos una versión de los datos. Debido a todo eso, ¿qué esperarías ahora sobre los datos publicados por instituciones aparentemente menos confiables?
Otro ejemplo reciente de inconsistencia de base de datos que descubrí de camino al taller que estaba dando en Puerto Rico para el que usamos las bases de datos de los contratos públicos de la Comptroller’s Office. Algunos de los 72 contratos públicos, fuera de todos los contratos del último año, tienen valores negativos. ($10,000,000) en sus campos de costo. Open Refine es una excelente herramienta para explorar rápidamente y evaluar la calidad de las bases de datos.
En la primera imagen debajo, puedes ver cómo Open Refine puede ser usado para ejecutar una “faceta” numérica en el campo “cuantía” (cantidad). Una faceta numérica agrupa números en acumuladores de distancia numéricos. Esto te permite seleccionar cualquier rango que abarque un número consecutivo de contenedor (ver gráfico 3).
La segunda imagen muestra que puedes generar un histograma con los rangos de valores incluidos en la base de datos. Los registros pueden entonces ser filtrados por valores moviendo las flechas dentro del gráfico. Lo mismo se puede hacer para fechas y valores de texto.
2. ¿Existen registros duplicados?
Un error común cuando se trabaja con datos es no identificar la existencia de registros duplicados.
Cuando sea que el procesamiento de datos desglosados o información sobre las personas, compañías, eventos o transacciones, el primer paso es buscar una variable de identificación única para cada elemento. En el caso de las base de datos de la evaluación de proyectos del Banco Mundial, cada proyecto es identificado a través de un código único o “Proyecto ID”. Otras bases de datos de entidades pueden incluir un único número de identificación o, en el caso de contratos públicos, un número de contrato.
Si contamos cuántos registros hay en la base de datos para cada proyecto, vemos que algunos de ellos son duplicados hasta 3 veces. Por lo tanto, cualquier cálculo por país, región o fecha utilizando los datos, sin eliminar duplicados, sería un error (Ver gráfico 4).
Gráfico 3, Gráfico 4
En este caso, los registros se duplican porque se realizaron varios tipos de evaluación para cada uno. Para eliminar duplicados, tenemos que escoger cuál de todas las evaluaciones hechas es la más segura. (En este caso, los registros conocidos como “Informes de Evaluación de Rendimiento” [PARs] parecen ser los más confiables porque ellos ofrecen una imagen mucho más fuerte de la evaluación. Estos son desarrollados por la Independent Evaluation Group [IEG], el cual de forma independiente y aleatoria muestrea 25% de los proyectos del Banco Mundial por año. IEG envía a sus expertos al campo para evaluar los resultados de esos proyectos y crear evaluaciones independientes.
3. ¿Son los datos exactos?
Una de las mejores maneras de evaluar la credibilidad de un grupo de datos es escoger un registro de muestra y compararlo con la realidad.
Si clasificamos la base de datos del Banco Mundial ( que supuestamente contiene todos los proyectos desarrollados por la institución) en orden descendente por costo, encontramos que un proyecto en India fue el más costoso, que aparece con una cantidad total de US$29,833,300,000.
Si buscamos el número de proyecto en Google (P144447), podemos acceder a la documentación de aprobación original para ambos, el proyecto y su crédito, que cuenta efectivamente con un costo de US$29,833 millones. Esto significa que la figura es exacta.
Siempre es recomendable repetir este ejercicio de validación en una muestra significativa de los registros.
4. Evaluando la integridad de los costos
Desde el momento en que se introduce por primera vez en una computadora hasta el momento en que se accede a ellos, los datos pasan por varias entradas, almacenamiento, transmisión y procesos de registro. En cualquier etapa pueden ser manipulados por personas y sistemas de información.
Es por lo tanto muy común que las relaciones entre tablas o campos se pierden o combinan, o que algunas variables fallan al ser actualizadas. Es por esto que es esencial realizar pruebas de integridad.
Por ejemplo, no sería raro encontrar proyectos listados como “activo” en la base de datos del Banco Mundial muchos años después de la fecha de aprobación, incluso es probable que muchos de ellos ya no estén activos.
Para comprobar, cree una tabla dinámica y agrupé los proyectos por año de aprobación. Luego filtré los datos para mostrar solo aquellos marcados como “activo” en la columna de “estado”. Ahora veremos que 17 proyectos aprobados en 1986, 1987 y 1989 siguen listados como activos en la base de datos. Casi todos ellos están en África. En este caso, es necesario aclarar directamente con el Banco Mundial si estos proyectos siguen activos luego de casi 30 años.
Podemos, desde luego, realizar otras pruebas para evaluar la consecuencia del Banco Mundial. Por ejemplo, sería una buena idea examinar si todos los beneficiarios de los préstamos (identificados como “prestatarios” en la base de datos) corresponden a las organizaciones y/o a los gobiernos actuales de los países listados en el campo “Nombre de país”, o si los países se clasifican dentro de las regiones correctas (“nombre de región”).
5. Descifrando códigos y siglas
Una de las mejores formas de espantar a un periodista es mostrándole información compleja plagada de códigos y terminología especial. Esto es un truco preferido por los burócratas y organizaciones que ofrecen poca transparencia. Ellos esperan que no sepamos cómo dar sentido de lo que nos dan. Pero los códigos y las siglas pueden además ser usados para reducir caracteres y apalancar la capacidad de almacenamiento. Casi todos los sistemas de base de datos, ya sea público o privado, utilizan códigos o siglas para clasificar información.
De hecho, muchas de las personas, entidades y cosas de este mundo tienen mucho o varios códigos asignados. Las personas tienen un número de identificación, número de seguro social, número de cliente de banco, número de contribuyente, número de viajero frecuente, número de estudiante, número de empleado, etc.
Una silla de metal, por ejemplo, es clasificada bajo el código 940179 en el mundo del comercio internacional.
*Traducción: Mayra Valera y Melanie Betetta de Convoca. Este texto se publicó originalmente en inglés como parte de una guía de verificación de contenidos digitales editado por Craig Silverman, editor de Regret the error de The Poynter Institute. Ver AQUÍ.
*Giannina Segnini es profesora de la Universidad de Columbia y fue editora de la Unidad de Investigación y de Inteligencia de Datos del diario La Nación de Costa Rica. Es miembro del Consorcio Internacional de Periodistas de Investigación (ICIJ) y ha ganado diversos premios internacionales a lo largo de más de dos décadas de experiencia en el periodismo.