Instrucciones sobre los ficheros de datos

En el Banco de Datos del CIS se trabaja de forma continuada en la preparación de la documentación de los estudios para su difusión.

Los estudios de nueva creación quedan disponibles en la web institucional (www.cis.es) con la documentación completa una vez que finalizan las tareas técnicas pertinentes de codificación, depuración, validación y anonimización de los datos, además de la catalogación de la información.

En el caso de los estudios antiguos, aquellos disponibles en el archivo de la Institución anteriores al año 2000, se van revisando y preparando sus ficheros de datos de forma cronológica descendente por año del estudio, o por colecciones temáticas, de manera que su documentación también quede disponible de forma completa en la web. El CIS, además, trabaja constantemente en la modernización y ampliación de los formatos de sus ficheros de datos, avanzando en el principio de neutralidad tecnológica y facilitando el manejo y comprensión de los mismos al colectivo investigador y demás personas que deseen operar con ellos.

Acceso a los ficheros de datos

Para descargarse los ficheros de datos del CIS, previamente hay que cumplimentar un formulario. La información recogida en él sólo es a efectos de tratamiento estadístico por parte de la institución o de comunicación al usuario, en su caso, de posibles modificaciones realizadas en los datos del estudio solicitado.

La descarga de los ficheros sólo puede hacerse individualmente, estudio por estudio, no siendo posible la descarga en bloque

Formato del fichero de datos

Los ficheros de microdatos (matrices de datos) de las encuestas del CIS, junto con su documentación técnica, se descargan en formato comprimido (MDxxxx.zip), por lo que hay que extraerlos antes de operar con ellos.

En este archivo se encuentran los siguientes ficheros, necesarios para la explotación del estudio:

  • Documentación:
    • Cuestionario (cuesxxxx). En formato PDF.
    • Ficha técnica (Ftxxxx). En formato PDF.
    • Libro de códigos (codigoxxxx). En formato PDF.
    • Tarjetas (tarjetasxxxx). En formato PDF (sólo para encuestas realizadas mediante entrevista presencial).
  • Fichero de microdatos anonimizado (DAxxxx) En formato ASCII. (Leer el apartado ‘Formato del fichero de datos-ASCII’ y 'Anexo').
  • Programa de sintaxis de lectura del fichero de microdatos para trabajar con SPSS (ESxxxx). En formato ASCII. (Leer el apartado ‘Formato del fichero de sintaxis-SPSS y 'Anexo').
  • Otros tipos de ficheros que también pueden contener:
    • Fichero de microdatos en formato SAV, de SPSS (xxxx.sav). Disponibles para los estudios cuyos datos han sido preparados desde 2018 (incluye estudios de cualquier fecha).
    • Fichero de microdatos en formato CSV, con y sin etiquetas (xxxx_etiq.csv, xxxx_num.csv). Disponibles para los estudios cuyos datos han sido preparados desde 2023 (incluye estudios de cualquier fecha).
    • Programa de sintaxis de lectura del fichero de microdatos para trabajar con SAS (Sasxxxx). En formato ASCII. Sólo disponible para algunos estudios realizados desde enero de 2009 a noviembre de 2013. (Leer el apartado ‘Formato del fichero de sintaxis-SAS’).

Cuando el estudio tiene varios documentos del mismo tipo (por ejemplo, más de un cuestionario, más de una ficha técnica, etc.) se suelen incluir estos, a su vez, en un archivo comprimido. También los microdatos, según su tamaño en bytes, pueden presentarse comprimidos.

Cuestiones generales

Los microdatos están anonimizados a efectos de imposibilitar la identificación individual de las personas entrevistadas. Las variables que se ven afectadas en este proceso dependen del estudio en concreto, pero por lo general son: entrevistador, sección, distrito y los municipios menores o iguales a 100.000 habitantes (excepto capitales de provincia o comunidad autónoma). Para más información consúltese el apartado 'Sistemas de anonimización'.

Algunos estudios precisan un reequilibrado de los datos o ponderación conforme al diseño muestral. Por lo general, suele afectar sólo a la muestra principal pero en ocasiones también a otros niveles de tratamiento. Esta información estará reflejada en la ficha técnica aunque los coeficientes de ponderación podrían estar detallados sólo en el fichero de microdatos.

Las variables de ponderación (PESO, PESOCCAA, etc.), tendrán como separador decimal la coma (,). Téngase en cuenta cuando se trabaje en equipos con configuraciones regionales diferentes.

La apariencia de un fichero de microdatos es la de una matriz de números donde las filas o registros se corresponden con las personas entrevistadas y las columnas con las respuestas dadas a cada una de las variables. Las columnas asignadas a cada variable pueden consultarse en el libro de códigos o en el cuestionario si este ha sido implementado en papel (PAPI) donde vienen especificadas por un número entre paréntesis al lado derecho de las categorías de respuesta.

Antiguamente el número de columnas de las matrices de datos estaba limitado a 80 por lo que se utilizaban tantas filas como fuera necesario para completar la información de cada persona entrevistada. Cada línea de 80 columnas se corresponde con una TARJETA (RECORD). El cambio de una tarjeta a otra se indica en el cuestionario (T1, T2, etc.). A partir del estudio nº 2083 (febrero 1994), los cuestionarios del CIS dejan de estar estructurados por tarjetas y se graba la información de cada entrevista en una única línea. Ambos formatos (con/sin RECORDS) coexisten en los ficheros de microdatos que proporciona el CIS.

Formato del fichero de datos - ASCII

Los ficheros de datos del CIS se proporcionan en formato ASCII (formato de texto), pudiendo ser tratados con cualquier programa estadístico SPSS, SAS, R, etc.

Para el manejo de este formato de fichero leanse las intrucciones del Anexo.

Formato del fichero de datos - SAV

El archivo con extensión .sav es el fichero de datos propio del programa de análisis estadístico IBM SPSS. En él los datos ya están procesados y listos para trabajar con ellos directamente desde esta aplicación.

En los estudios más antiguos, podrían no estar incluidas las etiquetas de las variables (VARIABLE LABELS) y de las categorías de respuesta (VALUE LABELS). En ocasiones, también podrían aparecer las etiquetas de las variables pero sólo de aquellas que son multicomponente (MV multivariables, MR multirrespuestas y MD multidicotómicas). Los estudios más modernos, o los que se han procesado recientemente, contienen las etiquetas completas.

En el caso de que los datos de un estudio requieran equilibrado, se proporcionarán ponderados. Si hubiera más de una variable de ponderación, la que se activaría sería la que contuviese los coeficientes de la muestra principal, habitualmente denominada PESO.

Formato del fichero de datos - CSV

Las siglas CSV vienen del inglés "Comma Separated Values" que significa valores separados por comas. Es un formato abierto.

El aspecto de estos ficheros de texto es el de una tabla donde las filas se corresponden con las personas entrevistadas y las columnas con las variables.

Lo más común para la lectura de estos archivos es utilizar el programa Excel.

Se proporcionan en 2 versiones:

  • con etiquetas de nombres de variables y categorías de respuesta (xxxx_etiq.csv)
  • sin etiquetas, es decir, numérico (xxxx_num.csv)

Formato del fichero de sintaxis - SPSS

El fichero de sintaxis se presenta en formato ASCII, pero está diseñado para trabajar con el programa de tratamiento estadístico SPSS.

Contiene, al menos, los comandos mínimos necesarios para leer correctamente los microdatos: la definición de variables (DATA LIST) y la ponderación (WEIGHT) cuando el diseño muestral así lo requiera.

Otros comandos de SPSS pueden no estar incluidos, es el caso de las etiquetas de las variables (VARIABLE LABELS) y de las categorías de respuesta (VALUE LABELS), y comandos como RECODE, MISSING VALUES, FREQUENCIES, etc. En ocasiones, también pueden aparecer las etiquetas de las variables (VARIABLE LABELS) sólo de aquellas que son multicomponente (MV multivariables, MR multirrespuestas y MD multidicotómicas). Los estudios más modernos, o los que se han procesado recientemente, contienen la sintaxis completa.

Si un estudio requiere más de una variable de ponderación (por ejemplo, PESO y PESOCCAA), sólo la principal o la que afecta a la muestra más global se deja activada (WEIGHT BY PESO), las otras podrían no aparecer en la sintaxis o venir comentadas (texto definido por /* y */).

Para las encuestas realizadas en el período 1992-1997, el programa de sintaxis puede estar escrito de acuerdo con versiones antiguas de SPSS, en concreto de UNIX, cuyo tratamiento es algo diferente al de versiones más modernas. En estos casos habrá que eliminar o, por lo menos, no ejecutar, las instrucciones que aparecen por encima del DATA LIST y poner los finalizadores de comando, que pueden ser un punto (.) o una línea en blanco, separando las distintas instrucciones.

Para el manejo de este formato de fichero leanse las intrucciones del Anexo.

Formato del fichero de sintaxis - SAS

El fichero de sintaxis se presenta en formato ASCII, pero está diseñado para trabajar con el programa de tratamiento estadístico SAS.

Como mínimo contiene las sentencias necesarias para la correcta lectura de los microdatos. Otras que aparecen en el programa son las que etiquetan las variables y las categorías de respuesta.

Este formato ya no se proporciona y sólo está disponible para algunos de los estudios realizados desde enero de 2009 a noviembre de 2013.