asdasdsa

8
1 Índice nacional de satisfacción de clientes: ausencia de respuesta, pseudo-réplicas y respuestas repetidas Rodrigo Morrás, Víctor Leiva, Camillo Lillo Universidad Adolfo Ibáñez, Chile 1. Introducción Una característica común de los estudios de encuestas es la despreocupación en el diseño del cuestionario y la ausencia de respuestas. En muchos estudios se comienza a recopilar datos sin tomar en cuenta los problemas potenciales de esta recopilación. Es importante descubrir por qué ocurren estos problemas y cómo resolverlos antes de iniciar el estudio; ver Dillman et al. (1995a) y Hidiroglou et al. (1993). La figura 1 muestra algunos factores que pueden afectar la ausencia de respuesta. Los factores son propuestos por Platek (1977), algunos de los cuales están relacionados al diseño del cuestionario, su contenido, su tiempo de respuesta, el entrevistador y el método de recopilación de datos. En algunas ocasiones, quienes responden el cuestionario (encuestados) contestan muchas preguntas. Entonces, además de factores mencionados, se debe tener en cuenta el agobio y el cansancio que podrían presentar los encuestados. Entonces, se sugiere que el cuestionario sea breve para reducir el cansancio de quien responde; ver DeVries et al. (1966). Figura 1: factores que afectan la ausencia de respuesta en el cuestionario de un estudio de encuestas.

description

asdasdsa

Transcript of asdasdsa

  • 1

    ndice nacional de satisfaccin de clientes: ausencia de respuesta, pseudo-rplicas y respuestas repetidas

    Rodrigo Morrs, Vctor Leiva, Camillo Lillo

    Universidad Adolfo Ibez, Chile 1. Introduccin

    Una caracterstica comn de los estudios de encuestas es la despreocupacin en el diseo del cuestionario y la ausencia de respuestas. En muchos estudios se comienza a recopilar datos sin tomar en cuenta los problemas potenciales de esta recopilacin. Es importante descubrir por qu ocurren estos problemas y cmo resolverlos antes de iniciar el estudio; ver Dillman et al. (1995a) y Hidiroglou et al. (1993). La figura 1 muestra algunos factores que pueden afectar la ausencia de respuesta. Los factores son propuestos por Platek (1977), algunos de los cuales estn relacionados al diseo del cuestionario, su contenido, su tiempo de respuesta, el entrevistador y el mtodo de recopilacin de datos. En algunas ocasiones, quienes responden el cuestionario (encuestados) contestan muchas preguntas. Entonces, adems de factores mencionados, se debe tener en cuenta el agobio y el cansancio que podran presentar los encuestados. Entonces, se sugiere que el cuestionario sea breve para reducir el cansancio de quien responde; ver DeVries et al. (1966).

    Figura 1: factores que afectan la ausencia de respuesta en el cuestionario de un estudio de encuestas.

  • 2

    Cuando los estudios estn basados en muestreo, es importante tener claro cules son las unidades de muestreo. De esto depender que la inferencia a realizar sea correcta. Un supuesto bsico para hacer inferencia es que las unidades de muestreo deben ser independientes entre s. Esto significa que el resultado proporcionado en un dato no es influenciado por otro. Sin embargo, este supuesto es algunas veces violado debido a un concepto denominado "pseudo-rplica". El concepto se presenta cuando las respuestas no son independientes debido a que una unidad de muestreo responde ms de una vez el mismo cuestionario. La repercusin de las pseudo-rplicas ha tenido impacto en reas de biologa y ciencias. Algunos artculos relacionados al tema son atribuidos a Hulbert (1984), Millar & Anderson (2004) y Ruxton & Colegrave (2003). A modo de ejemplo, suponga que se quiere determinar la cantidad de insectos por hoja de cierta especie de planta. Se cuenta la cantidad de insectos en tres, cinco y siete hojas de tres plantas de la misma especie. No obstante, sera un error pensar que se tienen quince datos, ya que las hojas de una misma planta tienen ms en comn entre ellas que las hojas de otra planta (si una planta ha sido infectada o colonizada, es probable que presente altas densidades en todas sus hojas).

    El cuestionario usado para calcular el ndice nacional de satisfaccin de clientes (INSC) pregunta por la percepcin acerca del servicio proporcionado por las industrias y marcas (IM) ms importantes de Chile. El INSC se calcula semestralmente desde el primer semestre del ao 2000 con el mismo cuestionario preguntando por diferentes marcas. Esto produce la opcin que un encuestado (cliente) evale el servicio de, por ejemplo, tres IMs, otro evale cinco IMs y otro evale siete IMs. Esto es similar al caso de los insectos en las hojas, generando pseudo-rplicas. Adems, aplicar el mismo cuestionario para preguntar por diferentes IMs en un mismo periodo de tiempo podra generar cansancio o agobio al responder, provocando una posible no respuesta a ciertas preguntas. Ms an, debido al tiempo que el encuestado demora en responder, y al cansancio que esto produce, se presenta el problema de respuestas repetidas. Esto quiere decir que, como la mayora de las preguntas del cuestionario apuntan al servicio que la IM entrega al cliente, el encuestado da la misma respuesta a todas las preguntas.

    El objetivo de este trabajo es evaluar estadsticamente problemas de ausencia de respuesta, pseudo-rplicas y respuestas repetidas, en el cuestionario usado para calcular el INSC. Los resultados de esta evaluacin podran ayudar a mejorar la informacin general o sectorial entregada cada semestre sobre el tema.

    El resto del trabajo se organiza de la siguiente forma. En la Seccin 2 se introducen los mtodos utilizados en este estudio. En la Seccin 3 se evalan los problemas de pseudo-rplicas, ausencia de respuesta y respuestas repetidas. En la Seccin 4 se presentan las conclusiones de este trabajo y futuras posibles investigaciones sobre el tpico. 2. Mtodos

    El INSC neto de la variable (pregunta) j se calcula mediante la frmula INSC = , (1) donde es la cantidad de respuestas (telefnicas) y es una variable codificada desde una pregunta j del cuestionario (en escala de 1 a 7) correspondiente al individuo i dada por

    = 1, si el encuestado evalu la pregunta con nota 6 7;0, si el encuestado evalu la pregunta con nota 5; 1, si el encuestado evalu la pregunta con nota 1, 2, 3 4.

  • 3

    Los mtodos estadsticos usados en este trabajo son principalmente descriptivos. Se

    establecer cuntos encuestados han respondido ms de una vez el cuestionario usado para calcular el INSC definido en (1), cuntas pseudo-rplicas existen y qu efectos podra provocar esto en el clculo de este ndice.

    El problema de las pseudo-rplicas no es fcil de tratar. Tampoco existe una solucin definitiva cuando nos enfrentamos a este problema. Las pseudo-rplicas a menudo conducen a resultados cuyo respaldo estadstico no es correcto. Por ejemplo, a medida que el nmero de pseudo-rplicas aumenta, la probabilidad de error de tipo I aumenta tambin. Para ms detalles sobre los problemas estadsticos generados por las pseudo-rplicas, ver Freeberg & Lucas (2009) y Millar & Anderson (2004). Se ha propuesto comparar los resultados de los estudios con y sin pseudo-rplicas; ver Ragame et al. (2013).

    Con respecto a la ausencia de respuesta y a las respuestas repetidas, en este trabajo se realizan anlisis exploratorios de datos. 3. Resultados

    El INSC para cada variable calculado para el segundo semestre de 2014 consider un tamao muestral de n = 23.403 respuestas telefnicas. La tabla 1 presenta la cantidad de datos duplicados existentes en la muestra (un dato duplicado es una pseudo-rplica). Note que 74 de los 23.403 registros estn una sola vez en la muestra, es decir, el 99,6% de la muestra est conformada por encuestados pseudo-replicados con distintas frecuencias. El total de encuestados diferentes fue de 7.499 individuos.

    Tabla1: distribucin de la cantidad de duplicados en la muestra. Nmero de duplicados Frecuencia Porcentaje Total de encuestados

    0 74 0,32 74 1 4.520 19,31 2.260 2 5.553 23,73 1.851 3 13.256 56,64 3.314

    Total 23.403 100 7.499 La tabla 2 presenta el tamao muestral para cada una de las industrias () evaluadas mediante el INSC, la cantidad de veces que un encuestado est duplicado y el nmero de encuestados. Desde esta tabla es posible notar que, para cada industria, el nmero de encuestados corresponde aproximadamente al 30% del total de respuestas obtenidas por industria (). Entonces, no existen industrias con mayor porcentaje de pseudo-rplicas que otras.

    Para efectos de este estudio, se analizan las variables del cuestionario: satisfaccin ( ), satisfaccin dado el precio (), confianza () y transparencia (). En la expresin (2) se presenta la matriz de correlacin entre estas variables, independientemente de la industria a la que los encuestados se refirieron.

  • 4

    Tabla 2: distribucin de la cantidad de duplicados por industria. Nmero de pseudo-rplicas Nmero de encuestados Industria 0 1 2 3 AFPs 600 0 72 202 326 185 Sanitarias 450 0 42 124 284 133 Bancos 1650 41 437 618 554 604 Educacin 450 0 24 78 348 125 Energa elctrica 451 0 34 113 304 131 Estaciones de servicio 600 1 45 92 462 170 Farmacias 600 0 32 86 482 165 Banca retail 750 31 274 224 221 298 Internet 450 0 30 110 310 129 Isapres y Fonasa 900 0 170 321 409 294 Prestadores de salud 450 0 22 75 353 124 Servicios pblicos 451 0 26 75 350 126 Supermercados 751 0 37 135 579 208 Telefona fija 451 0 43 97 311 132 Telefona mvil 450 0 46 109 295 133 Tiendas por departamento 600 0 22 103 475 164 Transporte pblico 450 1 69 45 335 134 Televisin pagada 602 0 72 175 355 183 Tarjetas comerciales 901 0 235 282 384 308 Municipios 7344 0 2.228 1.802 3.314 2.542 Cajas de compensacin 150 0 22 42 86 47 Mejoramiento del hogar 300 0 11 39 250 81 Autopistas urbanas 600 0 73 131 396 179 Clnicas 900 0 294 123 483 309 Triple pack 151 0 29 37 85 48 Gas cilindro 450 0 21 71 358 124 Gas caera 150 0 17 35 98 45 Centros de salud 450 0 53 76 321 132 Pago de cuentas 300 0 9 47 244 81 Lneas areas 301 0 15 41 245 82 Buses interurbanos 300 0 16 45 239 83 Total 23403 74 4.520 5.553 13.256 7.499

    =

    1.00 0.780.78 1.00 0.74 0.700.72 0.710.74 0.720.70 0.71 1.00 0.840.84 1.00 . (2)

    Desde (2), note que, utilizando los 23.403 datos (es decir, utilizando todas las pseudo-rplicas), las cuatros variables estn altamente correlacionadas en forma positiva. No obstante, esta tendencia positiva es ms clara cuando se asignan puntales ms altos que bajos; ver Figura 2. Esto quiere decir que, si un encuestado asigna una buena calificacin a una variable (pregunta) para una industria, entonces esa buena calificacin es replicada para todas las otras variables de la misma industria. Esto puede deberse a que el encuestado ya tiene una buena opinin global de la industria y, por cansancio u otra razn, solamente repite el puntaje.

  • 5

    Figura 2: grfico de dispersin entre la satisfaccin general con la marca y satisfaccin

    dado precio, utilizando pesos de frecuencias.

    Es necesario saber cmo afectan las pseudo-rplicas a la correlacin entre las variables consideradas. Entonces, calculamos la matriz de correlacin eliminando los encuestados duplicados (considerando slo los resultados del primer cuestionario que el encuestado contest). Esto nos permite obtener la matriz de correlacin dada en expresin (3), desde la cual se puede notar que la diferencia entre y es prcticamente nula. Por lo tanto, podemos concluir que la relacin entre las variables usadas para calcular el INSC, estudiadas en este trabajo, no es afectada por las pseudo-rplicas.

    =

    1.00 0.780.78 1.00 0.74 0.710.72 0.710.74 0.720.71 0.71 1.0 0.830.83 1.0 . (3) Tambin, podemos comparar el INSC de los encuestados pseudo-replicados con respecto a la muestra sin estos pseudo-replicados. Es posible hallar la distribucin del INSC para en las 38 industrias evaluadas. La tabla 3 muestra la media, la desviacin estndar (DE), el coeficiente de asimetra (CA), el coeficiente de curtosis (CC) del INSC para en las 38 industrias. Tambin, el p-valor de la correspondiente prueba Shapiro-Wilk para normalidad es proporcionado. La figura 3 muestra un histograma para ambos casos.

    Tabla 3: distribucin del INSC para (de todas las industrias). Distribucin del INSC Media DE CA CC p-valor Con pseudo-rplicas 51,89% 16,21% -0,26 2,65 0,451 Sin pseudo-rplicas 52,23% 18,64% -0.26 2.30 0.747

  • 6

    Figura 3: histograma para el INSC medio de la Satisfaccin por Industria con

    pseudo-replicados (a) y sin pseudo-replicados (b) Desde la tabla 3 y la figura 3, note que las medias de las dos distribuciones (encuestados pseudo-replicados o no) son estadsticamente iguales (para probar esta hiptesis se utiliz un test-t para diferencias de medias de las dos distribuciones, arrojando un valor-p igual a 0.97). Adems, note que el p-valor pare el caso sin pseudo-rplicas es mucho mayor que para el caso de con pseudo-rplicas. Entonces, se puede afirmar que, para efectos de estimacin del INSC de , no existen diferencias significativas al usar un muestreo con o sin pseudo-rplicas. Otro resultado a analizar es la ausencia de respuesta. La tabla 4 contiene las frecuencias de no respuestas de los encuestados pseudo-replicados.

    Tabla 4: distribucin de las ausencias de datos. Duplicados Satisfaccin Satisfaccin precio Confianza Transparencia Total duplicados

    0 0 0 0 0 74

    1 0 67 (1%) 2.368 (52%) 2.368 (52%) 4.520 (100%)

    2 0 108 (2%) 2.216 (40%) 2.216 (40%) 5.553 (100%)

    3 0 495 (4%) 4.564 (35%) 4.564 (35%) 13.256 (100%)

    Total 0 670 (3%) 9.148 (40%) 9.148 (40%) 23.403 (100%) Note que la variable satisfaccin no tiene ausencia de respuestas. El porcentaje de no-respuestas no aumenta cuando la cantidad de pseudo-rplicas aumenta. Por lo tanto, las pseudo-rplicas no afectan la ausencia de respuesta. Para realizar inferencia sobre el INSC es necesario calcular el efecto del alto porcentaje de ausencia de respuesta. La tabla 5 muestra la distribucin de frecuencias de las respuestas repetidas (una respuesta repetida equivale a dar el mismo valor a cada variable en el cuestionario). Note que se tiene mayormente respuestas repetidas para las calificaciones 6 y 7. Esto se podra deber a que la mayora de los encuestados responde positivamente el cuestionario. Adems, note que, a medida que la cantidad de pseudo-rplicas aumenta, el porcentaje de medidas repetidas se mantiene muy cercano al 39%. Por lo tanto, las pseudo-rplicas no afectan la cantidad de respuestas repetidas entregadas por los encuestados.

  • 7

    Tabla 5: frecuencias de las respuestas repetidas por pseudo-rplicas.

    Duplicados Respuesta 0 1 2 3 Total

    1 4 56 70 167 297 2 0 187 199 408 794 3 0 493 468 1.005 1.966 4 1 43 79 224 347 5 2 118 285 732 1.137 6 13 293 455 1.173 1.934 7 30 532 581 1.510 2.653

    Total 50 1.722 2.137 5.219 9.128 Total de duplicados 74 4.520 5.553 13.256 23.403 Porcentaje 67,57% 38,1% 38,48% 39,37% 39%

    4. Conclusin y trabajos futuros

    La estimacin de parmetros estadsticos utilizando muestras con pseudo-rplicas debe ser cuidadosamente analizada en forma previa a la realizacin del estudio. Se debe verificar que las pseudo-rplicas no afecten la inferencia. Los resultados de este trabajo muestran que las pseudo-rplicas no tienen efectos estadsticamente significativos en relacin a la correlacin, la estimacin del ndice nacional de satisfaccin de consumidores, la ausencia de respuestas y las respuestas repetidas. Por lo tanto, utilizar pseudo-rplicas es un camino conveniente para alcanzar el tamao muestral requerido por las industrias y marcas.

    Este trabajo ha permitido analizar las correlaciones de las variables satisfaccin, satisfaccin dado el precio, confianza y transparencia del cuestionario mediante el cual se calcula el ndice nacional de satisfaccin de consumidores. Todas estas variables estn correlacionadas. Entonces, no es recomendable realizar estudios futuros para regresin con variables del cuestionario mediante el cual se calcula el ndice de satisfaccin de consumidores debido a los problemas de multicolinealidad que podran presentar estas variables al ser usadas como covariables en algn modelo de regresin.

    Los resultados de ausencia de respuesta indicaron que es necesario su anlisis exhaustivo, calculando efectos por no respuesta, relaciones entre no respuesta y respuestas repetidas, adems de verificar los pesos para las variables con no respuesta usando, por ejemplo, factores de expansin.

    Para las respuestas repetidas, se concluye que el problema no se debe al cansancio o agotamiento de los encuestados al contestar varios cuestionarios para diversas marcas. Por lo tanto, se debe resolver el problema desde un punto de vista no muestral.

    Algunos trabajos futuros podran estudiar el efecto de agregar ms variables en el cuestionario mediante el cual se calcula el ndice nacional de satisfaccin de consumidores. Esto podra agregar el efecto por ausencia de respuesta y resolver el tema de ausencia de respuestas y respuestas repetidas, desde un punto de vista estratgico, comercial o direccional.

  • 8

    5. Referencias DeVries W, Keller W & Willeboordse A (1996) Reducing the response burden: some developments in the Netherlands. International Statistical Review, 64, 199-213. Dillman D, Clark J & Sinclair M (1995a) How prenotice letters, stamped return envelopes and reminder postcards affect mailback response rates for census questionaries. Survey Methodology, 21, 159-165. Freeberg T & Lucas J (2009) Pseudoreplication is (still) a problem. Journal of Comparative Psychology, 123, 450-451. Hidiroglou M, Drew J & Gray G (1993) A framework for measuring and reducing nonresponse in surveys. Survey Methodology, 19, 81-94. Hulbert S (1984) Pseudoreplication and the design of ecological field experiments. Ecological Monographs, 4, 187-211. Millar R & Anderson M (2004) Remedies for pseudoreplication. Fisheries Research, 70, 397-407. Platek R (1977) Some factors affecting non-response. Survey Methodolog, 31, 191-214. Ramage B, Sheil D, Salim H, Fletcher C, Mustafa NZ, Luruthusamay J, Harrison R, Butod E, Dzulkiply A, Kassim A & Potts M (2013) Pseudoreplication in tropical forest and the resulting effects on biodiversity conservation. Conservation Biology, 27, 364-372. Ruxton G & Colegrave N (2003) Experimental Design for the Life Science. Oxford University Press, Oxford.