Post on 21-Jan-2020
.
MODELIZACIÓN DE LA SATISFACCION DE LOS
USUARIOS EN SISTEMAS DE TRANSPORTE PUBLICO
CON DATOS FALTANTES
Eneko Echaniz
Investigador, Universidad de Cantabria, España
Luigi dell’Olio
Profesor titular, Universidad de Cantabria, España
Angel Ibeas
Catedrático, Universidad de Cantabria, España
RESUMEN
El uso de encuestas de satisfacción se ha extendido por todo el mundo y para toda clase de
modos de transporte como medio para establecer el nivel de satisfacción de los usuarios de
los sistemas de transporte público. Un método muy habitual para analizar los resultados de
las encuestas es el utilizar modelos de elección discreta, como pueden ser los modelos logit
o probit ordenados. Sin embargo, para la estimación de estos modelos, se requieren una serie
de datos concretos, que habitualmente requieren que cada persona encuestada valore (de
forma cualitativa o cuantitativa) todos los atributos del servicio que se quieren incluir en el
modelo. En este artículo se presenta una metodología basada en la obtención de evaluaciones
de un set reducido de atributos para cada usuario. La información faltante para cada usuario
se complementa con las valoraciones del resto de usuarios con similares características del
viaje. Los resultados muestran que es posible estimar modelos de datos ordenados
consistentes aun partiendo de información incompleta.
1. INTRODUCCIÓN
Cuando se estudia la calidad percibida o la satisfacción de los usuarios es necesario recopilar
dicha información a través de encuestas habitualmente de preferencias reveladas.
Dependiendo de la metodología empleada para el análisis de la satisfacción se requerirá un
tipo de satisfacción u otro. El proceso de recolección de datos es la parte más costosa, tanto
económicamente como por tiempo, a la hora de estudiar la satisfacción de los usuarios, por
lo tanto, una reducción en el tiempo necesario para recolectar supondría una mejora en la
eficiencia y el coste de este tipo de estudios. Por lo tanto, en este artículo se plantea una
comparativa entre los resultados que se pueden obtener al estudiar la satisfacción con una
base de datos completa y una base de datos con información parcial, más concretamente,
con la mitad de la información. Lo que se ha realizado es eliminar parte de la información
obtenida en una encuesta de satisfacción y realizar el mismo proceso de análisis y
modelización con la información completa e incompleta, para al final comparar dichos
resultados, de forma que si los resultados son similares quiere decir que existe la posibilidad
.
de obtener buenos resultados reduciendo la encuesta de obtención de datos. El análisis
realizado se ha basado en un estudio estadístico básico, comparando las satisfacciones
medias obtenidas, y una modelización de la calidad mediante el uso de modelos Ordered
Probit. El artículo se compone 7 apartados, en este primero se ha realizado una breve
introducción al problema planteado. En el segundo apartado establece una visión general del
estado del arte referente al estudio de la satisfacción en el transporte público de pasajeros
citando también los estudios más relevantes relacionados a la metodología empleada, la cual
se desarrolla en el apartado 3. Los resultados del análisis y la modelización se muestran en
el apartado 4. En el apartado 5 se desarrollan las conclusiones más importantes derivados
del estudio. El artículo finaliza con los agradecimientos y las referencias en los apartados 6
y 7 respectivamente.
2. ESTADO DEL ARTE
Las encuestas de satisfacción se han extendido por todo el mundo como fuente para medir
la calidad percibida por los usuarios de los sistemas de transporte públicos. Diversos estudios
muestran este hecho, desde los primeros pasos del análisis más genérico de la calidad
percibida (Parasuraman et al., 1985), hasta los estudios más actuales enfocados en el análisis
específico del transporte público de pasajeros (dell’Olio et al., 2010; Dell’Olio et al., 2011;
Fellesson and Friman, 2008; Rojo et al., 2013; Wongwiriya et al., 2017).
La mayoría de estos estudios se han centrado, por una parte, en definir aquellos atributos del
sistema que mejor definen el servicio de transporte público, este es el caso del proyecto
Quattro (EC, 1999) donde se definieron hasta 8 diferentes grupos de atributos o el estudio
realizado por Hensher (Hensher et al., 2003), donde se definió el SQI (Service Quality
Index). Por otro lado, la otra dirección que han seguido los estudios de calidad percibida o
satisfacción de usuarios es el de mejorar la metodología empleada para el análisis de los
datos obtenidos, hasta la fecha los métodos más empleados son: Modelos de Datos
Ordenados (Ordered Logit o Probit) (M. Bordagaray et al., 2014; dell’Olio et al., 2010;
Echaniz et al., 2017), ecuaciones estructurales ((Das et al., 2017; De Oña et al., 2013;
Farzana Rahman et al., 2016)) o arboles de decisión (de Oña et al., 2016; Hernandez et al.,
2016; Machado-León et al., 2017; Tsami and Nathanail, 2017). Sin embargo, y al menos
hasta donde llega el conocimiento de los autores, ningún estudio se ha centrado en optimizar
la fase de toma de datos sin perjudicar los resultados del análisis final.
El proceso de toma de datos es esencial para cualquier estudio de satisfacción, el proceso
para obtener la información es a base de encuestas de satisfacción, las cuales pueden
realizarse de forma presencial en los autobuses (M. Bordagaray et al., 2014; dell’Olio et al.,
2010; Echaniz et al., 2017) o mediante métodos más novedosos como puede ser el in incluir
códigos QR en las paradas para que los usuarios realicen las encuestas por su propia voluntad
(Guirao et al., 2015). En ambos casos, la duración de la encuesta es un factor determinante
para obtener una cantidad de datos adecuada. Una encuesta compuesta por muchos apartados
donde se quiera obtener mucha información generará una gran información muy útil para el
posterior análisis, sin embargo, la cantidad de usuarios que llegarán a completar la encuesta
.
se reduce significativamente, acabando con pocas respuestas completas. Por otra parte, una
encuesta demasiado corta puede proporcionar una cantidad de observaciones muy grande,
sin embargo al no disponer de demasiada información en cada encuesta puede que el número
de encuestas realizadas no sea suficiente para realizar un correcto análisis, cuestión que se
quiere comprobar en este estudio. El tiempo y coste relacionados con la toma de datos
depende directamente del número de encuestas que se desean realizar, la duración de la
encuesta y el método de obtención de datos (presencia, online, app…). En Rahman et al.,
2016 por ejemplo se realizaron encuestas a 2008 usuarios de transporte público durante los
meses de Junio y Julio de 2015, con una encuesta compuesta por dos apartados, una para la
obtención de datos socioeconómicos y otro para la obtención de la satisfacción de 21
atributos del sistema. En Rissel et al., 2016 se realizaron un total 512 encuestas de forma
online durante los meses de septiembre y octubre para obtener información sobre el modo
de transporte utilizado por los usuarios y el nivel de satisfacción que tenían con el mismo.
En Guirao et al., 2016 se realizaron 850 encuestas presenciales de los cuales 813 fueron
respuestas completas validas, la duración del periodo de encuestado fue de 2 semanas. En el
caso de Abenoza et al., 2017 a diferencia de los anteriores se disponía de una base de datos
muy extensa obtenida por el Barómetro de Transporte Publico Sueco para los años entre
2001 y 2014 con cerca de 450.000 encuestas telefónicas útiles. Los estudios mencionados se
tratan solo de un pequeño ejemplo de los últimos estudios de satisfacción llevados a cabo
donde se puede observar que, de forma general, un estudio de satisfacción de transporte
público requiere de la realización de una gran cantidad de encuestas, por lo tanto, una mejora
en la eficiencia de este proceso mejoraría considerablemente el coste total del proceso
completo, siempre y cuando la calidad de los datos no perjudique el análisis posterior.
Diversos estudios han demostrado (Maria Bordagaray et al., 2014; dell’Olio et al., 2010;
Dell’Olio et al., 2011; Echaniz et al., 2017; Rojo et al., 2013) que los modelos de datos
ordenados son muy adecuados para analizar la satisfacción de los usuarios en los sistemas
de transporte público. Estos modelos tienen la peculiaridad de que necesitan una serie de
datos muy concretos, los cuales se componen de una variable dependiente, la valoración
general del servicio, y unas variables independientes, los atributos del servicio. Cada usuario
encuestado debe evaluar la totalidad de las variables, lo que quiere decir que si se disponen
de 24 atributos para definir el sistema el encuestado debe responder al menos a 25 preguntas,
además de las posibles preguntas de caracterización. Estas han sido las razones principales
para escoger esta metodología para este estudio.
Para analizar una base de datos faltantes como si se dispusieran de la totalidad de los datos
es necesarios establecer metodologías para la cuplimentar esa información faltante. En este
aspecto, la Imputacion Multiple desarrollada por Donal Rubin (Rubin, 1977) ha demostrado
ser una metodologia muy utilizada para la obtención de datos faltantes en no-respuestas. La
Imputacion Multiple ha sido utilizada principalmente en el ámbito de la medicina (Sterne et
al., 2009; Van Buuren et al., 1999) y las ciencias sociales (Alegria et al., 2004; Allison, 2000;
Roth, 1994) para completar la información no disponible. En ambos casos, el uso habitual
de este método es para completar las observaciones en los que la información total no ha
podido ser obtenida por diversos motivos no controlables, como puede ser la falta de
.
información sobre un paciente o preguntas sin responder en encuestas domiciliarias. En este
artículo se realiza una omisión deliberada de la información, por lo que no presenta el caso
estándar de datos faltantes, sin embargo, tal y como se menciona en (Rubin, 2004) “An even
more extended definition of survey nonresponse includes any situation in which there are
missing values in the rectangular units-by-variables data matrix to be analyzed”, por lo que
el uso de la Imputacion Multiple es considerada adecuada para este caso, donde la
información faltante representa la mitad de la información real necesaria para el análisis.
3. METODOLOGÍA
3.1 Encuesta
La encuesta de satisfacción utilizada para este estudio se realizó en Mayo de 2015 donde se
consiguieron un total de 747 observaciones. Mediante esta encuesta se consiguieron dos
tipos de datos, por una parte, se realizó una caracterización de los usuarios de transporte
público encuestados mediante una serie de datos socioeconómicos (Tabla 1). Por otra parte,
se midió la satisfacción de los usuarios referente al servicio de transporte público en general
(OS) y a un conjunto de atributos que representan distintos aspectos del servicio (Tabla 1 ).
La satisfacción de los usuarios se midió mediante una escala Likert de 5 opciones.
Caracterización Atributos del Sistema TP
Sexo Tiempo de acceso a la parada (AT)
Edad Tiempo de espera de parada (WT)
Estado Laboral Tiempo de viaje (TV)
Posesión del carnet de conducir Tiempo a destino desde la parada (TD)
Posesión de vehículo propio Precios de los billetes (PR)
Motivo del viaje Facilidad de transbordos (TR)
Frecuencia de uso Servicios ofertados (Frecuencias) (SE)
Forma de pago habitual Fiabilidad del servicio (SR)
Salario mensual Líneas especiales (EL)
Servicio nocturno / durante el fin de semana (NS)
Cobertura de las líneas (LC)
Información en paradas (IP)
Información en soporte informático (IWM)
Información en el autobús (IB)
Ocupación (OC)
Calefacción/aire acondicionado (CA)
Espacio para personas de movilidad reducida (RM)
Confort y comodidad (CM)
Limpieza de los autobuses (CL)
Posibilidad de portar objetos/bultos (OB)
Forma de conducción (DS)
Amabilidad del conductor (DK)
Implantación de buses Híbridos (HY)
Contaminación acústica (NO)
Tabla 1 – Variables incluidas en la encuesta
.
3.2. Modelización mediante Ordered Probit
Para el siguiente apartado, se ha tomado como base el libro Modeling Ordered Choices: A
Primer (Greene y Hensher, 2010).
El modelo Probit Ordenado, en su forma contemporánea, basada en regresión, fue propuesto
por McKelvey y Zavoina, 1975, 1971 para el análisis de elecciones y respuestas ordenada,
categorizadas o no cuantitativas.
Los modelos de datos ordenados se basan en partir un espacio continuo de utilidad en franjas
discretas a través de un sistema de limitaciones.
𝑦𝑖∗ = 𝛽′𝑥𝑖 + 휀𝑖, 𝑖 = 1, … , 𝑛,
𝑦𝑖 = 1 𝑠𝑖 𝜇−1 < 𝑦𝑖∗ ≤ 𝜇𝑖1
= 2 𝑠𝑖 𝜇0 < 𝑦𝑖∗ ≤ 𝜇𝑖2
= 3 𝑠𝑖 𝜇1 < 𝑦𝑖∗ ≤ 𝜇𝑖3
= ⋯
= 𝐽 𝑠𝑖 𝜇𝐽−1 < 𝑦𝑖∗ ≤ 𝜇𝐽.
(1)
En una primera aproximación, se asume que tanto los coeficientes del modelo como los
parámetros de límite se consideran constantes para el conjunto de los individuos.
La idea clave del modelo reside en que las observaciones realizadas no son una simple
acumulación de resultados discretos que se puedan de cierta manera ordenar, sino que
consiste en una transformación de una única variable continua que debe de ser ordenada.
El modelo contiene las utilidades marginales desconocidas, β, además de J+2 parámetros de
limite, μj, todas ellas a estimar mediante n observaciones. Los datos consisten en los
parámetros xi de cada observación y de los resultados yi de cada uno de ellos. La variable
aleatoria εi completa el modelo. Se asume que la variable aleatoria εi se distribuye de
acuerdo a una función de distribución (CDF) conocida y definida a lo largo de todo el
dominio real. La asunción de la distribución de εi incluye la independencia o hexogeneidad
sobre xi. Centrando los modelos en el problema planteado en este estudio. Supongamos una
serie de respuestas disponibles para cada uno de los encuestados, donde las opciones sean
las siguientes:
0 Muy Mal
1 Mal
2 Normal
3 Bien
4 Muy Bien
El modelo de regresión muestra una subyacente y a la vez no observable de la preferencia
sobre la cuestión evaluada, 𝑦𝑖∗. Cada individuo encuestado, no proporciona el valor de 𝑦𝑖
∗,
sino que una versión limitada repartida en cinco posibles opciones, uno de los cuales es el
más cercano a su preferencia exacta. Las probabilidades asociadas a las respuestas
.
observadas son:
𝑃𝑟𝑜𝑏[𝑦𝑖 = 𝑗|𝑥𝑖] = 𝑃𝑟𝑜𝑏[휀𝑖 ≤ 𝜇𝑗 − 𝛽′𝑥𝑖] − 𝑃𝑟𝑜𝑏[𝜇𝑗−1 − 𝛽′𝑥𝑖], 𝐽 = 0,1, … , 𝐽 (2)
El modelo establecido describe la probabilidad de los valores de los resultados. No describe
una relación directa entre la valoración yi y los parámetros xi, no existe una relación de
regresión obvia entre ambos parámetros. Aunque no existe una relación mediante regresión
entre los parámetros xi e yi, puesto que yi es una mera etiqueta, puede ser interesante un
análisis mediante variables binarias.
𝑚𝑖𝑗 = 1 𝑠𝑖 𝑦𝑖 = 𝑗 𝑦 0 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 (3)
O
𝑀𝑖𝑗 = 1 𝑠𝑖 𝑦𝑖 ≤ 𝑗 𝑦0 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 (4)
O
𝑀𝑖𝑗′ = 1 𝑠𝑖 𝑦𝑖 ≥ 𝑗 𝑦 0 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 (5)
La segunda como la tercera ecuación, al igual que el caso mi0, pueden describirse mediante
un modelo de elección binaria aunque estos no son interesantes.
Para la estimación de los parámetros de los modelos son necesarios establecer una serie de
normalizaciones, los cuales se discuten a continuación.
En primer lugar, para mantener los signos positivos para todas las probabilidades, es
necesario 𝑞𝑢𝑒 𝜇𝑗 > 𝜇𝑗−1.
Segundo, si el soporte del modelo debe ser el dominio real completo, entonces 𝜇−1 = −∞ y
𝜇𝑗 = +∞. Dado que los datos no contienen información incondicional sobre la escala de la
variable dependiente (en caso de modificar la escala de 𝑦𝑖∗ con cualquier valor positivo,
modificando la escala de los valores desconocidos 𝜇𝑗y β con el mismo valor, se mantienen
las características de las observaciones) no es posible estimar el parámetro varianza libre
𝑉𝑎𝑟[휀𝑖] = 𝜎𝜀2. Es recomendable realizar una restricción que se basa en 𝜎𝜀 = 𝑐𝑡𝑒, 𝜎. Lo
habitual es asumir varianza igual a uno en el caso de un modelo Probit y varianza igual a
𝜋2/3en el caso del Logit. Por último, asumiendo que 𝑥𝑖contiene un término constante, es
necesario establecer 𝜇0 = 0. El cálculo de los parámetros de los modelos se realiza mediante
un problema de estimación de máxima verosimilitud (Greene, 2007, 2008; Pratt, 1981).
La función log verosimilitud es:
log 𝐿 = ∑ ∑ 𝑚𝑖𝑗log [𝐽
𝑗=0
𝑛
𝑖=0𝐹(𝜇𝑗 − 𝛽′𝑥𝑖) − 𝐹(𝜇𝑗−1 − 𝛽′𝑥𝑖)] (6)
Donde 𝑚𝑖𝑗 = 1 si 𝑦𝑖 = 𝑗 y 0 en los demás casos. La maximización se realiza sometida a
unas determinadas condiciones, 𝜇−1 = −∞, 𝜇0 = 0, y 𝜇𝐽 = +∞. Las restricciones restantes,
.
𝜇𝑗−1 < 𝜇𝑗, puede, en un principio, imponerse mediante una reparametrización mediante
parámetros estructurales.
𝜇𝑗 = 𝜇𝑗−1 + 𝑒𝛼𝑗
= ∑ 𝑒𝛼𝑚
𝑗
𝑚=1
(7)
Sin embargo, por lo general, no suele ser necesario.
La estimación de los parámetros de los modelos, en la práctica, se realiza mediante el uso de
software específico como es el caso del programa informático NLOGIT. Este mismo
programa ha sido el utilizado para calcular los modelos que se plantean en este proyecto.
3.3. Imputación Múltiple
El objetivo de la imputación múltiple es el de completar los datos faltantes de forma que la
base de datos se pueda estadísticamente analizar y modelizar de forma similar a la base de
datos completa. El fundamento teórico en el que se basa la imputación múltiple es la
imputación repetitiva (Rubin, 2004, 1996, 1977), por lo que para cada dato faltante se
imputan m valores en vez de solo uno. Partiendo del hecho de que los datos faltantes han
sido eliminados de forma aleatoria, podemos decir que los datos faltantes corresponden con
un tipo MAR (Missing and Random), por lo que el uso de este método es apropiado.
La metodología utilizada para la realización de la imputación múltiple se denomina
Especificación Totalmente Condicional (Fully Conditional Specification FCS), que utiliza
un método iterativo Monte Carlo con cadenas Markov.
La aproximación FCS se basa en imputar los datos variable-por-variable especificando un
modelo de imputación por cada uno de las variables con datos faltantes. El FCS intenta
definir 𝑃(𝑌, 𝑋, 𝑅|𝜃) especificando una densidad condicional 𝑃(𝑌𝑗|𝑋, 𝑌−𝑗, 𝑅, 𝜃𝑗) para cada 𝑌𝑗
, esta densidad se utiliza para imputar 𝑌𝑗𝑚𝑖𝑠 dados unos X, Y_-j y R. Una iteración consiste
en un ciclo completo a través de todas las 𝑌𝑗. (van Buuren, 2007). La imputación se realiza
mediante el uso del muestreo de Gibbs (Casella et al., 2016; Gilks et al., 1996) asumiendo
que la distribución de densidad condicional existe. Esta metodología se ha utilizado en un
gran número de estudios de simulación ((Brand, 1999; Brand et al., 2003; Horton et al.,
2016; Raghunathan et al., 2001; Van Buuren et al., 2006)) que han proporcionado la
suficiente evidencia de que los resultados obtenidos mediante el FCS son generalmente no
sesgados y con una cobertura adecuada.
Con el objetivo de optimizar el proceso de imputación se ha asumido que los datos de
satisfacción son considerados variables de tipo escala con valores comprendidos entre 0 y 4,
por lo que el modelo de imputación sigue una metodología de regresión lineal redondeando
al valor entero más cercano, puesto que se ha comprobado que la equivalencia de media
predictiva, una variante de la regresión lineal que iguala los valores imputados calculados
por el modelo de regresión con el valor observado más cercano, genera peores resultados.
.
Así se ha conseguido que los valores imputados coincidan con los valores reales de los
datos. De tal forma que, para el modelo de regresión, 𝑌𝑗 corresponde con las valoraciones de
los atributos faltantes y 𝑋 con todas las variables socioeconómicas de los encuestados y la
valoración general del servicio.
3.4. Comparativa
De acuerdo al objetivo final de este estudio, en el cual se pretende analizar si es posible
obtener unos resultados similares partiendo de una base de datos de información parcial, se
proponen 3 metodologías para realizar la modelización de la satisfacción de los usuarios
mediante modelos Ordered Probit.
El punto de partida es el modelo que llamaremos Base que se estima considerando la base
de datos completa obtenida de la encuesta. Para el resto de modelos se ha eliminado la mitad
de los datos de satisfacción obtenidos de forma aleatoria, esto es, solo se dispondrán de la
evaluación realizada a 12 de los 24 atributos del sistema, por lo que la información faltante
se ha completado mediante el uso de 3 métodos distintos.
El primer método se basa en utilizar la moda de las respuestas para completar la información
faltante de cada atributo, esto es, utilizar el valor más común entre los encuestados para cada
atributo, de forma que la el valor de la satisfacción de un usuario que no realiza la valoración
un atributo será igual al valor escogido por la mayoría que sí lo ha evaluado.
El segundo método consiste en estimar un modelo Ordered Probit para cada uno de los
atributos en función de las variables socioeconómicas preguntadas en la encuesta. De esta
forma, el valor faltante de la satisfacción de un usuario se inferirá de un modelo estimado
con las respuestas existentes para ese parámetro y en base a las características
socioeconómicas de las personas que lo han evaluado. La expresión matemática quedaría de
la siguiente forma: 𝑦𝑖∗representaría cada uno de los 24 atributos evaluados y 𝑥𝑖 las distintas
variables socioeconómicas; 𝛿𝑗𝑖 obtendría el valor 1 si una variable es evaluada por un
encuestado y 0 en caso contrario hasta un máximo de ∑ 𝛿𝑖𝑗24𝑗=1 = 12, puesto que se ha
asumido que en la versión restringida de la encuesta los encuestados solo realizarían la
evaluación de la mitad de los atributos. Este modelo será denominado el Modelo atributos a
lo largo del artículo.
𝑦𝑗𝑖∗ = 𝛿𝑗𝑖 𝛽′𝑥𝑖 + 휀𝑖 , 𝑖 = 1, … , 𝑛, 𝑦 𝑗 = 1, … ,24, .. (8)
Por último, el último método utilizado para completar los datos faltantes ha sido mediante
la utilización del sistema de imputación múltiple (apartado 3.3). Como indicadores para
inferir los datos faltantes se han utilizado tanto las variables socioeconómicas como las
evaluaciones realizadas a todos los atributos, al igual que la valoración general del servicio.
Se han realizado un total de 5 imputaciones con 100 interacciones cada una. Los resultados
de la Imputación Múltiple resultan en la generación de 5 bases de datos nuevas, 1 por cada
imputación. Con el objetivo de obtener un solo modelo, se ha estimado un modelo OP para
.
cada una de esas bases de datos y a continuación se ha calculado el promedio de cada
parámetro.
4. RESULTADOS
4.1. Análisis descriptivo
Los resultados han resultado ser principalmente mujeres (71%), de una edad media joven,
con dos tercios de los encuestados por debajo de los 44 años, trabajador (49%) o estudiante
(25%) y con carnet de conducir (59%) pero no siempre disponiendo de un vehículo propio
(40%). En cuanto al uso del servicio de transporte público, nos encontramos con un usuario
habitual (50% de los usuarios utilizan el servicio entre 5 y 15 veces por semana), donde el
principal motivo del viaje se encuentra relacionado con el hogar (32%). Se puede observar
que el uso de la tarjeta de transporte sin contacto se encuentra totalmente extendida (95%)
eliminando prácticamente totalmente el pago en efectivo (5%). En cuanto al nivel de renta
de los usuarios, los encuestados han resultado ser principalmente personas de un nivel de
renta medio – bajo un 31% con menos de 900€ al mes y un 23% entre 900 y 1500 € al mes,
algo más de un tercio (38%) de los encuestados ha preferido no contestar a esta pregunta, un
resultado habitual puesto que se trata de una pregunta muy sensible. Los datos estadísticos
completos de los usuarios se muestran en la Tabla 2 con mayor detalle.
Sexo Hombre 29%
Mujer 71%
Edad
<25 28%
25-34 16%
35-44 22%
45-54 16%
55-64 11%
>65 7%
Estado Laboral
Trabajador 49%
Desempleado 17%
Estudiante 25%
Jubilado 9%
Carnet de conducir
Si 59%
No 41%
Vehículo Propio Si 40%
No 60%
Frecuencia de uso
< 5 viajes/semana 29%
5 - 15 viajes/semana 50%
15 - 30 viajes/semana 18%
> 30 viajes/semana 3%
Motivo del viaje
Casa 32%
Trabajo 22%
Estudios 13%
Sanidad 4%
Compras 7%
Ocio 11%
Otros 11%
Forma de Paco Tarjeta sin contacto 95%
Efectivo 5%
Salario Mensual
< 900€ 31%
900 - 1500€ 23%
1500 - 2500€ 7%
> 2500€ 1%
NS/NC 38%
Tabla 2 – Analisis Descriptivo de los encuestados
.
En cuanto a la satisfacción de los usuarios con el servicio de transporte público, en la Tabla
3 se muestran los resultados obtenidos.
Para facilitar la comprensión se ha asociado cada una de las opciones de evaluación
cualitativas a un valor numérico comprendido entre 0 y 4, con 0 como “Muy Mal” y 4 como
Muy bien.
Los resultados muestran la comparativa entre las valoraciones medias de los atributos
considerando la encuesta real, con los datos completos, y las valoraciones medias calculadas
a partir de la base de datos generada al eliminar la mitad de las evaluaciones. AL final se
muestra la satisfacción general del servicio de los usuarios (OS).
DB Completo DB Parcial Diferencia
Media Moda Des.Est. Media Moda Des.Est. Media Moda Des.Est.
AT 2.91 3 0.80 2.86 3 0.85 -1.72% 0.00% 5.78%
WT 2.45 3 0.89 2.46 3 0.87 0.40% 0.00% -2.15%
TT 2.61 3 0.74 2.61 3 0.76 -0.03% 0.00% 3.19%
DT 2.87 3 0.70 2.87 3 0.71 0.20% 0.00% 0.86%
PR 2.07 2 0.98 2.04 2 1.00 -1.54% 0.00% 2.91%
TR 2.67 3 0.80 2.67 3 0.78 -0.01% 0.00% -1.72%
SE 2.49 3 0.82 2.53 3 0.80 1.42% 0.00% -1.60%
SR 2.76 3 0.73 2.75 3 0.72 -0.06% 0.00% -1.41%
EL 2.35 2 0.73 2.30 2 0.74 -2.30% 0.00% 1.41%
NS 2.15 2 0.83 2.11 2 0.84 -2.18% 0.00% 1.38%
LC 2.63 3 0.80 2.65 3 0.81 0.67% 0.00% 1.59%
IS 2.77 3 0.83 2.79 3 0.82 0.47% 0.00% -0.50%
IWM 2.88 3 0.81 2.90 3 0.79 0.88% 0.00% -2.19%
IB 2.59 3 0.74 2.60 3 0.72 0.70% 0.00% -2.88%
OC 2.39 2 0.81 2.43 3 0.83 1.74% 50.00% 2.20%
CA 2.44 3 0.78 2.51 3 0.78 2.74% 0.00% -0.02%
RM 2.57 3 0.86 2.59 3 0.83 0.83% 0.00% -3.29%
CM 2.73 3 0.59 2.74 3 0.59 0.28% 0.00% 0.50%
CL 2.86 3 0.66 2.84 3 0.67 -0.73% 0.00% 1.87%
OB 2.37 2 0.79 2.38 2 0.78 0.24% 0.00% -1.18%
DS 2.67 3 0.79 2.67 3 0.78 0.25% 0.00% -0.88%
DK 2.65 3 0.81 2.63 3 0.80 -0.86% 0.00% -0.46%
HY 3.05 3 0.75 3.05 3 0.75 -0.24% 0.00% 0.84%
NO 2.27 2 0.66 2.23 2 0.64 -1.79% 0.00% -1.87%
OS 2.81 3 0.63
Tabla 3 – Niveles de satisfacción de los usuarios
Los Resultados muestran que los usuarios se encuentran por lo general satisfechos con el
servicio en su conjunto y con todos los aspectos relativos a este.
El atributo que es considerado como peor es el precio de los billetes, este hecho puede
comprenderse puesto que los usuarios no tienden a evaluar bien este atributo por miedo a
una posible subida de precios del servicio, sin embargo, la valoración media se encuentra en
un nivel medio, por lo que no se considera como un factor no satisfactorio para los usuarios.
.
Por el contrario, el atributo mejor valorado es la implantación de autobuses híbridos, toda
acción asociada a una mejora ambiental del servicio es considerada buena en general por los
usuarios.
La comparativa realizada entre las dos bases de datos muestra que aun disponiendo de la
mitad de la información los resultados medios de las valoraciones no muestran una gran
variación, siendo las variaciones en las medias menores al 3% en todos los casos con una
gran parte menor al 1%.
Las mayores diferencias se encuentran en la variable ocupación, donde la moda cambia de
una valoración “normal” (2) a una valoración “Bien”, esto se debe a que debido a la
eliminación aleatoria de los datos, los datos de peor valoración han sido eliminados, sin
embargo esta diferencia solo se muestra en una variable de todo el set de atributos. Las
desviaciones estándar también muestran una diferencia pequeña, por lo general menor al 3%
a excepción del Tiempo de Acceso a la parada que muestra una variación cercana al 6%. Por
lo general se puede decir que los resultados obtenidos mediante las dos bases de datos es
muy similar.
4.2. Resultados de los modelos
Se han calculado un total de 4 modelos Ordered Probit. Como modelo base se ha utilizado
aquel que utiliza la base de datos completa. Dicho de otra forma, lo que se ha realizado es
una comparativa del modelo basado en los datos reales con los modelos estimados mediante
las bases de datos completadas con las metodologías anteriormente planteadas (Moda,
Modelos de atributos y Imputación Múltiple).
Los atributos incluidos en cada modelo se han ido eliminando siguiendo un proceso por
etapas hasta conseguir modelos donde todos los parámetros tengan un signo correcto (signo
positivo salvo la constante que debe de ser negativa (Echaniz et al., 2017) y una
significatividad estadística suficiente.
En la Tabla 4 se muestran los valores de los parámetros de cada uno de los modelos
estimados. Entra paréntesis se muestra el valor del test t que muestra el nivel de
significatividad estadística del parámetro dentro del modelo. Se han resaltado aquellos
valores cuan el parámetro es significante en un modelo y en el modelo base, de esta forma
se puede observar el nivel de coincidencia de los modelos basados en datos parciales con el
modelo base de datos completos.
Solo se muestran dos parámetros de limite debido a que en la encuesta realizada no se
observó ninguna respuesta correspondiente a la valoración “Muy Mal” (valor 0), por lo que
el valor 0 ahora representa la agrupación de las respuestas “Muy Mal” y “Mal”.
.
Parámetros Base Moda Atributos MI
Constante -4.37 -7.81 -8.47 -4.24
AT 0.23 0.26 0.35 0.29
WT 0.13 0.18 0.36 0.04
TT 0.18 0.25 0.39 0.10
DT 0.12 0.24 - -
PR 0.07 0.09 0.07 -
TR 0.26 0.31 0.36 0.24
SE 0.09 0.29 0.13 0.37
SR 0.19 0.30 0.30 0.01
EL - - - -
NS 0.14 - 0.22 -
LC 0.25 0.32 0.31 0.18
IS 0.11 0.22 0.19 0.13
IWM 0.00 0.19 0.27 0.11
IB - - 0.31 0.16
OC - - 0.18 -
CA 0.26 0.16 0.37 0.27
RM - - 0.24 -
CM 0.37 0.30 - 0.25
CL - - - 0.16
OB - 0.16 - -
DS 0.30 0.23 0.25 0.34
DK - 0.14 - -
HY - - - -
NO - - 0.21 -
Mu(01) 1.73 1.52 2.31 1.78
Mu(02) 4.59 4.09 5.55 4.81
Tabla 4 – Modelos Ordered Probit
El nivel de coincidencia de la significatividad de los parámetros entre los modelos es alta.
El modelo más similar a la base en cuanto a la significatividad de los parámetros es el modelo
basado en la Moda, donde un 83% de la significancia de los parámetros coincide con los del
modelo Base. El modelo realizado a raíz de la base de datos generada mediante modelos
específicos de los atributos muestra una correlación menor, con un 71% de los parámetros
mostrando una significatividad similar a la base. Por último el modelo MIP, conseguido
mediante el uso de la Imputación Múltiple se encuentra entre medias con una coincidencia
del 75% de los parámetros. Tanto la valoración de la satisfacción general OS y la satisfacción
de los atributos se ha medido siguiendo la misma escala, se puede realizar una comparativa
entre los parámetros de un mismo modelo entendiendo que un parámetro de mayor valor
dará mayor importancia a su atributo correspondiente. Sin embargo, a la hora de comparar
modelos distintos, aun teniendo datos de partidas similares y basadas en una misma escala,
al tener valores de la constante y de los parámetros de límite diferentes, la comparativa
directa no es posible. Por esta razón se han decidido normalizar todos los modelos de acuerdo
a los valores de los parámetros presentes en este, para después comparar los 4 modelos.
La comparativa de los parámetros de los modelos se muestra en la Figura 1. En la Figura 1
se puede observar que la correlación existente entre los modelos normalizados es
considerable. En este caso, sin entrar analizar todos los parámetros de forma individual, se
puede observar que el modelo MIP muestra una tendencia similar al modelo base, esto es,
los valores normalizados de los parámetros varían de forma conjunta, obteniendo valores
.
altos en el MIP cuando los valores son altos en el modelo base y viceversa. Este fenómeno
no se da en todas las variables, existen ciertos casos donde la correlación entre estos modelos
no es buena, como pueden ser en el caso del tiempo hasta el destino desde la parada o el
precio del billete, puesto que estas variables no son significativas en el modelo MIP pero si
en el modelo base. Se ha realizado un cálculo del coeficiente de correlación de cada uno de
los modelos con el modelo base y se ha observado una correlación muy alta, un valor de 0.95
para el modelo Moda, un 0.97 para el modelo Atributos y un 0.99 para el MIP.
Figura 1 – Comparativa de modelos normalizados
.
Por último se ha querido comparar la capacidad de predicción que se ha conseguido con los
distintos modelos para ello se ha utilizado el parámetro cuenta R2 (Echaniz et al., 2017;
Greene and Hensher, 2010), que de forma simplificada muestra el porcentaje de
observaciones reales es capaz de estimar correctamente cada modelo. Al igual que en los
casos anteriores, se ha establecido como base la capacidad de predicción del modelo base,
que ha mostrado un valore de cuenta R2 de 0.73, o lo que es lo mismo, es capaz de estimar
correctamente el 73% de los datos reales. En la siguiente tabla se muestran los resultados de
todos los modelos.
Modelo Cuenta R2 Log-Verosimilitud Nº Observaciones Grados de Libertad
Base 0.73 -497.72 747 17 Moda 0.63 -555.40 747 19 Atributos 0.7 -418.09 747 20
MIP 0.72 -494.721 747 151
Tabla 5 – Ajuste de los modelos
Ninguno de los modelos con datos faltantes es capaz de igualar la capacidad de predicción
que se consigue con el modelo base calculado con la totalidad de los datos (Tabla 5). Sin
embargo la diferencia con este es mínima, el modelo que más se le acerca es el Modelo MIP,
que muestra una capacidad solo un 1% menor. El peor resultado se ha conseguido con el
modelo basado en la Moda donde la pérdida de precisión es considerable (10%).
5. CONCLUSIONES
En este artículo se ha conseguido demostrar la posibilidad de analizar la satisfacción de los
usuarios partiendo de una base de datos reducida con la mitad de la información inicialmente
utilizada. El hecho de poder obtener datos muy similares partiendo de una cantidad de
información menor proporciona varias ventajas.
Por una parte, si por limitaciones relativas a la toma de datos parte de la información
requerida no ha sido posible obtener la totalidad de los datos necesarios para la estimación
de los modelos, se ha demostrado que los resultados obtenidos pueden seguir considerándose
adecuados.
Por otra parte, la posibilidad de reducir la encuesta en el apartado referente a la evaluación
de los atributos de servicio, proporciona un espacio para añadir nuevas opciones a las
encuestas o reducir el tiempo total requerido para responderlas. Se ha podido observar que
aun considerando la mitad de los datos disponibles, el análisis descriptivo de las
evaluaciones de los atributos sufre una variación muy pequeña, por lo que se puede decir
que no es necesario recopilar la totalidad de los datos si lo que se quiere es estudiar de forma
somera la satisfacción de los usuarios. Este método es comúnmente utilizado por las
1 Promedio de los valores obtenidos en los 5 modelos basados en la Imputación Múltiple
.
empresas operadoras de transporte público para obtener una imagen clara de la satisfacción
de los usuarios sobre su servicio, por lo tanto, lo aprendido en este estudio proporcionaría
una ventaja económica considerable para las empresas al necesitar menor tiempo y recursos
para realizar las encuestas. Dicho esto, es necesario recalcar que los resultados obtenidos en
este estudio pertenecen a una ciudad de tamaño medio con un único sistema de transporte
público de autobús, donde la media y variación de las valoración de los atributos y la
satisfacción del sistema de transporte en general son los que se han mostrado a lo largo del
artículo, por lo tanto, no sería recomendable la extrapolación directa de este estudio a
cualquier tipo ciudad o modo de transporte público sin un previo análisis. En cuanto a la
modelización de los resultados, se ha demostrado que la mejor metodología para obtener los
datos faltantes ha sido la Imputación Múltiple, la cual permite analizar los datos parciales
como si se dispusiese de los datos completos.
La comparativa entre los modelos ha demostrado que existe la posibilidad de obtener
resultados muy similares con ajustes a la realidad muy parecidos aun partiendo de una
información parcial. Al igual que el análisis estadístico, este hecho permite optimizar los
recursos de forma que el tiempo y el coste de las encuestas puede reducirse en gran medida
perdiendo mínimamente la información obtenida de la modelización de los datos.
6. AGRADECIMIENTOS
Este estudio ha sido posible gracias a la financiación del Ministerio de Economía, Industria
y Competitividad en el Proyecto TRA2015-69903-R y a la beca de formación FPU15/02990
del Ministerio de Educación, Cultura y Deporte.
7. REFERENCIAS
Abenoza, R.F., Cats, O., Susilo, Y.O., 2017. Travel satisfaction with public transport:
Determinants, user classes, regional disparities and their evolution. Transp. Res. Part
A Policy Pract. 95, 64–84. doi:10.1016/j.tra.2016.11.011
Alegria, M., Takeuchi, D., Canino, G., Duan, N., Shrout, P., Meng, X.-L., Vega, W., Zane,
N., Vila, D., Woo, M., Vera, M., Guarnaccia, P., Aguilar-Gaxiola, S., Sue, S.,
Escobar, J., Lin, K.-M., Gong, F., 2004. Considering Context, Place, and Culture: The
National Latino and Asian American Study. Int J Methods Psychiatr Res. Int J
Methods Psychiatr Res 13, 208–220.
Allison, P.D., 2000. Multiple imputation for missing data: A cautionary tale. Sociol.
Methods Res. 28, 301–309. doi:10.1177/0049124100028003003
Bordagaray, M., dell’Olio, L., Ibeas, A., Cecín, P., 2014. Modelling user perception of bus
transit quality considering user and service heterogeneity. Transp. A Transp. Sci. 10.
doi:10.1080/23249935.2013.823579
Bordagaray, M., Olio, L., Ibeas, A., Cecín, P., 2014. Transportmetrica A : Transport
Science Modelling user perception of bus transit quality considering user and service
heterogeneity. Transp. A Transp. Sci. 9935, 705–721.
doi:10.1080/23249935.2013.823579
Brand, J., 1999. Development , implementation and evaluation of multiple imputation
.
strategies for the statistical analysis of incomplete data sets.
Brand, J.P.L., Van Buuren, S., Groothuis-Oudshoorn, K., Gelsema, E.S., 2003. A toolkit in
SAS for the evaluation of multiple imputation methods. Stat. Neerl. 57, 36–45.
doi:10.1111/1467-9574.00219
Casella, G., George, E.I., Casella, G., George, E.I., 2016. Explaining the Gibbs Sampler
Stable URL : http://www.jstor.org/stable/2685208 Linked references are available on
JSTOR for this article : Explaining the Gibbs Sampler 3, 167–174.
Das, T., Apu, N., Hoque, M.S., Hadiuzzaman, M., Xu, W., 2017. Parameters Affecting the
Overall Performance of Bus Network System at Different Operating Conditions: A
Structural Equation Approach, in: Transportation Research Procedia. Elsevier B.V.,
pp. 5063–5075. doi:10.1016/j.trpro.2017.05.206
De Oña, J., De Oña, R., Eboli, L., Mazzulla, G., 2013. Perceived service quality in bus
transit service: A structural equation approach. Transp. Policy 29, 219–226.
doi:10.1016/j.tranpol.2013.07.001
de Oña, J., de Oña, R., López, G., 2016. Transit service quality analysis using cluster
analysis and decision trees: a step forward to personalized marketing in public
transportation. Transportation (Amst). 43, 725–747. doi:10.1007/s11116-015-9615-0
Dell’Olio, L., Ibeas, A., Cecin, P., 2011. The quality of service desired by public transport
users. Transp. Policy 18, 217–227. doi:10.1016/j.tranpol.2010.08.005
dell’Olio, L., Ibeas, A., Cecín, P., 2010. Modelling user perception of bus transit quality.
Transp. Policy 17, 388–397. doi:10.1016/j.tranpol.2010.04.006
EC, 1999. Quattro Final Report, Transport. ed. Paris.
Echaniz, E., Dell’Olio, L., Ibeas, Á., 2017. Modelling perceived quality for urban public
transport systems using weighted variables and random parameters. Transp. Policy.
doi:10.1016/j.tranpol.2017.05.006
Fellesson, M., Friman, M., 2008. Perceived satisfaction with public transport service in
Nine European cities. Transp. Res. Forum 47, 874770. doi:10.5399/osu/jtrf.47.3.2126
Gilks, W.R. (Wally R.., Richardson, S. (Sylvia), Spiegelhalter, D.J., 1996. Markov chain
Monte Carlo in practice. Chapman & Hall.
Greene, W., 2007. Limdep computer program: Version 9. Plainview, NY Econom. Softw.
Greene, W.H., 2008. Econometric Analysis, 6th edn. Prentice Hall.
Greene, W.H., Hensher, D. a., 2010. Modeling Ordered Choices: A Primer, Modeling
Ordered Choices: A Primer. doi:10.1017/CBO9780511845062
Guirao, B., Eugenia López, M., Comendador, J., 2015. New QR Survey Methodologies to
Analyze User Perception of Service Quality in Public Transport: The Experience of
Madrid. J. Public Transp. 18.
Guirao, B., García-Pastor, A., López-Lambas, M.E., 2016. The importance of service
quality attributes in public transportation: Narrowing the gap between scientific
research and practitioners’ needs. Transp. Policy 49, 68–77.
doi:10.1016/j.tranpol.2016.04.003
Hensher, D.A., Stopher, P., Bullock, P., 2003. Service quality - developing a service
quality index in the provision of commercial bus contracts. Transp. Res. Part A Policy
Pract. 37, 499–517. doi:10.1016/S0965-8564(02)00075-7
Hernandez, S., Monzon, A., de Oña, R., 2016. Urban transport interchanges: A
methodology for evaluating perceived quality. Transp. Res. Part A Policy Pract. 84,
31–43. doi:10.1016/j.tra.2015.08.008
Horton, N.J., Lipsitz, S.R., Horton, N.J., Lipsitz, S.R., 2016. Multiple Imputation in
Practice : Comparison of Software Packages for Regression Models with Missing
Variables Statistical Computing Software Reviews Multiple Imputation in Practice :
Comparison of Software Packages for Regression Models With Missing Vari 55,
.
244–254.
Machado-León, J.L., de Oña, R., Baouni, T., de Oña, J., 2017. Railway transit services in
Algiers: priority improvement actions based on users perceptions. Transp. Policy 53,
175–185. doi:10.1016/j.tranpol.2016.10.004
McKelvey, R.D., Zavoina, W., 1975. A statistical model for the analysis of ordinal level
dependent variables. J. Math. Sociol. 4, 103–120.
doi:10.1080/0022250X.1975.9989847
McKelvey, R.D., Zavoina, W., 1971. Ibm Fortran-Iv Program To Perform N-Chotomous
Multivariate Probit Analysis.
Parasuraman, A., Zeithaml, V.A., Berry, L.L., Parasuraman, 1985. A conceptual model of
service quality and its implications for future research. J. Mark. doi:10.2307/1251430
Pratt, J.W., 1981. Concavity of the Log Likelihood. J. Am. Stat. Assoc. 76, 103–106.
doi:10.1080/01621459.1981.10477613
Raghunathan, T.E., Lepkowski, J.M., Van Hoewyk, J., Solenberger, P., 2001. A
multivariate technique for multiply imputing missing values using a sequence of
regression models. Surv. Methodol. 27, 85–95.
Rahman, F., Das, T., Hadiuzzaman, M., Hossain, S., 2016. Perceived service quality of
paratransit in developing countries: A structural equation approach. Transp. Res. Part
A Policy Pract. 93, 23–38. doi:10.1016/j.tra.2016.08.008
Rahman, F., Das, T., Hadiuzzaman, M., Hossain, S., 2016. Perceived service quality of
paratransit in developing countries: A structural equation approach. Transp. Res. Part
A Policy Pract. 93. doi:10.1016/j.tra.2016.08.008
Rissel, C., Crane, M., Wen, L.M., Greaves, S., Standen, C., 2016. Satisfaction with
transport and enjoyment of the commute by commuting mode in inner Sydney. Heal.
Promot. J. Aust. 27, 80–83. doi:10.1071/HE15044
Rojo, M., dell’Olio, L., Gonzalo-Orden, H., Ibeas, Á., 2013. Interurban bus service quality
from the users’ viewpoint. Transp. Plan. Technol. 36, 599–616.
doi:10.1080/03081060.2013.845432
Roth, P.L., 1994. MISSING DATA: A CONCEPTUAL REVIEW FOR APPLIED
PSYCHOLOGISTS. Pers. Psychol. 47, 537–560. doi:10.1111/j.1744-
6570.1994.tb01736.x
Rubin, D.B., 2004. Multiple imputation for nonresponse in surveys. Wiley-Interscience.
Rubin, D.B., 1996. Multiple Imputation after 18+ Years. J. Am. Stat. Assoc. 91, 473–489.
doi:10.1080/01621459.1996.10476908
Rubin, D.B., 1977. Formalizing Subjective Notions About the Effect of Nonrespondents in
Sample Surveys Formalizing Sub jective Notions About the Effect of Nonrespondents
in Sample Surveys. Source J. Am. Stat. Assoc. 72144202, 538–543.
Sterne, J.A.C., White, I.R., Carlin, J.B., Spratt, M., Royston, P., Kenward, M.G., Wood,
A.M., Carpenter, J.R., 2009. Multiple imputation for missing data in epidemiological
and clinical research: potential and pitfalls. BMJ 338, b2393–b2393.
doi:10.1136/bmj.b2393
Tsami, M., Nathanail, E., 2017. Guidance Provision for Increasing Quality of Service of
Public Transport, in: Procedia Engineering. pp. 551–557.
doi:10.1016/j.proeng.2017.01.108
van Buuren, S., 2007. Multiple imputation of discrete and continuous data by fully
conditional specification. Stat. Methods Med. Res. 16, 219–242.
doi:10.1177/0962280206074463
Van Buuren, S., Boshuizen, H., Knook, D., 1999. Multiple imputation of missing blood
pressure covariates in survival analysis. Stat. Med. 18, 681–694.
doi:10.1002/(SICI)1097-0258(19990330)18:6<681::AID-SIM71>3.0.CO;2-R [pii]
.
Van Buuren, S., Brand, J.P.L., Groothuis-Oudshoorn, C.G.M., Rubin, D.B., 2006. Fully
conditional specification in multivariate imputation. J. Stat. Comput. Simul. 76, 1049–
1064. doi:10.1080/10629360600810434
Wongwiriya, P., Nakamura, F., Tanaka, S., Ariyoshi, R., 2017. User Satisfaction of
Songtaew in Thailand: Case Study of Khon Kaen City, in: Transportation Research
Procedia. doi:10.1016/j.trpro.2017.05.372