Post on 30-Oct-2020
FACULTAD DE CIENCIAS EMPRESARIALES
Carrera de Marketing
MODELAMIENTO DEL CUSTOMER RATING USANDO TEXT ANALYTICS, CASO DE LOS
ESTADOUNIDENSES QUE DEJARON VALORACIONES EN TRIPADVISOR ACERCA DE RESTAURANTES DE
COMIDA PERUANA EN EL CUSCO
Tesis para optar el Título Profesional de Licenciado en Marketing
JHAILIN YAMILLA GUERRA PALOMINO
SAMANTHA ADELINA ROMERO CARBAJAL
Asesor:
Oscar Hernán Talledo Flores
Lima - Perú
2019
2
Dedicatoria
A nuestros padres por el amor recibido, la
dedicación y la paciencia para con nosotras.
La gratitud es uno de los valores más
hermosos, relativamente sencillo de
demostrar, expresado con un corazón pleno y
reservado para aquellas personas que siempre
nos acompañaron y creyeron en nosotras.
3
Resumen
El presente documento de investigación busco relacionar el customer rating indicado
por usuarios estadounidenses de TripAdvisor acerca de restaurantes de comida
peruana en el Cusco empleando variables analítico-textuales presentes en el
comentario que figura al lado de cada rating.
Las variables analítico-textuales analizadas fueron el puntaje sentimental presente en el
comentario, el índice de Gunnig-Fog y la cantidad de palabras. La primera está
vinculada al sentimiento reflejado en el comentario, mientras que la segunda es un
indicador relacionado al grado de instrucción requerido para poder comprender un texto.
A fin de verificar si existe una relación entre el customer rating y las variables analítico-
textuales mencionadas fueron utilizadas dos modelos estadísticos: la regresión lineal
múltiple y la regresión monótona. La muestra incluyo 392 casos válidos que fueron
procesados con instrumentos vinculados al Text Mining. Con el primer modelo no se
cumplen todas las condiciones de la regresión, mientras que el segundo obtiene mejores
resultados.
Los resultados evidenciaron que existe una relación directa entre el puntaje sentimental
y el rating, mientras que esta última variable mantuvo una relación inversa con el índice
de Gunning-Fog y la cantidad de palabras.
Keyword: Análisis Sentimental, Customer Rating, Gunning Fog, Text Analytics,
Restaurantes, Estadounidenses, Cusco, TripAdvisor
4
Abstract
This research document seeks to relate the customer rating indicated by American users
of TripAdvisor about Peruvian food restaurants in Cusco using textual analytical
variables present in the comment that appears next to each rating.
The analytical textual variables analyzed were the sentimental score present in the
commentary, the Gunnig-Fog index and the number of words. The first is linked to the
sentiment reflected in the commentary, while the second is an indicator related to the
degree of instruction required to understand a text.
In order to verify if there is a relationship between the customer rating and the
aforementioned analytical textual variables, two statistical models were used: multiple
linear regression and monotonic regression. The sample included 392 valid cases that
were processed with instruments linked to Text Mining. With the first model, all the
conditions of the regression are not met, while the second obtains better results.
The results showed that there is a direct relationship between the sentimental score and
the rating, while the latter variable had an inverse relationship with the Gunning-Fog
index and the number of words.
Keyword: Sentimental Analysis, Customer Rating, Gunning Fog, Text Analytics,
Restaurants, Americans, Cusco, TripAdvisor
5
Índice
Capítulo I – Problema de Investigación .............................................................................. 9
1.1. Planteamiento del Problema ..................................................................................... 9
1.2. Formulación del Problema ...................................................................................... 11
1.3. Justificación ............................................................................................................... 11
Capítulo II: Marco Referencial ............................................................................................. 14
2.1. Antecedentes ................................................................................................................. 14
2.2. Marco Teórico ............................................................................................................... 16
Capítulo III: Método ................................................................................................................ 25
3.1. Tipo y Diseño de Investigación ................................................................................... 25
3.2. Variables ........................................................................................................................ 26
3.3. Universo ......................................................................................................................... 27
3.4. Muestra........................................................................................................................... 27
3.5. Instrumentos .................................................................................................................. 30
3.6. Procesamiento y Recolección de Datos ............................................................... 32
3.7. Plan de análisis ............................................................................................................. 33
Capítulo IV: Resultados ........................................................................................................ 35
4.1. Resultados ..................................................................................................................... 35
4.2. Resultados de contraste con data del 2019 .............................................................. 48
4.3 Resultados de la nueva data de Hoteles en Arequipa.............................................. 50
4.4. Discusión ........................................................................................................................ 52
Capítulo V: Conclusiones y Recomendaciones ............................................................. 54
5.1. Conclusiones ................................................................................................................. 54
5.2. Recomendaciones ........................................................................................................ 57
Capítulo VI: Limitaciones e Investigaciones Futuras ................................................... 59
6.1. Limitaciones de la investigación ................................................................................. 59
6.2. Investigaciones futuras ................................................................................................ 59
Bibliografía ............................................................................................................................... 61
Glosario..................................................................................................................................... 67
Anexos ...................................................................................................................................... 68
Anexo 1: Cuadro de Actividades y Recursos Disponibles ............................................. 68
Anexo 2 .................................................................................................................................. 69
Anexo 3: Uso de instrumento Lexalytics ........................................................................... 70
Anexo 4: Uso de Readability Calculator ........................................................................... 71
Anexo 5: Uso de Grammarly .............................................................................................. 72
6
Anexo 6: Uso del GOLDMiner ............................................................................................ 73
Anexo 7: Datas ..................................................................................................................... 74
Anexo 8: Paso a paso para procesar data ...................................................................... 76
Anexo 9: Entrevistas de Americanos que utilizaron TripAdvisor ................................. 80
7
Índice de Tablas
Tabla 1: Tabla de Variables ........................................................................................ 26
Tabla 2: Resumen del modelo – Regresión Múltiple ................................................... 35
Tabla 3: ANOVA de la Regresión múltiple .................................................................. 35
Tabla 4: Coeficientes del modelo ................................................................................ 36
Tabla 5: Resumen de modelo modificado – Regresión múltiple .................................. 36
Tabla 6: ANOVA del modelo modificado ..................................................................... 37
Tabla 7: Coeficientes del Modelo Modificado .............................................................. 37
Tabla 8: Prueba de Kolmogorov-Smirnov para una muestra ....................................... 38
Tabla 9: Conceptos asociados a los modelos de regresión ........................................ 40
Tabla 10: Resumen del modelo utilizando la regresión monótona .............................. 42
Tabla 11: Parámetros para las variables del modelo usando regresión monótona ...... 42
Tabla 12: Resumen del modelo utilizando regresión monótona .................................. 43
Tabla 13 : Parámetros para las variables del modelo usando regresión monótona ..... 44
Tabla 14: Resumen del modelo utilizando regresión monótona aplicado a data de
comprobación del 2019 ............................................................................................... 48
Tabla 15: Parámetros para las variables del modelo usando regresión monótona ...... 48
Tabla 16: Parámetros de data original vs. Data 2019.................................................. 49
Índice de Figuras
Figura 1: Market share de turistas estadounidenses con relación al total de extranjeros
arribaron al Cusco 2013-2015 ..................................................................................... 12
Figura 2: Distribución de los comentarios según el Restaurante (en porcentaje) ........ 27
Figura 3: Customer Rating promedio de cada restaurante .......................................... 28
Figura 4: Salisa del instrumento Lexalytics ................................................................. 30
Figura 5: Flujograma de procesamiento de información .............................................. 31
Figura 6: Gráfico de la Regresión Múltiple ………………………………………………..31
Figura 7: Gráfico de la regresión monótona ................................................................ 38
Figura 8: Regresión Lineal vs. Monótona .................................................................... 39
Figura 9: Regresión Parcial del Customer Rating vs. Sentimiento (forma aditiva) ....... 43
Figura 10: Regresión Parcial del customer_rating vs. Fog (forma aditiva) ................... 44
Figura 11: Regresión Parcial del customer_rating vs. cant_palabras (forma aditiva) .. 45
Figura 12: Regresión Parcial del customer_rating vs. puntaje_sentimental (forma
multiplicativa) .............................................................................................................. 46
Figura 13 :Regresion Parcial del Customer rating Vs Gunning fog ( forma auditiva)…45
Figura 14: Regresion Parcial del Customer rating Vs cantidad de palabras ( forma
auditiva) ……………………………………………………………………………………….46
Figura 15: Grafico de la regresión monótona con data de comparación 2019……...…48
8
Introducción
Si de servicios orientados a viajeros se trata, TripAdvisor es una de las páginas más
visitadas por viajeros estadounidenses. Millones de comentarios han sido escritos por
estos usuarios desde el 2010 acerca de sus experiencias visitando el Perú. Desde luego,
Cusco ha sido uno de los departamentos que más valoraciones ha recibido. Esto incluye
a los restaurantes.
Los viajeros necesariamente necesitan alimentarse y es bastante frecuente que prueben
la comida del país que visitan. Algunos estadounidenses, luego de haber acudido a
restaurantes de comida peruana en el Cusco, escribieron sus valoraciones en
TripAdvisor. El formato de información es bastante sencillo: puntúan el servicio en una
escala que va desde pésimo, malo, regular, muy bueno y excelente. La literatura
académica llama a esto customer rating. Al lado de este indicador se encuentra un
comentario.
Los comentarios tienen un alto grado de heterogeneidad. Es correcto afirmar que son
variables. Pero los diversos estilos en cuanto a la redacción complican la tarea de poder
obtener algún tipo de información de estos. Ciertamente es mucho más sencillo asignar
un valor a la experiencia usando una escala de Likert que analizando un comentario. No
obstante, el Text Analytics (o analítica de datos textuales) posibilita transformar dichos
textos en patrones numéricos que pueden ser objeto de modelos estadísticos. Desde
los más modestos, como el simple conteo de palabras hasta las más sofisticadas
asociadas a la educación del individuo con evidencia en la escritura y a la carga
sentimental del texto digitado.
Precisamente ahí nace el espíritu de esta tesis, la cual pretende modelar el customer
rating en función de indicadores propios del Text Analytics en el contexto de las
valoraciones realizadas por estadounidenses acerca de restaurantes de comida
peruana en TripAdvisor. Esto representa un esfuerzo por introducir un método
alternativo para las investigaciones cuantitativas en marketing y en ciencias afines, pues
se usa como información de entrada los datos más abundantes que existe en la web:
los comentarios online.
9
Capítulo I – Problema de Investigación
1.1. Planteamiento del Problema
Planificar viajes a través de sitio web se ha convertido en una de las actividades más
frecuentes de los internautas (Limberger, 2014). Sitios como TripAdvisor, Booking, Yelp
y otros contienen información textual sobre diversos servicios a los que puede acceder
un viajero: aerolíneas, hoteles y restaurantes. En TripAdvisor, por ejemplo, cada usuario,
basado en su propia experiencia, puede puntuar un servicio, destino o atractivo turístico
como pésimo, malo, regular, muy bueno o excelente. Dichas puntuaciones vienen
acompañadas de un comentario en el cual se detalla la experiencia vivida.
Los comentarios en formato de texto libre son considerados datos que carecen de un
formato estándar (O’Connor, 2010) . Cada persona posee un único patrón en cuanto a
su estilo para digitar una opinión relacionada a su experiencia con un bien o servicio
(Feldman & Sanger, 2006). A pesar de que existen algunos usuarios que redactan de
una manera frívola e incomprensible, TripAdvisor proporciona información útil no solo
para los viajeros, sino también para la investigación académica en general (Chua &
Banerjee, 2013).
Disciplinas relacionadas a la analítica de datos textuales tienen por objetivo estructurar
la información textual en patrones numéricos que puedan ser objeto de un modelamiento
matemático (Clark, Fox & Lappin, 2012). Tradicionalmente para cuantificar las
valoraciones con respecto a un producto o servicio se recurre a cuestionarios con
preguntas cerradas; no obstante, la analítica de datos textuales proporciona una ruta
alternativa que se centra en indicadores numéricos que se pueden extraer de un texto
(Chua & Banerjee, 2013). Diferentes investigadores han procurado modelar el customer
rating, una de métricas más importantes en las valoraciones web, empleando a los
comentarios como inputs (Chua & Banerjee, 2013).
De un comentario puede extraerse distintos tipos de información. Resulta relativamente
sencillo contar el número de palabras a empleadas por el usuario. Por otro lado, si se
emplea algoritmos especializados, resulta posible determinar el grado de instrucción
reflejado en la escritura (Lougharn & McDonald, 2014).Es evidente, por ejemplo, que
existen diferencias entre la cantidad de años de instrucción que se requiere para
comprender un cuento para niños en comparación a una colección de artículos
académicos relacionados a la inteligencia artificial.
10
Finalmente, si la opinión digitada contiene palabras como "excelente", “agradable”,
'bueno', 'impresionante' es probablemente un comentario positivo; mientras que, si
incluye términos como "malo", "espantoso", "horrible", se está probablemente ante una
crítica negativa (López, Sánchez & Sicilia-Urban, 2014). Actualmente, los métodos
automatizados para cuantificar los sentimientos de un cliente al momento de escribir
una valoración, determinar el grado de instrucción reflejado en el contenido y contar el
número de palabras que contiene un texto solo requieren competencias muy básicas en
informática (copiar y pegar un fragmento de texto, por ejemplo).El conteo de palabras
puede realizarse con aplicaciones de Office; mientras que la variable de legibilidad
asociada al número de años de educación formal que se requiere para entender un texto
conoce como índice de Gunning-Fog (Lougharn & McDonald, 2014) ; y el sentimiento
reflejado en un comentario está asociado a una métrica conocida como score
sentimental (Liau & Tan, 2014).
Cusco es indiscutiblemente una de las ciudades con mayor atención para conocer por
parte de los extranjeros. De acuerdo con PROMPERU (2017a) un 25% de los turistas
extranjeros que arribaron a Cusco durante el 2016 tenia procedencia estadounidense,
lo cual convierte a este segmento en el más importante para dicha ciudad. Por otro lado,
un 17% del gasto de los estadounidenses durante su estadía en el Perú se destinó a la
gastronomía, principalmente comida peruana (PROMPERU, 2017b). Cabe mencionar
que actualmente existen visibles esfuerzos de empresas privadas que están muy
interesados en posicionar el concepto de comida peruana entre los ciudadanos
extranjeros.
Solo hasta el año 2013, PROMPERU publicaba reportes relacionados a la satisfacción
de los turistas extranjeros con respecto a los destinos turísticos visitados y a los servicios
empleados; uno de los servicios evaluados eran los restaurantes (PROMPERU, 2013).
A la fecha no se cuenta con mediciones más recientes; Sin embargo, en TripAdvisor,
ciudadanos que se identificaron como procedentes de Estados Unidos han realizado
valoraciones acerca de los restaurantes ubicados en el Cusco. Cada viajero ha
puntuado a un restaurante y a continuación ha redactado un comentario. En principio,
es razonable creer que el score asignado por cada cliente debe guardar relación con el
contenido del comentario. Coexisten, entonces, dos tipos de información: la
estructurada (rating) y la no estructurada (comentario).
Dado todo lo mencionado anteriormente, cabe preguntarse si es posible que dichos
indicadores numéricos que se pueden obtener a partir de un comentario (cantidad de
palabras, índice de Gunning Fog y score sentimental), guardan relación con el customer
11
rating para el caso de los ciudadanos estadounidenses que acudieron a restaurantes de
comida peruana en el Cusco y dejaron una valoración en TripAdvisor.
1.2. Formulación del Problema
¿Existe relación entre las variables analítico-textuales y el customer rating en el caso de
los estadounidenses que acudieron a restaurantes de comida peruana en el Cusco y
dejaron una valoración en TripAdvisor?
1.3. Justificación
Desde un punto de vista estrictamente académico, la investigación resulta importante
ya que se orienta a la explotación de los datos visibles más abundantes en la web: los
comentarios online. No todos los sitios webs poseen un sistema de métricas para sus
valoraciones, pero la mayoría cuenta con un espacio para que los internautas pueden
digitar sus opiniones. De esto queda evidencia en redes sociales como Facebook y
Twitter, y también en plataformas de contenido multimedia como YouTube, SoundCloud
y otras.
En cuanto al marketing, la investigación puede ubicarse dentro del comportamiento de
los consumidores, más precisamente en el uso del lenguaje en espacios digitales. Es
muy poco probable que a primera vista pueda detectarse algunas características
comunes en medio de tantos estilos de redacción distintos, pero la analítica de datos
textuales apunta al descubrimiento de patrones comunes en medio de un conjunto
considerable de información. Desde luego, poder modelar un customer rating
empleando solo un texto contribuiría a poder cuantificar la experiencia de los clientes en
un escenario de post-consumo.
Debe tomarse en consideración la importancia del segmento estadounidense en cuanto
a arribos al Cusco. Durante los últimos años, ha sido el segmento de mayor importancia
para la ciudad. Pero, además, es uno de los mercados emisores más importantes a nivel
global. También se encuentra entre los que más gastan en sus viajes, dado que es uno
de los países con mayor PBI per cápita.
12
Figura 1: Market share de turistas estadounidenses con relación al total de extranjeros
arribaron al Cusco 2013-2015
Fuente: PROMPERU (2017)
Market Size : Estadounidenses que han ingresado al Perú
2013 193010
2014 203127
2015 221432
2016 230899
2017 251680
Figura A2: Arribos de estadounidenses al Cusco
Nota: Calculado sobre la base pernoctaciones en hospedajes
Fuente: PROMPERU (2018)
26 26 26
25
22
20
21
22
23
24
25
26
27
2013 2014 2015 2016 2017
193010203127
221432230899
251680
2013 2014 2015 2016 2017
13
Lo anterior guarda relación con el aporte práctico. Si bien el segmento estudiado son
clientes estadounidenses que acudieron a restaurantes especializados en comida
peruana ubicados en el Cusco, lo cierto es que el modelo puede aplicarse a otros
ámbitos geográficos y giros de negocio ligeramente distintos, por ejemplo, restaurantes
de comida italiana en Miami o restaurantes de comida francesa en New York. Es muy
poco probable que el esitlo de redacción de un consumidor cambie solo por el hecho de
valorar un tipo de restaurante distinto, si lo haría por ejemplo si realiza un comentario
acerca de productos farmaceúticos o servicios de cuidado de la salud (Grissete, Nfaoui
& Bahir, 2017). Por lo tanto, el modelo que pretende construirse puede ser de utilidad
para quienes estén a cargo de gestionar el contenido de restaurantes no solo en
TripAdvisor, sino también en páginas como Facebook, donde también se permite
realizar valoraciones en formato de texto libre.
Por último, la investigación se basa en el uso de software libre y de fácil uso. Es así
como el documento se transforma en un pequeño manual para quienes deseen ingresar
en la analítica de textos Uno de los motivos por el que pocos profesionales de los
negocios exploraban datos textuales era que se requería de un entrenamiento en
ciencias de la computación o ramas similares; no obstante, ello dejó de ser un obstáculo
gracias a la aparición de herramientas que solo requieren competencias informáticas
básicas.
14
Capítulo II: Marco Referencial
2.1. Antecedentes
Wegner & Girasek (2003), estudiaron la facilidad de comprensión en las instrucciones
relacionadas a la instalación de asientos de seguridad en autos para niños en Estados
Unidos. Este estudio se motivó debido a que entre los años 1998 y 2000, se estimó que
entre un 79% y 94% de asientos estaban mal instalados. Y esta parecía ser la principal
razón de la tasa de mortalidad de niños de entre uno y diez años cuando ocurrían
accidentes automovilísticos. Los investigadores descubrieron que las instrucciones de
instalación para los asientos eran particularmente complejas y que el 80% de la
población estadounidenses no estaba en condiciones de entenderlas. Para realizar esta
estimación se basaron en dos indicadores: SMOG y Gunnig Fog. El trabajo tenía
implicancias enormes en la industria dedicada a la fabricación de dichos asientos.
Vasquez (2011) realizó un análisis exploratorio y lingúistico de cien reviews en donde
se pretendía identificar aquellos aspectos que son comunes a las quejas acerca de
hoteles en TripAdvisor. Entre otros hallazgos la autora determinó que las quejas suelen
ser bastante detalladas en cuanto a contenido. Por otro lado, la investigadora indicó que
las quejas guardan relación con experiencias no satisfactorias, es decir, experiencias en
donde las expectativas de los consumidores no fueron cubiertas por la calidad de los
servicios en el hotel. La muestra analizada de 100 comentarios.
Yasseri, Kornai, & Kertész (2012) determinaron que no existían diferencias en cuanto a
los niveles de legibilidad entre los artículos de Wikipedia escritos en las secciones Main
(principal) y Simple English (que se supone debe incluir un contenido en un lenguaje
mucho más fácil de entender). Esto ocurría a pesar de que Wikipedia siempre había
hecho esfuerzos para hacer respetar la guía de estilo editorial para cada una de ambas
secciones.Una de las variables que se tomó en cuenta para realizar esta medición fue
el índice de Gunning Fog. Otros hallazgos fueron que el lenguaje es más avanzado en
artículos conceptuales en comparación con artículos basados en personas (biografías)
y objetos. Finalmente, investigaron la relación entre el conflicto y la complejidad del
lenguaje analizando el contenido de las páginas de discusión asociadas a artículos
controversiales y de desarrollo pacífico, concluyendo que la controversia tiene el efecto
de reducir la complejidad del lenguaje.
Oghina, Breuss, Tsagkias & De Rijke (2012) orientaron su investigación a determinar la
correlación entre el puntaje registrado por una película en el portal IMDB y los puntajes
sentimentales registrados en la red social Twitter. Para ello, los investigadores
15
analizaron 176 mil tweets en donde se valoraban setenta películas, las mismas que
poseían una valoración en el portal IMDB. El instrumento utilizado para procesar los
comentarios fue el software WEKA. El puntaje sentimental promedio de cada película
fue relacionado a la valoración de IMDB (que poseía un formato de número entero
acompañado de un decimal como 8.5 o 9.2) mediante una regresión lineal simple. El R-
cuadrado alcanzado registrado fue de 0.482. Entre las limitaciones pertinentes del
estudio, los autores señalaron que el lenguaje empleado en Twitter suele ser por lo
general muy críptico. Cabe mencionar que los autores procuraron automatizar la
limpieza de datos basado en correcciones ortográficas.
López y otros (2014) analizaron más de un millón de comentarios en TripAdvisor
realizados en inglés en donde se evaluaban hoteles de siete ciudades distintas en cuatro
países. Los investigadores recurrieron a tres instrumentos para poder modelar un score
sentimental: Sentiment Treebank (Stanford University), SentiUAH (Universidad de
Alcalá) y OpinionFinder (Cornell University). Las variables principales del estudio eran
el score promedio de cada hotel y la proporción de comentarios que pueden ser
clasificados como positivos según cada instrumento. El método empleado fue el de
regresión lineal simple. Los hallazgos determinaron que existía una correlación positiva
entre ambas variables para cada uno de los instrumentos. Los índices de correlación
alcanzaron valores que iban desde 0.609 a 0.705, siendo el SentiUAH, el que alcanzo
mejor resultado.
Agshar (2016) analizó un total de 1,125,458 comentarios en inglés realizados por
706,646 clientes acerca de 42,153 negocios en el portal Yelp.com, donde el 68.52%
eran restaurantes (el resto era servicios de entretenimiento, locales de vida nocturna y
hoteles). El instrumento empleado fue el lenguaje de programación Python y las
variables de análisis fueron el score asignado por cada cliente (en el sistema de uno a
cinco) y el puntaje sentimental determinado bajo distintos métodos supervisados,
técnicas para deducir una función a partir de datos de entrenamiento. Los resultados
demostraron que era posible modelar un score a partir de los datos textuales. No había
una diferencia significativa entre los distintos segmentos de negocios. El método que
mejores resultados alcanzó fue el de regresión logística.
16
2.2. Marco Teórico
2.2.1. Text Analytics
La analítica de textos (o Text Analytics) trata de obtener información de
diferentes fuentes de texto: interacciones con clientes, revisiones de productos,
correos electrónicos, blogs, tweets y otras formas de textos electrónicos para
que las organizaciones puedan hacer negocios y tomar decisiones de forma más
efectiva (Liau & Tan, 2014) . La analítica textual proporciona ideas sobre los
productos y servicios de la empresa y de los competidores (Kimbrough & Murphy,
2011) .
En términos prácticos, el objetivo es estructurar datos no estructurados:
esencialmente convertir el texto en datos que permitan análisis más extensos y
profundos (Ganesan & Zhou, 2016). Las aplicaciones comunes incluyen
categorizar automáticamente el texto para organizar grandes cantidades de
documentos y la Minería de Datos, incorporando texto junto con otros datos
estructurados para análisis predictivo, escuchando la "voz del cliente "- o
ciudadano - y el sentimiento detrás lo que se dice, y generar información
comercial que resulte relevante (Berezina, Bilgihan, Cobanoglu, & Okumus,
2015).
Según Gartner (2018) , la analítica textual puede ser definida como el proceso
de derivar información de fuentes de texto para propósitos que incluyen resumen,
clasificación, investigación, análisis de sentimiento (la naturaleza de los
comentarios sobre un tema) y explicación (lo que impulsa ese comentario). Es
esencial entender cómo esta definición se concreta través de acciones para
comprender el valor que puede generar a través de las diversas capacidades
analíticas (Bagga, 2016). Estas incluyen búsqueda e información de
recuperación, extracción de información a través de técnicas tales como
procesamiento del lenguaje natural (PLN), etiquetado o anotación, análisis léxico
para estudiar la frecuencia de las palabras y distribución, reconocimiento de
patrones, técnicas de minería de datos (que incluyen enlace y análisis de
asociación) análisis predictivo, segmentación y visualización (Bagga, 2016).
2.2.2. Text Analytics y los problemas de los negocios
Algunas de las aplicaciones más sofisticadas están en servicio al cliente y el
análisis de su experiencia como consumidor (López y otros, 2014). Para ello se
analiza centros de contacto y otras interacciones basadas en voz o texto
17
(Takeuchi & Yamaguchi, 2013). Las organizaciones pueden entender lo que
gusta y no les gusta a los clientes (Bagga, 2016). Los profesionales inmersos en
la analítca textual pueden determinar los controladores detrás comportamiento
del cliente y sus necesidades (Bagga, 2016). Pueden llegar, además, a las
causas detrás de las quejas de los clientes y así desarrollar un sistema de alerta
temprana cuando surjan problemas en productos y servicios (Takeuchi &
Yamaguchi, 2013). Con la transmisión tecnologíca que permite el análisis sobre
la marcha, las organizaciones puede servir a los clientes, hacer
recomendaciones en tiempo real para influir en el comportamiento, o incluso
detectar fraudes en un punto de interacción (Bagga, 2016).
El análisis del contenido de las redes sociales mantiene una organización
informada sobre lo que dicen los clientes y otros sobre productos, servicios,
marcas y la compañía en general (Chua & Banerjee, 2013). Toda esta
inteligencia del cliente colectiva conduce a iniciativas para reducir la deserción
de clientes, aumentar la lealtad a la marca y revelar oportunidades para up-sell
y venta cruzada. Existen varias aplicaciones para una diversidad de industrias:
- En el cuidado de la salud, la administración e interpretación de historias
clínicas se usa para mejorar la seguridad y cuidado del paciente (Raja,
Mitchell, Day, & Michael, 2008).
- Desde lo gubernamental y en los seguros, la analítica de texto juega un papel
creciente en la detección e investigación de fraudes (Pulman, 2016).
- En la gestión de energía y manufactura , la analítica textual es utilizada para
recopilar comentarios de los clientes y así identificar problemas con la
garantía del producto, resultando en ahorro de costos, una mejora de la
calidad y reducción tasa de reparación (Feldman & Sanger, 2006).
- El sector financiero aprovecha el análisis de textos para convertir las notas
del asesor financiero en medidas cuantificables de la experiencia del cliente,
para que puedan comprender mejor el sentimiento, identificar clientes en
riesgo, y evaluar oportunidades para profundizar relaciones (Pulman, 2016).
Por extensión, la analítica de datos textuales puede servir a cualquier función
que quiere minimizar el esfuerzo requerido para administrar y organizar grandes
volúmenes de documentos quiere agregar valor al analizar su contenido.
2.2.3. Text Analytics en la actualidad
La demanda de analítica textual se ha disparado. Las implementaciones de dicho
método se duplicaron desde el 2012 hasta el 2016 (Agshar, 2016) . Todas las
18
organizaciones, independientemente de la industria, tienen necesidades y
oportunidades no satisfechas, y por lo tanto, un creciente interés en el análisis
textual (Feldman & Sanger, 2006). Para complicar las cosas, hay nuevas y
rápidas fuentes de datos a nuestro alrededor, estas incluyen la gran cantidad de
datos de las redes sociales, y últimamente textos no estructurado generado por
las interacciones de las personas con Chatbots y asistentes personales digitales
como Siri, Amazon Echo y Cortana (Bagga, 2016). Muchas de estas aplicaciones
que dependen de las redes sociales implican saber dónde están las
comunidades, el lenguaje que usan, y las tendencias y temas que les interesa
(Agshar, 2016). Por otro lado, el Internet de las cosas también está impulsando
la demanda de aplicaciones que combinan datos estructurados como detalles
operacionales con datos no estructurados como archivos de registro (Cohen &
Hersh, 2005). A medida que los empresarios se dan cuenta de las posibilidades
y lo que eso puede significar para el rendimiento de los negocios, la demanda
simplemente sigue creciendo (Bagga, 2016).
La demanda también está impulsada por el crecimiento de la oferta, no solo de
datos sino de las tecnologías para manipularlos. Hay muchas opciones para
varios tipos de análisis, incluidas las herramientas de código abierto y basadas
en la nube, y son cada vez más fáciles de usar (López y otros, 2014). Una
empresa puede comprar una solución completa de Text Analytics o
componentes de tecnología para crear sus propias plataformas y aplicaciones, o
aplicaciones muy específicas o a medida (Ganesan & Zhou, 2016)
Finalmente, lo que es realmente diferente hoy es que podemos hacer tanto
análisis en tiempo real del tipo streaming (Bagga, 2016). El análisis de grandes
conjuntos de datos solía ser un proceso por lotes con retrasos asociados, pero
con el análisis Big Data, es posible procesar los datos tal como vienen; resulta
posible analizar la opinión y preferencia de los clientes, categorizar o puntuar al
cliente para predecir el comportamiento, y recomendar qué hacer a continuación,
todo en tiempo real (Agshar, 2016).
2.2.4. Análisis de Sentimiento
El análisis del sentimiento, también llamado minería de opinión, es el campo de
estudio que analiza opiniones, sentimientos, evaluaciones, actitudes y
emociones de las personas hacia las entidades y sus atributos expresados en
texto escrito (Quan & Ren, 2010). Las entidades pueden ser productos, servicios,
19
organizaciones, individuos, eventos, problemas o temas (Yasmina, Hajar, &
Hassan, 2016).
Las oraciones que expresan opiniones o sentimientos suelen ser oraciones
subjetivas (opuestas a las oraciones objetivas), que declaran hechos, porque las
opiniones y los sentimientos son intrínsecamente subjetivos (Bagga, 2016). Sin
embargo, las oraciones objetivas pueden implicar sentimientos negativos de sus
autores también, porque pueden hechos indeseables; por ejemplo, el sentido
común nos dice que la frase:“Compré un auto nuevo ayer y se malogró hoy”
tiende a ser objetiva, aunque manifiesta un hecho negativo (Takeuchi &
Yamaguchi, 2013).
Según Berezina y otros (2015) casi no hubo investigación acerca del análisis
sentimental hasta antes del año 2000. Esto se debe en parte a que casi ningún
texto digitales no se encontraban en formularios. Con el crecimiento explosivo
de la web y el social media en los últimos quince años, ahora se tiene un flujo
constante de datos de opinión grabado en formularios digitales (Godnov &
Redeck, 2016). Por lo tanto, no es sorprendente que el inicio y el rápido
crecimiento del análisis de sentimiento coincide con el crecimiento de las redes
sociales en la web.
Con los años, los sistemas de redes sociales en la web han proporcionado
excelentes plataformas para facilitar y habilitar la participación del público
comprometido y la comunidad, lo que ha dado como resultado una nueva cultura
participativa (Chua & Banerjee, 2013). Las personas han adoptado plataformas
como Facebook, Twitter y YouTube con entusiasmo: permiten a sus usuarios
expresarse con voz libre sobre cualquier tema y venciendo las barreras
geográficas (Chua & Banerjee, 2013). También les permiten a las personas
conectarse fácilmente con otros y compartir su información (Cohen & Hersh,
2005). Esta revolución participativa de la web y las comunicaciones ha
transformado nuestra vida cotidiana y la sociedad en su conjunto.
Esta explosión en el uso de la web ha popularizado dos áreas principales de
investigación, a saber, análisis de redes sociales y análisis de sentimientos
(Bagga, 2016). Aunque el análisis de redes sociales no es un área de
investigación nueva, ya que comenzó en el década de los 40, cuando los
investigadores en ciencias de la gestión comenzaron a estudiar actores
(personas en organizaciones) y sus interacciones y relaciones (Agshar, 2016)..
20
El análisis de sentimiento, por el contrario, es una nueva área de investigación
que esencialmente surgió de las redes sociales digitalizadas (Bagga, 2016).
Desde una perspectiva técnica, una tarea básica en análisis de sentimientos es
clasificar la polaridad de un texto dado en un documento, una oración, o una opinión
expresada en un documento como negativa, neutra, o positiva (Berezina y otros,
2015). La clasificación sentimiento más avanzada, "más allá de la polaridad" busca,
por ejemplo, estados emocionales tales como "enfado", "tristeza", o "felicidad",
aunque esta disciplina se está independizando y ya está desarrollando en un campo
más específico llamado análisis emocional (Pulman, 2016).
2.2.5. TripAdvisor como fuente de investigación académica
Es una plataforma web que surgió en el año 2000 en los Estados unidos. Es un sitio
donde quienes viajan narran sus diversas experiencias acerca de atractivos y
destinos turísticos, así como restaurantes, hoteles y más recientemente aerolíneas.
Recibe más de 390 millones de visita promedio al mes (TripAdvisor, 2017b). En este
entorno cada uno de los participantes puede opinar bajo el formato de texto libre
acerca de los lugares que visitó y los servicios que empleó. TripAdvisor es un
perfecto ejemplo de lo que se conoce como contenido generado por el usuario.
Kotler y otros (2016) mencionaron que TripAdvisor es un perfecto ejemplo de
valoraciones colectivas.
TripAdvisor, hasta hace algunos años, era muy cuestionada por la validez de su
información (comentarios, principalmente) y llegó a tener problemas de índole legal
complicados por la veracidad de estos (Mellinas, Bernal & Martínez, 2013). No
obstante, desde mediados del año 2011, TripAdvisor inició una plan estratégicos de
detección y eliminación de información falsa. Para ello recurrió a algoritmos
computacionales y a un equipo de moderadores (Chua & Banerjee, 2013). Dicho de
otra forma, desde el año 2011, la información de TripAdvisor tiene un grado de
depuración mayor.
TripAdvisor es considerada como una fuente de información secundaria de alto
valor para los estudios de hotelería, turismo y campos afines(O’Connor, 2010). A
pesar de que los algoritmos computacionales que depuran comentarios no siempre
son perfectos y de que el equipo de moderación puede equivocarse en cuanto al
hecho de detectar opiniones o valoraciones que no sean verdaderas. TripAdvisor
sigue siendo tomada en cuenta para investigaciones internacionales vinculadas a
los sectores turístico y hotelero (Amaral & Tiago, 2014).
21
2.2.6. Reviews Online y el proceso de decisión del consumo
La forma en que los consumidores buscan y compran está cambiando, esto está
impulsado por las nuevas tecnologías e Internet. Los consumidores hoy en día no
quieren sentarse pasivamente y teniendo publicidad viniendo a ellos (Amaral &
Tiago, 2014). Los consumidores están llegando activamente a sitios web y
revisiones en línea para comprender sus opciones (Liau & Tan, 2014).
Según Philips, Olsen. & Baumgartner (1995), en el proceso tradicional donde los
consumidores toman decisiones, el consumidor primero comienza seleccionando
un conjunto de marcas potenciales para posteriormente identificar los atributos
relevantes de cada marca. Luego procede a evaluar los diversos atributos de las
diferentes marcas. Por último, el proceso tradicional coherente en reducir el número
de marcas potenciales para que al final tome una decisión y al final realiza la
compra. De ahí que el marketing tradicional impulsado por las empresas a través
de la publicidad tradicional, el marketing directo y los patrocinios siguen siendo
importantes (Berezina y otros, 2015)
En cambio, en un contexto tecnológico, significa que los profesionales del marketing
deben mover sus estrategias dentro del e-WOM (boca a boca electrónico), proceso
donde los consumidores toman decisiones basados en las opiniones de otros que
ya hicieron uso del servicio (Cheng & Huang, 2014). Actualmente, en el proceso de
toma de decisiones del consumidor, estos buscan activamente y obtienen
información del producto (Chua & Banerjee, 2013). Durante la etapa de evaluación
activa, las revisiones en línea son una parte importante (Chen & Xie, 2008). Las
revisiones son la herramienta de hoy para seleccionar marcas, identificar atributos
y evaluar varios atributos de diferentes marcas (Agshar, 2016). Las revisiones en
línea están involucradas en la etapa de evaluación activa desde que los
consumidores están recopilando información mientras leen reseñas en línea.
Significa que esta importante herramienta también está involucrada en la etapa de
decisión de compra (Chen & Xie, 2008).
2.2.7. La educación basada en la escritura y el índice de Gunning-
Fog
Otros de los indicadores de mayor trascendencia en la lingüística son aquellas
relacionadas al grado de instrucción (Lougharn & McDonald, 2014). Diversas
investigaciones han construido índices que están asociados al nivel de formación
que se requiere para la comprensión de un texto determinado (Lougharn &
22
McDonald, 2014). La construcción de estas variables fue posible gracias al
trabajo de la lingüística, la estadística y la computación.
El modelamiento matemático para comprender fenómenos lingüísticos ha
contribuido a la comprensión de ciertos fenómenos que antes se entendían
únicamente desde una perspectiva cualitativa-exploratoria (Newbold & Gillam,
2010) . El índice de Gunning-Fog (o también llamado simplemente Fog), permite
determinar cuántos años de instrucción se requiere para entender un
determinado texto, y es el de mayor uso en Estados Unidos (Lougharn &
McDonald, 2014). Para calcular el índice de Gunnig-Fog son empleados tres
datos de entrada variable: sentencias (oraciones), el total de palabras
involucradas y las palabras complejas, aquellas que tienen más de tres sílabas
(Newbold & Gillam, 2010). La fórmula estándar es la siguiente.
𝐺𝑢𝑛𝑛𝑖𝑛𝑔 𝐹𝑜𝑔 𝐼𝑛𝑑𝑒𝑥 = 0.4 ∗ [(𝑝𝑎𝑙𝑎𝑏𝑟𝑎𝑠
𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑖𝑎𝑠) + 100 ∗ (
𝑝𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑐𝑜𝑚𝑝𝑙𝑒𝑗𝑎𝑠
𝑝𝑎𝑙𝑎𝑏𝑟𝑎𝑠)]
Mientras más alto sea el índice, más años de educación formal se requiere para
poder comprender un determinado texto (Clark, Fox, & Lappin, 2012). El índice
de Gunning-Fog es uno de los índices de legibilidad más importantes del idioma
inglés (Shams & Mercer, 2011). Un documento académico publicado en el
Journal of Artificial Intelligence alcanza un valor de veintiuno, mientras que The
Hobbit registra un valor de aproximado de nueve (Newbold & Gillam, 2010). Esto
quiere decir que se requieren veinte años de formación académica formal para
comprender el artículo científico y nueve para entender una de las más grandes
obras de Tolkien.
Una de las inferencias de Shams & Mercer (2011) es que las personas suelen
escribir en función a su grado de instrucción. Y esto parece evidente, aunque
depende del contexto. En los servicios de mensajería instantánea, por ejemplo,
no se procura respetar las reglas de ortografía. Sin embargo, en espacios donde
todo el mundo puede leer el contenido que ingresamos, las personas procuran
escribir más acorde a su grado de instrucción (Newbold & Gillam, 2010), esto ya
está asociado a la imagen que se desea proyectar en entornos digitales (Shams
& Mercer, 2011).
2.2.8. Modelo de Referencia
El modelo de referencia es una adaptación de los antecedentes de la
investigación y uno de los valores más importantes de TripAdvisor: el tipo de
viajero. Por el lado de las variables analítico-textuales, tenemos al análisis de
23
sentimiento, indicador asociado a la carga sentimental expresada en el texto. El
índice de Gunning-Fog, por otra parte, está asociado a la educación en la
escritura. Por último, se ha considerado a la cantidad de palabras, dado que esta
es una variable asociada al nivel de detalle (a más detalles que desea
describirse, más palabras serán necesarias).
De acuerdo con las estadísticas del sitio web, el 75% de los viajeros que acuden
a restaurantes del Cusco viajó con amigos o familia (TripAdvisor, 2017a). Es
una variable auxiliar para considerar en el modelo.
CR = f (puntaje sentimental, gunning fog, cantidad de palabras, tipo viajero)
Donde:
CR = Customer Rating
gunning fog = índice de Gunning Fog
cantidad de palabras = cantidad de palabras
tipo viajero = tipo de viajero
2.6. Objetivos e Hipótesis
2.6.1. Objetivos
Objetivo General: Determinar si el modelo de referencia que relaciona score y datos
analítico-textuales resulta significativo en el caso de los estadounidenses que
dejaron valoraciones en TripAdvisor acerca de restaurantes de comida peruana en
el Cusco.
Objetivo Específico 1: Determinar si el customer rating guarda relación con el score
sentimental del comentario en el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
Objetivo Específico 2: Determinar si el customer rating guarda relación con el índice
de Gunnig- Fog del comentario en el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
Objetivo Específico 3: Determinar si el customer rating guarda relación con la
cantidad de palabras del comentario en el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
24
Objetivo Específico 4: Determinar si el customer rating guarda relación con el tipo
de viajero el caso de las valoraciones realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
2.6.2. Hipótesis
Hipótesis General: El modelo de referencia que relaciona score y datos analítico-
textuales resulta significativo en el caso de los estadounidenses que dejaron
valoraciones en TripAdvisor acerca de restaurantes de comida peruana en el
Cusco.
Hipótesis Específica 1: El customer rating guarda relación con el score sentimental
del comentario en el caso de las valoraciones realizadas por estadounidenses
acerca de restaurantes de comida peruana en el Cusco.
Hipótesis Específica 2: El customer rating guarda relación con el índice de Gunnig-
Fog del comentario en el caso de las valoraciones realizadas por estadounidenses
acerca de restaurantes de comida peruana en el Cusco.
Hipótesis Específica 3: El customer rating guarda relación con la cantidad de
palabras del comentario en el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
Hipótesis Específica 4: El customer rating guarda relación con el tipo de viajero el
caso de las valoraciones realizadas por estadounidenses acerca de restaurantes
de comida peruana en el Cusco.
25
Capítulo III: Método
3.1. Tipo y Diseño de Investigación
3.1.1. Tipo de Investigación
Ya se ha mencionado que la investigación se nutre de comentarios para poder
construir una serie de indicadores numéricos. Los datos en formato de texto libre
(también conocidos como variables string o cadena) no podían ser aprovechados
de forma numérica. Los comentarios son inputs, estos son transformados a
números. Estos últimos pueden ser aprovechados recurriendo a las técnicas
estadísticas convencionales. Esto con el fin de verificar la veracidad de un
conjunto de hipótesis planteadas por los investigadores. Por tanto, la
investigación es del tipo cuantitativa (Hernández, Fernández, & Baptista, 2014).
Cabe mencionar que el enfoque tradicional de textos se daba basado en el
análisis de contenido (Kothari, 2004).
3.1.2. Diseño de Investigación
La investigación es no experimental, transversal y correlacional:
-Es no experimental porque los investigadores no ejercen control sobre las
variables ni tampoco la aleatorizan: el proceso de investigación solo tranforma
comentarios en patrones numéricos (Kothari, 2004).
-Por otro lado, la investigación es transversal, ya que los datos han sido
recolectados en un momento determinado, además la variable tiempo no
participa en la investigación , más allá de ser un delimitante (Kothari, 2004).
-Finalmente la investigación es del tipo correlacional: busca determinar si existe
una relación entre una variable dependiente y un conjunto de variables
independientes (Hernández, Fernández, & Baptista, 2014). Un cambio en alguna
de estas última debería estar vinculada a una variación en la primera. En este
caso, la variable dependiente es el customer rating (Hernández, Fernández, &
Baptista, 2014).
26
3.2. Variables
Tabla 1: Tabla de Variables
Hipótesis de Investigación Variables Definición Conceptual Definición Operacional
El modelo de referencia que relaciona score y datos
analítico-textuales resulta significativo en el caso de los estadounidenses que dejaron valoraciones en TripAdvisor acerca de restaurantes de
comida peruana en el Cusco.
Customer Rating
Es el valor que asigna cada cliente en función del servicio recibido.
Existen investigadores que la tratan como variable ordinal (Limberger, 2014)l y otros que lo usan como
indicador cuantitativo (López et.al 2014).
Puntaje asignado por cada usuario. Es
posible obtenerlo por observación directa.
El customer rating guarda relación con el score
sentimental del comentario en el caso de las
valoraciones realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Puntaje sentimental del
comentario
Es el valor que cuantifica la polaridad con que la persona ha expresado su opinión en un texto
escrito. Es un valor numérico que va desde -1 (totalmente negativo) hasta
+1 (totalmente positivo)
Cada comentario es
corregido ortográficamente con
el instrumento Grammarly y
posteriormente procesado con el
instrumento Lexalytics Semantria. Con este último fue obtenido el puntaje sentimental.
El customer rating guarda relación con el índice de
Gunnig- Fog del comentario en el caso de las
valoraciones realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Índice de Gunnig Fog
Representa el número de años de educación formal que se requiere
para comprender un texto en inglés (Lougharn & McDonald, 2014). Es
una variable asociada a la educación (Lougharn & McDonald, 2014).
Puede alcanzar valores que van desde 0.40 (palabra monosílaba)
hasta más de 25 en journals internacionales
Cada uno de los comentarios es
procesado con el instrumento
Readability Calculator.
El customer rating guarda relación con la cantidad de
palabras del comentario en el caso de las valoraciones
realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Cantidad de Palabras
Representa el número de palabras que son empleados en un
comentario. Es una variable cuantitativa dependiente. TripAdvisor no tiene un límite inferior en cuanto a
palabras (el mínimo es 100 caracteres). El máximo a ingresar
son 10,000.
Puede obtenerse
mediante una función de Excel aplicado a
cada valoración textual.
El customer rating guarda relación con el tipo de viajero el caso de las valoraciones
realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Tipo de viajero
Representa al grupo de viaje con el que el viajero estuvo acompañado al
momento de comer en el restaurante. Es una variable
categórica.
Puede obtenerse con el motor de búsqueda de TripAdvisor. Basta con indicar el tipo de
viajero.
Elaboración: Propia
27
3.3. Universo
El universo estará conformado por todas las valoraciones en TripAdvisor realizadas por
estadounidenses acerca de restaurantes de comida peruana, se asume que el universo
es infinito.
3.4. Muestra
La muestra está conformada por 392 casos válidos. El tipo de muestreo es abierto y por
conveniencia, el cual es un método en donde los sujetos son elegidos dado su
conveniente accesibilidad (Malhotra, 2008). TripAdvisor permite localizar a los
restaurantes de comida peruana en el Cusco, permite filtrar el tipo de viajero (familia,
amigos) e incluso es posible obtener todos los comentarios en inglés (mediante
procesos automatizados). No obstante, la página no permite filtrar únicamente a los
estadounidenses con una función automatizada. Por lo que es necesario ubicarlos uno
a uno. Un caso válido cumple las siguientes característica.
- El comentario debe ser haber sido escrito en inglés. Es posible admitir la
incorporación de peruanismos (algunos platos, por ejemplo, no tienen
nombres en inglés).
- No se admite casos en los que un ciudadano estadounidense escriba parte
de su comentario en otros idiomas, ya que el índice de Gunning Fog está
diseñado específicamente para el idioma inglés, aunque puede admitir
nombres propios en otros idiomas.
La muestra fue tomada durante los meses de febrero y marzo del 2018. No se han
incorporado comentarios posteriores a dichos meses.
Los restaurantes incluidos en el estudio son aquellos que cuentan con registro en
TripAdvisor. Resulta obvio que no se pueden incluir los restaurantes sobre los que no
se tiene registro alguno. Por otro lado, tampoco pueden incluirse restaurantes de comida
peruana ubicados en el Cusco que no tengan valoraciones de ciudadanos procedentes
de Estados Unidos.
Todos los restaurantes incluidos en la muestra no solo tienen comentarios realizados
por ciudadanos estadounidenses, sino que además cuentan con una ubicación en
Google Maps, y en casi la totalidad de los casos opiniones en el módulo de Google
Reviews. De esta manera es verificable la existencia de cada restaurante como entidad
empresarial a fin de garantizar la integridad de la muestra y los datos que la conforman
a fin de evitar inexactitudes de la información.
28
A fin de verificar los mecanismos de validación de TripAdvisor, se procedió a ingresar
comentarios acerca de restaurantes ubicados en Egipto, Cusco y Miraflores. Los dos
primeros nunca fueron publicados, el tercero sí. La razón de esto es que TripAdvisor
tiene un algoritmo para publicaciones que se orienta por la IP. Al cierre de la edición de
la investigación, los comentarios no fueron publicados.
Figura 2: Distribución de los comentarios según el Restaurante (en porcentaje)
Fuente: TripAdvisor (2017)
5.1
3.8
4.6
3.3
3.6
4.3
3.1
1.8
4.8
5.9
4.3
3.8
2.6
3.8
5.4
5.6
3.3
3.1
4.8
4.1
3.8
6.6
6.1
2.3
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
A mi Manera
Aguaymanto Resto Bar
Barrio Ceviche
Brasa Brava
Calle del Medio
Cultura Paraíso
El Paititi
Faustina
Inka Grill
kusikuy
Lima Cocina Peruana y Pisco Bar
Limbus Restobar
Meson de Don Tomas
Morena Peruvian
Museo del Pisco
Nuna Raymi
Organika
Pachapapa
Peruk
Qesqi Restaurant y Bar
Qucharitas
Seledonia's Mesa
Uchu Peruvian Steakhouse
Yurak
29
Como se mencionó existen restaurantes de comida peruana que no tienen valoraciones
de comensales estadounidenses o simplemente no están en TripAdvisor. Estos pueden
ser ubicados ya sea mediante anuncios publicitarios, redes sociales como Facebook o
consulta en la guía de negocios local. Algunos de estos son: Siete cucharones, Panchito,
La buena Sazón, Aycha Food, Sinkuy, Uchukuta, Tradiciones Criollas, Cusco Club, La
Rika Miel, Hangar950, Tupana Wasi, La Cabra, Chasfake, Villa Mercedes, BenachIn, El
Dorado, Andean Grill y Noqanchis.
Por otro lado, en cuanto a la satisfacción alcanzada por los usuarios estadounidenses
se obtuvo:
Figura 3: Customer Rating promedio de cada restaurante
Fuente: TripAdvisor (2017)
3.550
4.467
4.444
4.462
4.500
4.824
3.500
3.714
4.158
4.435
2.294
3.200
3.100
4.667
3.429
4.182
4.462
1.750
3.263
2.875
3.533
4.192
4.292
4.333
3.860
0.000 1.000 2.000 3.000 4.000 5.000 6.000
A mi Manera
Aguaymanto Resto Bar
Barrio Ceviche
Brasa Brava
Calle del Medio
Cultura Paraíso
El Paititi
Faustina
Inka Grill
kusikuy
Lima Cocina Peruana y Pisco Bar
Limbus Restobar
Meson de Don Tomas
Morena Peruvian
Museo del Pisco
Nuna Raymi
Organika
Pachapapa
Peruk
Qesqi Restaurant y Bar
Qucharitas
Seledonia's Mesa
Uchu Peruvian Steakhouse
Yurak
Total general
30
Nota: El promedio sirve para determinar un ranking de los restaurantes. Es obtenido promediando
las calificaciones de los usuarios de TripAdvisor
3.5. Instrumentos
3.5.1. Microsoft Excel
Es una hoja de cálculo diseñada por Microsoft. En la investigación es usado
como almacén de información, pero también se usa para contar el número de
palabras que se encuentran en una frase.
3.5.2. Readability Calculator
Es una aplicación online desarrollado en lenguaje de programación Java. La
misma es empleada para calcular del índice de Gunning Fog. Basta con copiar,
pegar un texto y presionar el botón de cálculo para que se obtengan resultados
inmediatos.
3.5.3. Grammarly
Es un complemento que pude adherirse al navegador Chrome. En la
investigación es usado para corregir la ortografía y gramática de los textos
ingresados (comentarios en este caso). Este proceso es requerido por el análisis
sentimental para la obtención de mejores resultados.
3.5.4. Lexalytics
Este software, también conocido como Lexalytics Semantria, se orienta al
análisis de sentimiento. Cuenta con una versión online de demostración, la
versión comercial principal funciona como un complemento para Microsoft Excel.
Lexalytics cuenta con un módulo especializado para análisis de comentarios
acerca de restaurantes, hoteles, aerolíneas y servicios farmacéuticos. En la
investigación se usa el primer módulo. Los resultados del Lexalytics mejoran en
calidad si son tratados previa corrección ortográfica y gramatical.
Si se tiene la siguiente frase en inglés extraída de TripAdvisor:
“We visited here during our recent trip to Sydney and overall we were very impressed. We decided to make a reservation online, which was quick and easy with instant confirmation. It was nice to be able to view the table layout and select our own online. The location is spectacular with stunning views of the harbour and Opera House. It truly was amazing. Despite this, however, the restaurant was only about 25% full and so the atmosphere was a bit flat. Perhaps this was to our benefit as we received top class service from our waiter, Brandon, who was not only friendly and funny but extremely knowledgeable when it came to food and wine pairings. Speaking of wine, the list was extensive - we loved it - and it took us what seemed like an hour to eventually decide on a local Shiraz. Now on to the most important aspect, the food. Our seafood starters were
31
delicious, as were out fillet steak mains. The one and only real disappointment was the dessert which was served with no real imagination and looked like it had been purchased yesterday at the local grocery store. All in all, my favourite Sydney restaurant so far. So many positives and really good value too. Highly recommend!”
La cual se traduce en:
"Visitamos aquí durante nuestro reciente viaje a Sydney y, en general, quedamos muy impresionados. Decidimos hacer una reserva en línea, que fue rápida y fácil con confirmación instantánea. Fue agradable poder ver el diseño de la mesa y seleccionar el nuestro en línea. La ubicación es espectacular, con impresionantes vistas del puerto y la Ópera. Realmente fue increíble. Sin embargo, a pesar de esto, el restaurante solo estaba lleno en un 25% y el ambiente era un poco plano. Tal vez fue para nuestro beneficio, ya que recibimos un servicio de primera clase de nuestro camarero, Brandon, que no solo era amigable y divertido, sino que también tenía un gran conocimiento en lo que respecta a los maridajes de comida y vino. Hablando de vino, la lista era extensa (nos encantó) y nos tomó lo que pareció una hora para finalmente elegir un Shiraz local. Ahora pasemos al aspecto más importante, la comida. Nuestros entrantes de marisco eran deliciosos, al igual que los principales filetes. La única y verdadera decepción fue el postre que se sirvió sin verdadera imaginación y parecía que se había comprado ayer en la tienda de comestibles local. En general, mi restaurante favorito de Sydney hasta ahora. Tantos aspectos positivos y muy buen valor también. ¡Altamente recomendado!"
Figura 4: Salida del instrumento Lexalytics,
En este caso el comentario ingresado ha alcanzado un puntaje de 0.599. Lo que
evidencia una actitud positiva del autor con respecto al texto ingresado. Esto
tentativamente estaría asociado a una valoración positiva.
3.5.5. SPSS
Es un software de análisis estadístico que es propiedad de IBM. Es muy
empleado en las ciencias sociales y en el ámbito de los negocios, especialmente
32
en las investigaciones de mercado (Garth, 2008). Este software será empleado
para el modelo de regresión múltiple.
3.5.6. GOLDMineR
Es un software de análisis estadístico diseñado para las regresiones ordinales
generales y está bajo la licencia de Statistical Innovations (Magidson, 1998).
Este instrumento será usado para la regresión considerando la variable
dependiente del tipo ordinal como lo propuso Limberger (2014). El nombre
proviene de Graphical Ordinal Logit Displays based on Monotonic Regression
(Magidson, 1998).
3.6. Procesamiento y Recolección de Datos
La variable tipo de viajero se obtiene por observación directa. En el caso de las variables
analítico – textuales las mismas fueron registradas en el SPSS luego del siguiente
proceso:
Figura 5: Flujograma de procesamiento de información
33
3.7. Plan de análisis
Tomando como referencia, tal como lo hicieron López y otros (2014) se usará la
regresión múltiple.Esta técnica, debe cumplir una serie de supuestos, entre ellos: la no
autocorrelación entre los residuos, la existencia de no colinealidad y la hipótesis de
normalidad en los residuos (Pardo & Ruíz, 2002). No obstante, en muchas ocasiones
no se cumplen todos los supuestos de la regresión múltiple, por lo que es decisión del
investigador valorar la aceptación del no cumplimiento de alguno de los supuestos para
seguir utilizando dicha técnica (Pardo & Ruíz, 2002). Emplearemos, entonces, la técnica
de la regresión múltiple para componer el modelo de Customer Rating y valorar si
podemos cumplir con nuestro cometido. Para ello haremos uso de las regresiones
múltiples.
Para analizar los datos y lograr conocer el valor de verdad de las hipótesis, es necesario
regresionar los datos. Es tentativo el empleo de la regresión monótona, un método
generalizado para predecir un orden dicotómico, ordinal o agrupado para una variable
dependiente continua Y que contiene J≥ 2 categorías de resultados, como una función
de M variables de predicción cuantitativas y / o cualitativas X = (X1, X2, ..., XM)
(Magidson, 1998). Existen cuatro motivos para considerar a esta regresión:
- De acuerdo con lo señalado por Magidson (1998), existen muy pocas
variables dependientes en el mundo que sean continuas o dicotómicas. En
el caso de TripAdvisor, cuando un usuario puntua su experiencia, lo hace en
una escala de pésimo, malo, regular, bueno y excelente. No se está,
entonces ante una variable continua, sino ante una escala ordinal, más
precisamente en una escala de Likert.
- De acuerdo con Han & Cai (2011), una ventaja de la regresión monótona es
que no asume una linealidad rígida como la regresión múltiple, sino se basa
en una forma libre más adaptable a escenarios reales.
- Tal como señalan Magidson (1998) y Han & Cai (2011), este método resulta
una regresión ordinal logística en su versión general.
- Posee un nivel de ajuste más alto dado que su forma es la de una curva y es
menos rígida que una recta (Han & Cai, 2011).
Si bien es cierto que investigadores como López y otros (2014) emplearon la regresión
lineal para demostrar la relación entre puntajes sentimentales y los ratings, lo cierto es
que el rating no se asemeja a una variable continua (Limberger, 2014). Una de las
formas más comunes de comparar los modelos de regresión lineal y la monótona es el
valor del R-cuadrado. El nivel de significancia para todo los modelos es de 0.05. Su uso
34
se ha dado en múltiples investigaciones, figura como un valor por defecto o estándar en
diversos softwares de analísis estadístico y aunque su calidad como valor de referencia
es debatible (Manterola & Pineda, 2008); para estar en consonacia con la mayoría de
las publicaciones científicas.
35
Capítulo IV: Resultados
4.1. Resultados
Resultados de la regresión múltiple
El primer modelo para emplear es el que relaciona las siguientes variables: Customer
Rating, Sentimiento, Cantidad de Palabras, Fog y Tipo de viajero.
Tabla 2: Resumen del modelo – Regresión Múltiple
Modelo R R
cuadrado R cuadrado
ajustado Error estándar de la
estimación Durbin-Watson
Múltiple ,835a 0.697 0.694 0.703 1.312
Elaboración: Propia
En la regresión múltiple, el estadístico de Durbin Watson proporciona información sobre
la independencia de los residuos. El valor de este estadístico oscila entre 0 y 4. Toma
valor 2 cuando los residuos son completamente independientes. De acuerdo Pardo &
Ruíz (2002), este estadístico debe estar entre 1,5 y 2,5 (p.373) y valores menores que
2 indican autocorrelación positiva y aquellos mayores que 2 indican autocorrelación
negativa. En el caso que estamos analizando, se incumple el supuesto de
independencia y como consecuencia los residuos son dependientes, lo cual estaría
violando uno de los supuestos de la regresión múltiple.
A continuación, comprobaremos si las variables utilizadas en la regresión cumplen con
el supuesto de linealidad, condición necesaria para esta técnica. Para ello utilizaremos
la técnica Anova, aplicada al caso de la regresión.
Tabla 3: ANOVA de la Regresión múltiple
Modelo Suma de
cuadrados gl
Media cuadrática
F Sig.
Regresión 440.066 4 110.016 222.659 0,000
Residuo 191.217 387 0.494
Total 631.283 391
Elaboración: Propia
Anova nos proporciona el estadístico F permite conocer si existe relación lineal
estadísticamente significativa entre la variable dependiente y las independientes
36
tomadas todas en su conjunto. Aquí el p-valor es <0,05 lo que indica que existe relación
lineal estadísticamente significativa.
Tabla 4: Coeficientes del modelo
Modelo
Coeficientes no estandarizados
Coeficientes estandarizados
t Sig.
Estadísticas de colinealidad
B Desv. Error
Beta Tolerancia VIF
(Constante) 4.68 0.172
27.178 0.000
Sentimiento 2.433 0.098 0.721 24.917 0.000 0.934 1.07
Cantidad Palabras
-0.003 0.001 -0.134 -4.583 0.000 0.918 1.09
Fog -0.095 0.012 -0.225 -7.86 0.000 0.952 1.05
Tipo de Viajero
-0.104 0.071 -0.041 -1.461 0.145 0.994 1.006
Elaboración: Propia
Según las estadísticas de colinealidad, la Tolerancia es alta, es decir no hay colinealidad
entre cada una de las variables independientes y la dependiente. Según Cameron &
Windmeijer (1995) el FIV (Factores de Inflación de la Varianza) son los inversos de los
niveles de Tolerancia, y son grandes, pero tolerancia y FIV grandes, no generan
problema, pero Tolerancia pequeña y FIV grande equivale a inestabilidad en los
coeficientes de regresión (p.21). Cabe mencionar que el tipo de viajero registra un p-
valor de 0.145 (>0.05), superando al fijado en esta investigación.
Por ello se propone la necesidad de modificar el modelo de regresión múltiple a fin de
excluir la variable tipo de v.
Tabla 5: Resumen de modelo modificado – Regresión múltiple
Elaboración: Propia
En este caso, el coeficiente de Durbin Watson nuevamente no se ubica dentro del rango
de 1,5 y 2,5. Por tanto los residuos son dependientes (muy similar a la Tabla 2), teniendo
los residuos autocorrelación positiva, no pudiendo cumplir con el supuesto de
independencia de los residuos.
Modelo R R
cuadrado R cuadrado
ajustado Error estándar de la
estimación Durbin-Watson
Múltiple ,834 0.695 0.693 0.704 1.307
37
Continuando con la linealidad del conjunto de variables, dependiente e independiente,
se analiza el Anova correspondiente.
Tabla 6: ANOVA del modelo modificado
Modelo Suma de
cuadrados gl
Media cuadrática
F Sig.
Regresión 439.011 3 146.337 295.305 ,000b
Residuo 192.272 388 0.496
Total 631.283 391
Elaboración: Propia
En este caso el nivel de significancia indica que si existe relación lineal entre la variable
dependiente y las independientes. Luego es necesario analizar cada una de las
variables textuales:
Tabla 7: Coeficientes del Modelo Modificado
Modelo
Coeficientes no estandarizados
Coeficientes estandarizados
t Sig.
Estadísticas de colinealidad
B Desv. Error
Beta Tolerancia VIF
(Constante) 4.627 0.169 27.454 0.000
Sentimiento 2.432 0.098 0.721 24.873 0.000 0.934 1.07
Cantidad Palabras
-0.003 0.001 -0.137 -4.701 0.000 0.923 1.083
Fog -0.095 0.012 -0.225 -7.828 0.000 0.953 1.05
Elaboración: Propia
En este caso, eliminando la variable tipo, todas las variables son estadísticamente
significativas (p< 0.05) y ninguna de las variables se excluye, el modelo queda de la
siguiente forma:
Customer Rating = 4.627 + 2.432*Sentimiento – 0.003*Cantidad de Palabras – 0.095*Fog
Bajo este modelo, existe una relación directa entre el sentimiento y el rating asignado
por el cliente; mientras que la cantidad de palabras y el índice de Fog propio de la
escritura, guardan una relación inversa con la valoración dejada por el usuario. En
38
cuanto a la importancia de las variables, el sentimiento supera al índice fog y este último
a la cantidad de palabras.
No obstante, es necesario una prueba más para para saber si se cumplen los postulados
del modelo de regresión múltiple y para ello utilizaremos la prueba de Kolmogorov-
Smirnov, que nos indicará si los residuos provienen o no de una distribución normal.
Tabla 8: Prueba de Kolmogorov-Smirnov para una muestra Unstandardized
Residual
N 392
Parámetros normales Media 0.000
Desv. Desviación
0.701
Máximas diferencias extremas Absoluto 0.06
Positivo 0.036
Negativo -0.06
Estadístico de prueba 0.06
Sig. asintótica(bilateral) 0,002
Elaboración: Propia
En este caso, el nivel de significancia no excede el p-valor de 0.05, por tanto, los errores
del modelo Ɛ, que contrastamos a partir de los residuos estandarizados, no provienen
de una distribución normal. Por tanto, no se cumple el supuesto de normalidad.
De los principios de regresión múltiple planteados, solo se ha cumplido la existencia de
no colinealidad, mientras que no se han superado la autocorrelación entre los residuos
y la distribución normal de los mismos.
Con los resultados anteriores, podemos poner en tela de juicio la propuesta de López y
otros (2014).
Además del incumplimiento de algunos de los supuestos de la regresión múltiple,
debemos de tener en cuenta que la variable dependiente (Customer Rating) es una
variable ordinal y no necesariamente métrica, por lo cual deberíamos tratar esa variable
y el modelo en general con otro tipo de regresión que sirva para analizar variables
dependientes ordinales. Para ello se ha elegido la regresión monótona (Magidson,
1998), que nos ayudará a obtener unos resultados más coherentes con los tipos de
variable estudiados.
La diferencia entre las regresiones múltiple y monótona puede evidenciarse también en
forma gráfica:
39
Figura 6: Gráfico de la Regresión Múltiple Figura 7: Gráfico de la regresión monótona
Al observar ambas figuras, resulta evidente que en la regresión múltiple se pierde información. La curva de regresión monótona, por otro lado,
representa la regresión conjunta de las tres variables independientes ingresadas en el modelo (puntaje_sentimental, gunning_fog y
cant_palabras) versus el Customer Rating. Los valores extremos más próximos a los valores del customer rating de uno (pésimo), tres (regular)
y cinco (excelente) notaremos que se ha incrementado el puntaje_sentimental: pasando desde el valor de -0.8 a -0.004 y cerrando en 0.784. No
ocurre lo mismo con el índice de Gunning Fog; de izquierda a derecha en el eje X ha ido disminuyendo: 18.39 (rating=1); 11.44 (rating =3) y 9.25
(rating =5) (ver figura 6) y con la cantidad de palabras que han ido disminuyendo a medida que el Customer Rating ha aumentado.
40
La diferencia entre ambas regresiones puede ser apreciada en un comparativo con las
curvas superpuestas.
Figura 8: Regresión Lineal vs. Monótona
En lo relacionado a la regresión monótona, es necesario definir algunos conceptos, que
difieren de los tradicionales de la regresión múltiple y que al menos son:
Tabla 9: Conceptos asociados a los modelos de regresión
El L² (likelihood ratio)
Phi (medida del grado de asociación)
P-valor de L²
Valores de Beta
exp(Beta)
R-cuadrado
Grados de libertad
Fuente: Listado basado en la recopilación de Magidson (1998)
El L² (likelihood ratio):
El L² explicado por el modelo es un indicador de asociación entre las variables
dependientes y los predictores (Magidson, 1998).
41
Phi (medida del grado de asociación):
El valor de phi indica el nivel de relación entre el valor predicho de la variable
dependiente y su valor real y se espera que su valor sea mayor a 0 (Magidson, 1998).
Este indicador debe ser mayor a cero (Magidson, 1998).
P-valor:
El p-valor asociado al L² explicado por el modelo indica el nivel de significancia y va
desde 0 a 1. Este p-valor debe compararse con el nivel de significancia establecido
(0.05), en este caso si llegara a ser >0.05, el modelo no resulta estadísticamente
significativo; es decir, ninguna variable debe ser excluida del modelo; caso contrario,
algunas de las variables deben permanecer en la relación propuesta (Serena, 2015)
L² (Y):
Por otro lado, L² (Y) es el estadístico de razón de verosimilitud de diferencia
chi-cuadrado (Magidson, 1998), debe ser entendido como el nivel de asociación entre
cada variable independiente con la dependiente (Jovell, 1995). Para cada variable
independiente existe también un p-valor asociado que es utilizado para decidir si debe
permanecer en el modelo (Serena, 2015)
Valores de Beta:
Estos valores, son los efectos estimados para cada variable en la forma aditiva del
modelo (Magidson, 1998).
Exp (Beta):
Es el efecto estimado para el predictor (variable) en forma multiplicativa. Con respecto
a exp (Beta) cuanto más alejada de 1 la relación es más fuerte (Jovell, 1995).
R-cuadrado:
Es un indicador asociado a la calidad del modelo (Jovell, 1995). Cuanto más alto es la
R-cuadrado más explicativo es el modelo; es decir, las variables independientes
explican la variable dependiente (Jovell, 1995).
Grados de libertad:
Representan a la cantidad de información suministrada por los datos que el investigador
(degree of freedom en inglés, df) puede emplear para estimar los valores de parámetros
42
de población desconocidos y calcular la variabilidad de esas estimaciones (Serena,
2015). Este valor se determina según el número de observaciones de la muestra y el
número de parámetros del modelo (Jovell, 1995).
Hasta aquí se explican los términos más importantes de la regresión monótona que se
analizará a continuación y se decidirá si el modelo de regresión múltiple es más o menos
aplicable que la regresión monótona en el caso de esta tesis.
Resultados de la regresión monótona
En cuanto a los objetivos de la investigación con la regresión monótona deseamos tener
este modelo estadístico:
CR = f (puntaje_sentimental, gunning_fog, cant_palabras, tipo_viajero)
Tabla 10: Resumen del modelo utilizando la regresión monótona
Resumen de Asociación L² Df p-valor R² phi
Explicado por el modelo 398.11 4 0.000 0.73 2.4803
Residual 696.69 1560 1
Total 1094.81 1564 1
Elaboración: Propia
En esta tabla, el p-valor de 0.000 hace referencia a que algunas variables deben ser
incluidas en el modelo.
Por otro lado, el R² evidencia que el 73% de la variabilidad de CR (Customer Rating)
viene explicado por las variables de entrada.
Finalmente, el valor de phi indica de asociación entre el valor del Customer Rating (Y) y
el valor predicho el cual tiene un valor superior a cero, lo que es esperable para una
relación significativa en el modelo general.
Tabla 11: Parámetros para las variables del modelo usando regresión monótona
Variable L²(Y) df p-valor Beta exp(Beta)
puntaje_sentimental 312.85 1 0.000 4.51 91.31
gunning_fog 45.67 1 0.000 -0.18 0.84
Cantidad de palabras
10.78 1 0.001 0.000 1
Tipo de viajero 3.7 1 54 -0.3 0.74 Elaboración: Propia
43
Así, en el modelo queda evidencia de los efectos para cada una de las variables en su
versión aditiva (Beta) y multiplicativa exp (Beta)).
El p-valor, por otro lado, es el nivel de significancia de L² (Y), indicador que da cuenta
de que el tipo de viajero debe ser excluido del modelo, ya que excede el valor de 0.05,
de forma análoga al primer modelo de regresión múltiple que se presentó.
Dicho de otra forma, el customer rating es independiente del grupo de viaje con el que
acudió el comensal (sea familia y amigos).
Siguiendo la misma idea que se hizo con la regresión múltiple, una vez excluida la
variable tipo de viajero, el modelo queda de la siguiente forma:
CR = f (puntaje_sentimental, gunning_fog, cant_palabras)
Tabla 12: Resumen del modelo utilizando regresión monótona
Resumen L² df p-valor R² phi
Explicado por el Modelo
394.41 3 0.000 0.728 2.4529
Residual 700.4 1561 1
Total 1094.81 1564 1
Elaboración: Propia
En este caso el R² del modelo es de 72.8%. Es decir, el 72.8% de la variabilidad del CR
(Customer Rating) queda explicado por las variables analítico-textuales, prácticamente
igual que el modelo de regresión monótona sin modificar. En este caso el valor de phi
también es mayor a cero e inferior que el de la primera ecuación. El L² indica que este
modelo tiene un menor nivel de asociación entre las variables independientes y el
Customer Rating, que el primer modelo, aquel que incluía la variable tipo de viajero.
El valor de phi sigue estando dentro de lo esperado, es decir, mayor a cero, aunque ha
disminuido en comparación al modelo que incluía la variable tipo de viajero.
En cuanto al análisis para cada una de las variables independientes se tiene:
44
Tabla 13 : Parámetros para las variables del modelo usando regresión monótona
Variable L²(Y) df p-valor Beta exp(Beta)
Puntaje_sentimental 310.07 1 0.000 4.48 88.35
gunning_fog 44.35 1 0.000 -0.17 0.84
Cantidad de palabras 11.5 1 0.001 -0.01 0.99
Elaboración: Propia
En este segundo modelo, donde las variables independientes son únicamente analítico-
textuales, ninguna de ellas es excluida del modelo (dado que sus p-valor asociados no
exceden el límite de 0.05). Si bien es cierto que el valor de R² ha disminuido, el descenso
es mínimo, pudiéndose considerar un tanto por ciento de explicación igual al anterior
modelo. Dicho de otra forma: el tipo de viajero no aportaba al modelo en forma
significativa. Con respecto al L²(Y), este indica que la variable respuesta tiene un nivel
asociación más fuerte con el puntaje sentimental (310.07), mientras que la más débil
está con la cantidad de palabras (11.5).
Los gráficos de regresiones parciales son obtenidos a partir del software GOLDMineR.
Estos muestran las relaciones entre cada una de las variables independientes y la
dependiente tanto en sus versiones aditivas como en las multiplicativas-exponencial.
Figura 9: Regresión Parcial del Customer Rating vs. Sentimiento (forma aditiva) En este caso, es posible apreciar la relación directa entre el Customer Rating y el
Sentimiento. Esta relación es del tipo directa y directamente proporcional en una forma
de efecto lineal. El efecto es de 4.48 en forma de adición lineal, el coeficiente Beta de la
variable puntaje sentimental (tabla 13).
45
Figura 10: Regresión Parcial del customer rating vs. Fog (forma aditiva)
A diferencia de la gráfica anterior, la relación entre la variable del tipo educativa (FOG)
y el Customer Rating es inversamente proporcional, aunque la pendiente es menor que
con la variable sentimiento en términos absolutos (4.18 > 0.17, ver tabla 13). Esto
evidencia que el índice Fog tiene un impacto menor que el sentimiento presente en el
comentario.
Figura 11: Regresión Parcial del customer_rating vs. cant_palabras (forma aditiva)
En la gráfica anterior, la familia de rectas indica una relación inversa entre la cantidad
de palabras. En este caso, la pendiente es menor que con la variable Fog en términos
absolutos (0.01 < 0.17, ver tabla 13) lo que significa que Fog termina afectando más al
rating que la cantidad de palabras. Esta última variable, además, es la que presenta una
mayor diversidad de valores y con una alta concentración en determinados tramos.
46
Estos tres gráficos se aprecian la relación entre la variable dependiente y cada una de
las variables independientes. Observándose el efecto de cada una en el customer rating.
En cuanto a la forma aditiva (lineal): el puntaje sentimental tiene un efecto mayor que el
índice de gunning_fog y la cant_palabras en términos absolutos (Beta = 4.05, 0.17 y
0.01, respectivamente, ver tabla 13). La relación de tipo directa o inversa se aprecia
también en el signo de las pendientes de la familia de rectas, siendo positiva para la
primera variable dependiente y negativa para las otras dos.
En cuanto a la forma multiplicativa, complemento de la aditiva, los resultados son los
siguientes:
Figura 12: Regresión Parcial del customer_rating vs. puntaje_sentimental (forma multiplicativa) En este caso, existe una relación directa entre el Customer Rating y el puntaje
sentimental. La forma es la de una curva de función exponencial que adopta también la
forma de curva S. El efecto de la variable sentimiento en el rating aumenta y disminuye
en tramos. De acuerdo con la tabla 13, el exp (Beta) para el sentimiento es de 88.35
Figura 13: Regresión Parcial del customer_rating vs. gunning_fog (forma multiplicativa)
47
La figura evidencia una relación inversa entre el rating y el índice Fog. La pendiente a
lo largo de toda la curva es negativa, pero va aumentando de valor (volviéndose menos
negativa a medida que el índice Fog aumenta. De acuerdo con la tabla 11, el efecto de
la educación evidenciada en la escritura es marginal en términos absolutos. El efecto de
la variable fog es de 0.84 sobre el rating.
Figura 14: Regresión Parcial del customer_rating vs. cant_palabras (forma multiplicativa)
Esta curva presenta un comportamiento y forma muy similar a la anterior: pendiente
negativa que va en aumento de izquierda a derecha. Nuevamente aquí existe evidencia
de una relación inversa entre cantidad de palabras y rating asignado: la primera termina
teniendo un efecto negativo en la segunda. El efecto multiplicativo es esta última variable
independiente es algo superior al de gunnig fog (0.99 > 0.84, de acuerdo con la tabla
13).
Los tres últimos gráficos son la representación de la regresión parcial entre la variable
dependiente con cada una de las independientes. En este caso, el componente
multiplicativo viene de la forma 𝑒𝑥 (donde x es la variable de análisis). Los detalles de
la tabla 13 muestran el poder predictivo para cada variable. En el caso de gunning_fog,
los exp (beta) son inferiores a uno (o muy cercanos a cero). Luego, visualmente tienen
una relación inversa con la variable dependiente (rating). En este caso la variable
asociada al sentimiento también es la de mayor importancia (y la única positiva.
En cuanto a los valores de Beta y exp (Beta) revelan que el puntaje_sentimental aporta
más al modelo que la variable gunning_fog y esta a su vez tiene más relevancia que la
variable cant_palabras.
48
4.2. Resultados de contraste con data del 2019
A fin de verificar que el modelo fuera coherente, las investigadoras recolectaron data en
una etapa posterior al cierre del trabajo. La data de comprobación incluyo datos del 2019
para el segmento de restaurantes ya mencionado. En este caso ya no fue considerada
la variable tipo de viajero debido a que fue excluida en las etapas anteriores. Debe
tomarse en consideración que esto no es una encuesta donde pueda volverse a
encuestarse a los participantes del anterior estudio, sino son las experiencia de viajeros,
las cuales tienden a ser únicas.
Los resultados fueron los siguientes:
Tabla 14: Resumen del modelo utilizando regresión monótona aplicado a data de
comprobación del 2019
Resumen L² df p-value R² phi
Explicado por el modelo
172.86 3 0.000 0.66 1.8869
Residual 376.98 793 1
Total 549.85 796 1
Elaboración: Propia
En este caso el R² del modelo es de 66%. Es decir, el 66% de la variabilidad del CR
(Customer Rating) queda explicado por las variables analítico-textuales. Es necesario
ver la relación entre el CR y las variables de origen textual. Este modelo tiene un R-
cuadrado inferior al de la data anterior (0.728 >0.660). Para comprender las similitudes
y diferencias con el modelo anterior es necesario realizar el análisis de cada variable
independiente.
Tabla 15: Parámetros para las variables del modelo usando regresión monótona
Variables L²(Y) df p-value Beta exp(Beta)
Sentimiento 135.26 1 0.000 3.18 24.05
Cantidad de Palabras 9.18 1 0.002 -0.01 0.99
Fog 12.23 1 0.000 -0.11 0.89
La tabla anterior evidencia que ninguna de las variables textuales es excluida del modelo
(dado que sus p-valor asociados no exceden el límite de 0.05. Con respecto al L²(Y),
este indica que la variable respuesta tiene un nivel asociación más fuerte con el puntaje
sentimental (135.26), mientras que la más débil está con la cantidad de palabras (9.18).
Por otro lado, existe una relación directa entre el sentimiento y el customer rating, de
esto queda evidencia en el coeficiente Beta, mayor a cero, y exp(Beta), mayor a 1.
Situación contraria ocurre con la cantidad de palabras y el índice Fog, en ambos casos,
49
dichas variables son inversamente proporcionales con el customer rating, ya que los
valores de Beta son inferiores a 0, mientras que los exp(Beta) son menores a 1. Esta
situación se resume en la siguiente tabla:
Tabla 16: Parámetros de data original vs. Data 2019
Data Original Data 2019
Variables Beta exp(Beta) Beta exp(Beta)
Sentimiento 4.48 88.35 3.18 24.05
Cantidad de Palabras
-0.01 0.99 -0.01 0.99
Fog -0.17 0.84 -0.11 0.89
Debe notarse, además que el valor exp(Beta) es particularmente alto, evidenciando el
considerable peso de dicha variable dentro del modelo, muy por encima de las otras
dos.
Existe coincidencia con el modelo anterior: el sentimiento presente en el comentario
sigue siendo directamente proporcional al rating, mientras que valor de índice fog y la
cantidad de palabras son inversamente proporcionales al indicador de satisfacción.
Figura 15: Grafico de la Regresión Monótona con data de comprobación 2019
La grafica anterior evidencia la regresión conjunta de las tres variables independientes
ingresadas en el modelo (puntaje_sentimental, gunning_fog y cant_palabras) versus el
Customer Rating. Los valores extremos más próximos a los valores del customer rating
de uno (pésimo), tres (regular) y cinco (excelente) notaremos que se ha incrementado
el puntaje_sentimental: pasando desde el valor de -0.88 a -0.232 y cerrando en 0.789
50
mientras que con la cantidad de palabras que han ido disminuyendo a medida que el
Customer Rating ha aumentado.
4.3 Resultados de la nueva data de Hoteles en Arequipa
A fin de contrastar los resultados del estudio, se ha analizado el caso del sector hotelero,
más específicamente para el segmento ya mencionado, es decir, viajeros
estadounidenses. Fueron recolectados un total de 150 comentarios de TripAdvisor
realizados acerca de hoteles en Arequipa. Ello con el fin de verificar si el modelo puede
ajustarse a otros entornos (e industrias, desde luego). El muestreo fue abierto y por
conveniencia. El procesamiento que involucra la conversión de textos a patrones
textuales es idéntico al mostrado
Tabla XI: Resumen del modelo usando la regresión monótona para valoraciones de
estadounidenses acerca de hoteles en Arequipa en TripAdvisor
Association
Summary L² df p-value R² phi
Explained by Model 137.65 3 0.000 0.682 2.0643
Residual 291.91 593 1
Total 429.56 596 1
En esta tabla, el p-valor de 0.000 hace referencia a que algunas variables deben ser
incluidas en el modelo.
Por otro lado, el R² evidencia que el 68.2% de la variabilidad de CR (Customer Rating)
viene explicado por las variables de entrada (sentimiento, fog y cantidad de palabras).
Lego, el valor de phi indica la asociación entre el valor del Customer Rating (Y) y el valor
predicho el cual tiene un valor superior a cero, lo que es esperable para una relación
significativa en el modelo general.
Tabla X1: Parámetros del modelo usando la regresión monótona para valoraciones de
estadounidenses acerca de hoteles en Arequipa en TripAdvisor
Variable L²(Y) df p-value Beta exp(Beta)
Sentimiento (Fixed) 113.32 1 0.000 3.73 41.5
CantidadPalabras
(Fixed) 2.74 1 0.048 0.00 1.00
Fog (Fixed) 18.95 1 0.000 -0.17 0.84
51
Los resultados del modelo aplicado a hoteles en Arequipa son análogos a los
encontrados en la regresión monótona aplicada para el caso de restaurantes de comida
peruana en el Cusco. Dicho de otra forma, existe relación directa entre el sentimiento y
el rating, situación opuesta ocurre con el índice Fog y la cantidad de palabras. Evidencia
de ello queda en los valores de Beta y exp(Beta).
El anterior hallazgo puede verificarse de forma gráfica.
Figura M1: Regresión Monótona para el caso de hoteles en Arequipa
En la terna de datos, el rating se ha incrementado a medida que el sentimiento lo ha
hecho. Desde el rating 1 (pésimo) hasta 5 (excelente) el puntaje sentimental ha pasado
de -0.722 hasta 0.782. En el caso del índice de fog, para el mismo tramo, va desde 18.3
hasta 9.3. Luego, con respecto a la cantidad de palabras, existen tramos donde dicha
variable es inversamente proporcional al rating. Esto ocurre cuando se pasa de 3
(regular) a 4 (bueno) la cantidad de palabras disminuyo de 48 a 46. Se tiene que
considerar además la cantidad de palabras que correspondió a la puntuación 1 (pésimo)
fue de 212.
52
4.4. Discusión
La investigación coincide con los hallazgos de que López y otros (2014), Agshar (2016)
y Oghina y otros (2012): las valoraciones realizadas por los usuarios guardan relación
directa con los puntajes sentimentales registrados por los comentarios. Está relación es
del tipo directa. Aunque a diferencia de estos, no se establece una regresión simple o
logística, sino que se recurre a una regresión monótona. Es importante tomar en
consideración el tipo de variable que se está analizando (rating), la cual es del tipo
ordinal, razón por la cual se ha utilizado la regresión monótona. Por otro lado, los
modelos basados en puntajes sentimentales pueden ser mejorados si se incorporan
otras variables analítico-textuales además del puntaje sentimental, aunque esta última
es la más importante. Dicho de otra forma, es posible modelar el customer rating en
función a variables analítico-textuales.
Si bien es cierto que las investigaciones realizadas por Wegner & Girasek (2003) y
Yasseri y otros (2012) no mencionan una correlación entre el índice de Gunnig-Fog y
el customer rating, sí indican que existe relación entre la educación y la legibilidad en la
escritura. En todo caso, la investigación proporciona indicios de que la educación
(reflejada en al legibilidad de la escritura) guarda una relación inversa con el customer
rating, algo racional, pues variables como el grado de instrucción (y otras como el
ingreso) están asociadas de forma inversamente proporcional a las valoraciones
realizadas por los consumidores. Los hallazgos de la presente investigación sugieren
que existe una relación inversamente proporcional entre educación y puntaje asignado
a un servicio en una etapa post compra. Pero para ello no se tomó en cuenta el grado
de instrucción de los participantes (miembros de TripAdvisor), sino el grado de
educación reflejado en la escritura basándose en los hallazgos de los autores ya
mencionados.
Con respecto a lo indicado con Vasquez (2011), esta autora señala que las experiencias
no satisfactorias suelen ser abundantes en cuanto a detalles. Si bien es cierto que no
especifica cantidad de palabras, puede inferirse que un indicador asociado al nivel de
detalle de una experiencia narrada en forma escrita. Es racional creer que ambas
variables (score y cantidad de palabras) deberían ser inversamente proporcionales,
aunque la investigadora solo basó su inferencia en un análisis de contenido
predominantemente cualitativo. La presente investigación sugiere, de forma empírica,
que existe una relación inversa entre la cantidad de palabras y la satisfacción para el
segmento estudiado, complementando lo señalado por la investigadora.
53
Luego, la variable tipo de viajero, proporcionada por TripAdvisor, no guarda una relación
estadísticamente significativa con el rating. En general, los antecedentes académicos
no hacen mención del tipo de viajero. Por ello es un aporte de la investigación, aunque
no es una variable textual.
Si bien es cierto que las regresiones monótona y múltiple guardan coherencia con las
conclusiones (ambas llegan a los mismos resultados en cuanto a la inclusión de las
mismas variables y la exclusión de tipo de viajero), lo más adecuado es utilizar la
monótona, dada la ordinalidad de la variable dependiente. La regresión múltiple, por otro
lado, depende de supuestos que en este trabajo no se han cumplido. Por tanto, a
diferencia de lo mencionado por López y otros (2014), el uso de la regresión lineal,
aunque es válido, no es el más apropiado y es mejorable con otro tipo de regresiones
que contemplen la posibilidad de poder trabajar con una variable dependiente ordinal,
no métrica.
Ambas datas poseen coherencia en cuanto a la relación entre cada una de las variables
independientes con el customer rating. La coherencia queda evidenciada en que el
modelo posee un R² importante. En ambos casos el sentimiento es la variable de mayor
peso en el modelo, mientras que las dos menos relevantes son el índice gunning fog y
la cantidad de palabras: ambas poseen una relación inversa con la satisfacción del
consumidor para ambas muestras.
54
Capítulo V: Conclusiones y Recomendaciones
5.1. Conclusiones
La conclusión principal de la investigación es que sí es posible modelar el customer
rating en función a las variables analítico-textuales mencionadas.
Hipótesis general: Se corrobora que se cumple esta hipótesis. El customer rating guarda
relación con el puntaje sentimental del comentario, el índice de Gunning-Fog y la
cantidad de palabras.
Hipótesis 1: Se corrobora que esta hipótesis es verdadera. El customer rating guarda
relación con el puntaje sentimental del comentario. La relación es directa.
Hipótesis 2: Se corrobora que la hipótesis es verdadera. El customer rating guarda
relación con el índice de Gunning-Fog. La relación es inversa.
Hipótesis 3: Se corrobora que esta hipótesis es verdadera. El customer rating guarda
relación con la cantidad de palabras. La relación es inversa.
Hipótesis 4: Se corrobora que esta hipótesis es falsa. El customer rating no guarda
relación con el tipo de viajero.
Las hipótesis específicas 1, 2, y 3 también resultaron verdaderas. Por otro lado, el
customer rating es independiente de la variable tipo de viajero y, por tanto, la hipótesis
específica 4 resultó falsa. Todo lo mencionado cumple con los objetivos de la
investigación.
Bajo el modelado propuesto, la variable que tiene mayor incidencia en el customer rating
es el puntaje sentimental del comentario. Dicho de otra forma, existe relación el rating
proporcionado por el usuario y el sentimiento presente en su testimonial en formato
textual. Esto implica que existe coherencia entre lo que se digita y lo que se termina
puntuando.
La segunda variable independiente, el índice de Gunning-Fog, también resulta ser la
segunda variable en importancia para el modelo como tal. De acuerdo con los resultados
obtenidos, existe una relación inversa entre el índice lingüístico y el customer rating.
Esto es importante ya que en los antecedentes no se menciona relación alguna entre el
nivel de educación evidencia en la escritura y las valoraciones dejadas por clientes,
aunque sí se conocía el hecho de que los clientes más educados suelen ser los más
complicados de satisfacer. Esta relación resulta ser, entonces, un aporte académico
55
para la ciencia del marketing en cuanto a comportamiento del consumidor en un entorno
web abundante.
Luego, la cantidad de palabras también guarda una relación inversamente proporcional
con el customer rating: a mayor cantidad de palabras, menor puntaje asignado por el
comensal estadounidense (y viceversa). De todas las variables del analítico-textuales,
es esta la de menor importancia en cuanto a poder predictivo. Las investigaciones
relacionadas no evidenciaban una relación entre ambas variables. En consecuencia, se
trata de otro aporte académico nuevamente relacionado al comportamiento del
consumidor en cuanto a su escritura.
Finalmente, el customer rating no guarda relación con el hecho de que el comentario
ingresado haya sido realizado por un usuario que viajo en familia o con amigos (los dos
grupos más representativos en cuanto al segmento de estadounidenses que acudieron
a restaurantes de comida peruana en el Cusco). Cabe mencionar que la valoración no
es conjunta, sino realizada por un único individuo.
El modelo es aplicable a otros rubros en donde exista una amplia participación del
segmento estadounidense (hotelería y transporte aéreo, por ejemplo). En especial
aquellos donde exista una considerable proporción de comentarios en línea en formato
de texto libre. Y es que expresar los sentimientos para valorar experiencias es inherente
a las personas. Por otro lado, la educación que los individuos reflejan en la escritura es
un elemento que forma parte de lo que algunos especialistas llaman huella digital, la
cual está asociada a la formación del comportamiento en entornos virtuales.
Basta con ingresar hashtags en Facebook o Twitter para obtener una cantidad de
comentarios acerca de experiencias con productos o servicios. Estos comentarios,
antes no se aprovechaban con el fin de obtener métricas, ahora pueden convertirse en
información estructurada. Ello, sumado a la información personal que una persona
muestre en una red social (edad aproximada, género etc.), resulta aprovechable para el
marketing con el fin de diseñar estrategias a fin del perfil de la persona. Todavía es más
aprovechable si son empleados datos de geolocalización (restringir los comentarios de
un producto peruano en Iowa, por ejemplo). Actualmente esto es bastante sencillo si se
sabe emplear adecuadamente las búsquedas avanzadas en redes sociales.
Un ejemplo de la potencial aplicación del modelo puede estar representado por un
escenario en donde una marca peruana desee ingresar en el mercado norteamericano
en los rubros ya mencionados. El análisis sentimental, de hecho, ya es usado en los
planes de marketing a fin de obtener un diagnóstico que involucra a los clientes y sus
percepciones acerca de los negocios locales. El modelo bien puede ser empleado para
56
aproximarse al nivel de satisfacción promedio de los consumidores de un mercado
determinado. Nuevamente, aquí se dispone de data en las principales redes sociales.
Otro ejemplo de aplicación apunta a la segmentación en base a evidencia lingüística.
Es posible, a través de datos de redes sociales, clasificar a personas en base a los
niveles de satisfacción que evidencian en sus comentarios y cruzar dicha información
con la educación que refleja cada individuo en su escritura. En los estudios de
PROMPERU, por ejemplo, eran mencionados los niveles de satisfacción y la educación
de los extranjeros que visitaban el Perú. Ahora es posible medir la satisfacción (rating)
y cruzar dicha información con el nivel de educación reflejado en la escritura, todo esto
para el segmento norteamericano.
Este método puede estar en dos públicos objetivos las empresas y las agencias. La
primera ayudaría a tener mejoras en el servicio en los restaurantes por ejemplo algún
analista de marketing puede entrar a la cuenta de TripAdvisor y fijarse los comentarios
de ese día, visualizando que está sucediendo con la interacción de la marca y sus
clientes; comentarios en donde estén consultando sobre el producto o servicio,
experiencias, reclamos o sugerencias. Y sí en el caso que un cliente este teniendo algún
inconveniente se podrá actuar al instante brindándole una solución en tiempo real con
el fin de revertir la situación.
Por otro lado, ayudaría a las agencias de medios o centrales de medios a ser más
innovadoras al momento de brindar el servicio de Community Manager. Si antes solo
brindaba en el reporte que obtiene de Google Analytics de acuerdo a los KPIs
establecidos por campaña. Ahora, podrán analizar cada comentario de la interacción
con el cliente e identificar el grado de educación de la persona, el nivel de sentimiento y
la cantidad de palabras que ayudaran a analizar cada perfil de persona.
Adicionalmente, se puede esto incluir no solo en servicio si no en productos, se puede
realizar campañas en las cuales les dices a tus clientes que dejen su comentario en la
página de Facebook acerca de algún producto en específico y puedes tener información
verdadera y coherencia sobre el producto en cuestión.
Hoy en día la ciencia ha avanzado bastante y han llegado al punto de optimizarnos los
tiempos, antes se tenía que realizar encuestas para tener información sobre algún
producto o servicio. Ahora la data las empresas la pueden obtener en menor tiempo,
gracias a las diferentes herramientas digitales y poder analizarlas con el fin de tomar
una decisión.
57
Para dos muestras estudiadas en diferentes intervalos de tiempo, el modelo resulta
coherente en cuanto a la relación entre cada una de las variables independientes y el
rating, ya que los resultados se asemejan.
5.2. Recomendaciones
El modelo puede ser ampliado e incluir otras variables a medida que se incorporen
software de datos textuales. Una reciente incorporación a los instrumentos analítico-
textuales de acceso libre es la aplicación Cloud Natural Language de Google. Este
servicio es capaz de obtener un puntaje sentimental (en la escala de -1 a 1) y
adicionalmente proporciona la magnitud. Esto en términos matemáticos es análogo a la
dirección y magnitud (tamaño) de un vector matemático.
Los instrumentos analítico-textuales pueden servir como herramientas de
segmentación. Las valoraciones en formato de texto libre son más abundantes en
entornos como Facebook, Twitter y otras redes sociales. Es posible que los encargados
a cargo de la reputación online puedan monitorear datos textuales y así calificar la
experiencia del comensal como satisfactoria o no satisfactoria. El análisis sentimental
es una técnica ya empleada en el CRM. En este caso se podrían abaratar costos con
aplicaciones online de acceso gratuito como la presentada en la investigación.
El hecho de emplear redes sociales posibilita el uso de otras variables propias de otros
entornos web. Así, por ejemplo, en Facebook aparecen las fotografías al lado de
comentarios. De una fotografía es posible estimar la edad aproximada, el género, la raza
y otras variables (usando software de análisis de imágenes). Un estudio más amplio
puede abarcar, entonces, variables analítico – textuales y atributos físicos de la persona
basándose en sus fotografías. En Estados Unidos, por ejemplo, el grupo racial es una
variable muy utilizada (afroamericano = 1, blanco = 0; por ejemplo). Esto podría
contribuir a mejorar la comprensión del consumidor de procedencia estadounidense.
Si bien es cierto que el modelo propuesto estaba segmentado al caso de ciudadanos
estadounidenses que valoraron restaurantes de comida peruana en el Cusco, cierto es
que estas métricas obtenidas podrían ser aplicadas por entidades como PROMPERU,
a fin de procurar llenar el vacío de información que existe desde el año 2013 con
respecto a las valoraciones de servicios orientados a turistas extranjeros.
Puede ampliarse el estudio a otros segmentos. Por ejemplo, el equivalente al índice de
Gunning Fog en español es el Méndez – Huerta (Ribeiro & Ferreira, 2018). Esta variable
permitiría el análisis de todo el segmento de viajeros de habla hispana, uno de los más
58
representativos en espacio territorial peruano dado la proximidad geográfica con países
que emplean dicha lengua.
En cuanto al marketing, es poco probable que quienes se encarguen de analizar los
comentarios online acerca de restaurantes puedan emplear la regresión monótona, ya
que es un método que no es frecuente encontrar en los softwares habituales. Es más
viable para ellos analizar el contenido textual con la regresión múltiple. Pueden incluso
emplear únicamente la variable sentimental para modelar el rating. Es tentativo,
además, que segmenten a los clientes basándose en la educación reflejada en la
escritura. Por otro lado, es posible que este modelo pueda ser aplicado en los
restaurantes que operan en territorio estadounidense.
59
Capítulo VI: Limitaciones e Investigaciones Futuras
6.1. Limitaciones de la investigación
Debe tomarse en consideración que la relación entre el puntaje sentimental y el
customer rating parte del supuesto de que los clientes tienden a ser coherentes con sus
valoraciones. No ocurre esto en el caso de los comentarios que son sarcásticos. No se
pueden desestimar los escenarios en donde los clientes asignen un puntaje muy bajo
(pésimo), mientras que su comentario resulta favorable al restaurante (o viceversa,
aunque es menos probable). No es posible identificar las valoraciones que son
sarcásticas.
El índice de Gunning -Fog, por otro lado, no toma en cuenta otras variables asociadas
a la educación reflejada en la escritura más allá de la complejidad de las palabras
empleadas. Así, por ejemplo, las frases “Hello World, Have a Nice Day” y “Helo Wordl,
Have a nice dai” registran un índice de Fog idéntico, pero puede que la primera frase
haya sido digitada por una persona con mayor instrucción que quien escribió la segunda
frase. Fog no se basa en la ortografía para su cálculo, del mismo modo que otros
indicadores similares en el caso del inglés.
6.2. Investigaciones futuras
En la investigación el puntaje sentimental ha sido tratado como una variable
unidimensional. No obstante, en un mismo comentario pueden presentarse un grupo de
sentimientos distintos. Así, por ejemplo, un comentario en donde predomina un
sentimiento positivo puede presentar oraciones en donde exista un mínimo de tristeza
o enfado. Otros investigadores pueden emplear un modelo que se sustente en la
coexistencia de varias emociones presentes en el comentario.
Puede ampliarse el estudio a otros segmentos. Por ejemplo, el equivalente al índice de
Gunning Fog en español es el Méndez – Huerta (Ribeiro & Ferreira, 2018). Esta variable
permitiría el análisis de todo el segmento de viajeros de habla hispana, uno de los más
representativos en espacio territorial peruano dado la proximidad geográfica con países
que emplean dicha lengua.
Es posible construir más modelos con otras variables vinculadas a los sentimientos.
Theysay.io (http://www.theysay.io/), aplicación online diseñada por la Universidad de
Oxford, permite medir los sentimientos y emociones. Así, por ejemplo, la tristeza y el
enfado, emociones distintas, forman parte de un sentimiento negativo. Dicho
60
instrumento incluye, además, otras emociones: alegría, vergüenza, sorpresa. El modelo
puede reformularse e incluir emociones en vez del sentimiento general.
El modelo puede incluir el uso de una de las variables propias de TripAdvisor, así, por
ejemplo, la página web permite conocer qué comentarios fueron ingresados desde un
dispositivo móvil y cuáles no. Es posible que quienes hayan ingresado sus comentarios
desde una computadora hayan incurrido en más detalles que quienes los hicieron desde
un dispositivo móvil (celular, Tablet, etc.). Esto se podría comprobar con una prueba de
diferencia entre medias.
Otros datos que pueden contribuir a la mejor comprensión del customer rating son las
imágenes que acompañan a algunas de las valoraciones escritas. La información en
formato de imágenes va ganando presencia no solo en TripAdvisor, sino en casi todas
las redes sociales. Una experiencia satisfactoria, por ejemplo, puede que esté
relacionada a la presencia de varias fotografías. Los atributos visuales de cada foto
pueden guardar relación con la puntuación que asignan los consumidores. Extraer datos
de una fotografía es un proceso que se puede llevar a cabo con software de análisis de
imágenes, pero también puede ser llevado a cabo bajo observación directa (tipo de
fotografía: comida, ambiente; tipo de enfoque: ángulo superior, 360; y otros).
61
Bibliografía
Agshar, N. (2016). Yelp Dataset Challenge: Review Rating Prediction. ArXiv.
doi:1605.05362.
Amaral, F., & Tiago, T. (2014). User-generated content: tourists’ User-generated
content: tourists’. International Journal on Strategic Innovative Marketing, 137-
147. Retrieved Abril 14, 2017, from
file:///C:/Users/Usuario/Downloads/10.15556IJSIM.01.03.002.pdf
Bagga, S. (2016). Text Analytics: Unlocking the Value of Unstructured Data. Documento
de Discusión, SAS. Retrieved Marzo 28, 2018, from
https://www.sas.com/content/dam/SAS/en_us/doc/research2/iia-text-analytics-
unlocking-value-unstructured-data-108443.pdf
Berezina, K., Bilgihan, A., Cobanoglu, C., & Okumus, F. (2015). Understanding Satisfied
and Dissatisfied Hotel Customers: Text Mining of Online Hotel Reviews. Journal
of Hospitality Marketing & Management, 25(1), 1-24.
doi:10.1080/19368623.2015.983631
Cameron, C., & Windmeijer, F. (1995). An R-squared measure of goodness of fit for
some common nonlinear regression models.
Chen, Y., & Xie, J. (2008). Online Consumer Review: Word-of-Mouth as a New Element
of Marketing Communication Mix. Management Science, 54(3), 477-491.
Cheng, L., & Huang, C. (2014). Mining the reviews of movie trailers on YouTube and
comments on Yahoo Movies. Retrieved from http://worldcomp-
proceedings.com/proc/p2014/IKE3206.pdf
Chua, A., & Banerjee, S. (2013). Proceedings of the World Congress on Engineering
and Computer Science 2. Proceedings of the World Congress on Engineering
and Computer Science . San Francisco. Retrieved Mayo 30, 2017, from
http://www.iaeng.org/publication/WCECS2013/WCECS2013_pp453-457.pdf
Chua, A., & Banerjee, S. (2013). Reliability of Reviews on the Internet: The Case of
TripAdvisor. Proceedings of the World Congress on Engineering and Computer
Science, (pp. 3-7). San Francisco.
Clark, A., Fox, C., & Lappin, S. (2012). The Handbook of Computational Linguistics and
Natural Language Processing. Wiley-Blackwell.
62
Cohen, A., & Hersh, W. (2005). A survey of current work in biomedical text mining.
Briefings in bioinformatics, 6(1), 57-75.
Feldman, R., & Sanger, J. (2006). The Text Mining Handbook. Cambridge: Cambridge
University Press.
Ganesan, K., & Zhou, G. (2016). Linguistic Understanding of Complaints and Praises in
User Reviews. Proceedings of the 7th Workshop on Computational Approaches
to Subjectivity, Sentiment and Social Media Analysis, (pp. 109-114).
doi:10.18653/v1/W16-0418
Garth, A. (2008). Analysing data using SPSS. Retrieved Febrero 22, 2017, from Sheffield
Hallam University:
http://teaching.shu.ac.uk/hwb/ag/resources/material/analysingdatausingspss.pd
f
Gartner. (2018). IT Glossary. Retrieved Marzo 30, 2018, from
https://www.gartner.com/it-glossary/
Gemar, G., & Jimenéz-Quintero, J. (2015). Text mining social media for competitive
analysis. Tourism & Management Studies, 84-96. Retrieved Mayo 11, 2017, from
http://www.scielo.mec.pt/pdf/tms/v11n1/v11n1a10.pdf
Godnov, U., & Redeck, T. (2016). Application of text mining in tourism: Case of Croatia.
Annals of Tourism Research.
Grissete, H., Nfaoui, E., & Bahir, A. (2017). Sentiment Analysis Tool for Pharmaceutical
Industry & Healthcare. Transactions on Machine Learning and Artificial
Intelligence, 5(4). doi:10.14738/tmlai.54.3339
Han, C., & Cai, C. (2011). Monotonic regression: a new way for correlating subjective
and objective ratings in image quality research. IEEE Trans Image Process,
21(4), 2309-2313. doi:10.1109/TIP.2011.2170697
Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación
(Quinta ed.). México: McGraw Hill.
Instituto Valenciano de Tecnologías Turísticas. (2015). BIG DATA: retos y oportunidades
para el turismo. Retrieved julio 2016, from http://www.thinktur.org/media/Big-
Data.-Retos-y-oportunidades-para-el-turismo.pdf
63
Jeong, H., Mankad, S., Gavirneni, N., & Verma, R. (2016). What Guests Really Think of
Your Hotel: Text Analytics of Online Customer Reviews. Cornell Hospitality
Repor, 16(2), 3-17. Retrieved Marzo 4, 2017
Jimber, J., Orgaz, F., & Moral, S. (2017). Satisfaction in border tourism: An analysis with
structural equations. European Research on Management and Business
Economics. Retrieved Mayo 11, 2017, from
http://www.sciencedirect.com/science/article/pii/S2444883417300074
Jovell, A. (1995). Análisis de la Regresión Logística. Centro de Investigaciones
Sociológicas.
Kimbrough, S., & Murphy, P. (2011). On Using Text Analytics for Event Studies. Wharton
School of Business. Retrieved Abril 2, 2018, from
http://opim.wharton.upenn.edu/~sok/sokpapers/2011/events-and-text.pdf
Kothari, C. (2004). Research Methodology, Methods and Techniques (Segunda ed.).
New Age International.
Kotler, P., Bowen, J., & Makes, J. (2013). Marketing for Hospitality and Tourism .
Pearson.
Kotler, P., Kartajaya, H., & Setiaawn, I. (2016). Marketing 4.0: Moving for Traditional to
Digital. New Jersey: John Wiley & Sons.
Kozak, M., & Rimmington, M. (2010). Tourism satisfaction with Mallorca, Spain, as an
off-season holiday destination. Journal of Travel Research.
Kumar, S., Morstatter, F., & Liu, H. (2014). Twitter Data Analytics. Springer.
Larcker, D., & Zakolyukina, A. (2012). Detecting Deceptive Discussions in Conference
Calls. Journal of Accounting Research, 50(2).
Lee, H., Law, R., & Murphy, J. (2011). Helpful Reviewers in TripAdvisor, an Online Travel
Community. Retrieved Abril 13, 2017, from
http://www.tandfonline.com/doi/abs/10.1080/10548408.2011.611739?journalCo
de=wttm20
Li, H., Graesser, A., & Cai, Z. (2014). Comparison of Google Translation with Human
Translation. Proceedings of the Twenty-Seventh International Florida Artificial
Intelligence Research Society Conference. Florida. Retrieved Mayo 12, 2014,
from
64
https://www.aaai.org/ocs/index.php/FLAIRS/FLAIRS14/paper/viewFile/7864/782
3
Liau, B., & Tan, P. (2014). Gaining customer knowledge in low cost airlines through text
mining. Industrial Management & Data Systems. Industrial Management & Data
Systems, 114(9), 1334-1345. doi:10.1108/IMDS-07-2014-0225
Limberger, P. (2014). Satisfaction in hospitality on TripAdvisor.com: An analysis of the
correlation between evaluation criteria and overall satisfaction. Tourism &
Management Studies, 10(1), 59-65.
López, R., Sánchez, S., & Sicilia-Urban, S. (2014). Evaluating hotels rating prediction
based on sentiment analysis services. Aslib Journal of Information Management,
67, 392-407.
Lougharn, T., & McDonald, B. (2014). Measuring Readability in Financial Disclosures.
Journal of Finance, 69(4), 1643-1661. doi:10.1111/jofi.12162
Magidson, S. (1998). GOLDMineR 2.0. User's Guide. Manual del Usuario, Statistical
Innovations Inc. Retrieved Junio 2, 2018, from
http://www.statisticalinnovations.com/wp-content/uploads/GMusersguide.pdf
Malhotra, C. (2008). Investigación de Mercados (Quinta ed.). México: Pearson
Education.
Manterola, C., & Pineda, V. (2008). El valor de “p” y la “significación estadística”.
Retrieved from http://www.scielo.cl/pdf/rchcir/v60n1/art18.pdf
Mellinas, J., Bernal, J., & Martínez, M. (2013). El mito de las opiniones manipuladas en
TripAdvisor. Papers de Turisme, 1-17. Retrieved Mayo 22, 2017, from
http://www.papersdeturisme.gva.es/ojs/index.php/Papers/article/view/446/375
Microsoft. (2016). Conceptos de minería de datos. Retrieved Mayo 12, 2017, from
https://msdn.microsoft.com/es-es/library/ms174949.aspx
Newbold, N., & Gillam, L. (2010). The Linguistics of Readability: The Next Step for Word
Processing. Proceedings of the NAACL HLT 2010 Workshop on Computational
Linguistics and Writing. doi:10.1.1.357.7593
O’Connor, P. (2010). Managing a hotel’s image on TripAdvisor. Journal of Hospitality
Marketing & Management, 754-772. doi:10.1080/19368623.2010.508007
Oghina, A., Breuss, M., Tsagkias, M., & De Rijke, M. (2012). Predicting IMDB Movie
Ratings Using Social Media. Proceedings of the 34th European conference on
65
Advances in Information Retrieval. Amsterdam. doi:10.1007/978-3-642-28997-
2_51
Pardo, A., & Ruíz, M. (2002). SPSS 11 - Guía para análisis de datos. Madrid: McGraw-
Hill.
Philips, D., Olsen.J, & Baumgartner, H. (1995). Consumption Visions in Consumer
Decision Making. Advances in Consumer Research, 22, 280-284.
PROMPERU. (2013). Nivel de Satisfacción del Turista Extranjero 2012. Retrieved Marzo
20, 2017, from
http://media.peru.info/IMPP/2012/TurismoReceptivo/DemandaActual/Publicacio
nNSTE2012.pdf
PROMPERU. (2017a). Perfil del Turista Extranjero que visitó Cusco 2016.
PROMPERU. (2017b). Evaluación del Turismo Gastronómico en el Perú.
Pulman, S. (2016). Text analytics in Finance. University of Oxford. Retrieved Mayo 12,
2017, from http://www.theysay.io/wp-
content/uploads/2016/09/pulman_sap_heidelberg_jul_2016.pdf
Quan, C., & Ren, F. (2010). Sentence Emotion Analysis and Recognition Based on
Emotion Words Using Ren-CECps. International Journal of Advanced
Intelligence, 2(1), 105-117.
Raja, U., Mitchell, T., Day, T., & Michael, J. (2008). Text mining in healthcare.
Applications and opportunities. Journal of healthcare information management,
22(3), 52-56.
Ribeiro, A., & Ferreira, A. (2018). 91Estudio de corpus: estructura y legibilidad en el
documento de consentimiento informado en el ámbito académico-profesional de
las ciencias biomédicas. revista de lingüística teórica y aplicada, 56(2), 91-116.
Roy, R., Padmakumar, A., Prasaad, G., & Kumaraguru, P. (2015). Automated Linguistic
Personalization of Targeted Marketing Messages Mining User-Generated Text
on Social Media. International Conference on Intelligent Text Processing and
Computational Linguistics. doi:10.1007/978-3-319-18117-2_16
Serena, N. (2015). Constructing Common Factors from Continuous and Categorical
Data. Econometric Reviews, 34, 6-10.
66
Shams, R., & Mercer, R. (2011). Extracting Connected Concepts from Biomedical Texts
using Fog Index. Procedia - Social and Behavioral Sciences, 27, 70-76.
doi:10.1016/j.sbspro.2011.10.584
Takeuchi, H., & Yamaguchi, T. (2013). 2014. In K. Yada, Data Mining for Service. Studies
in Big Data. Berlín: Springer. doi:10.1007/978-3-642-45252-9_8
TripAdvisor. (2017a). About TripAdvisor. Retrieved Marzo 17, 2017, from
https://tripadvisor.mediaroom.com/us-about-us
TripAdvisor. (2017b). About TripAdvisor. Retrieved Marzo 17, 2017, from
https://tripadvisor.mediaroom.com/us-about-us
Vasquez, C. (2011). Complaints online: The case of TripAdvisor. Journal of Pragmatics,
43(7), 1707-1717.
Wegner, M., & Girasek, D. (2003). How readable are child safety seat? Pedriatics, 111,
588-591.
Yasmina, D., Hajar, M., & Hassan, A. (2016). Using YouTube Comments for Text-based
Emotion Recognition. Procedia Computer Science, 83, 292-299.
doi:10.1016/j.procs.2016.04.128
Yasseri, T., Kornai, A., & Kertész, J. (2012). A Practical Approach to Language
Complexity: A Wikipedia Case Study. PLoS ONE , 7(11).
doi:10.1371/journal.pone.0048386
Yoo, K., Sigala, M., & Gretzel, U. (2016). Exploring TripAdvisor Open Tourism. Springer.
Yu, G., & Schwartz, Z. (2005). Forecasting Short Time-Series Tourism Demand with
Artificial Intelligence Models. Journal of Travel Research. Retrieved Septiembre
2016, from http://jtr.sagepub.com/content/45/2/194.abstract
67
Glosario
Forma Aditiva: Forma lineal en la que la variable independiente suma sus efectos a la
variable dependiente.
Forma Multiplicativa: Forma exponencial en que la variable independiente multiplica sus
efectos en la variable dependiente.
Índice de Gunning Fog: Método para ver la dificultad de lectura de un texto determinado.
Puntaje Sentimental: También llamado score sentimental (o simplemente sentimiento),
variable que resume si un texto puede fue escrito reflejando un sentimiento positivo,
negativo o neutro. Se basa en el análisis de Keywords.
Regresión Monótona: Método generalizado para predecir un orden dicotómico, ordinal
o agrupado para una variable dependiente continua Y que contiene J≥ 2 categorías de
resultados, como una función de M variables de predicción cuantitativas y / o cualitativas
X = (X1, X2, ..., XM).
Text Analytics: Campo interdisciplinario que permite obtener información estructurada
empleado textos como inputs a partir de procesos computarizados.
68
Anexos
Anexo 1: Cuadro de Actividades y Recursos Disponibles
Fase nov-17 dic-17 ene-18 feb-18 mar-18 abr-18 may-18 jun-18 jul-18 ago-18 sep-18 oct-18
1ra revisión del plan de Tesis
X X X
Recolección de Data
X X
Prueba de análisis con instrumentos
X X
Redacción de Resultados
X X
2da revisión del plan de Tesis
X X X X
Entrega del documento final
X
Tabla A1: Cuadro de Actividades Elaboración: Propia
En cuanto a los recursos disponibles, la data es de libre acceso y los instrumentos de analítica textual están a disponibilidad de quienes quieran
usarlos. En el caso de los softwares estadísticos, los mismos cuentan con versiones de demostración.
69
Anexo 2
PROBLEMA OBJETIVOS HIPÓTESIS VARIABLES TÉCNICAS E
INSTRUMENTOS METODOLOGÍA
¿Resulta posible modelar el customer rating en función a
indicadores analítico – textuales en el caso de los
estadounidenses que dejaron valoraciones en TripAdvisor acerca de
restaurantes de comida peruana en el Cusco?
Objetivo General: Determinar si el modelo de referencia que relaciona score y datos analítico-textuales resulta significativo. en
el caso de los estadounidenses que dejaron valoraciones en TripAdvisor acerca de restaurantes de comida peruana en el
Cusco
Hipótesis General: El modelo de referencia que relaciona score y datos analítico-textuales resulta significativo. en el caso de los estadounidenses que
dejaron valoraciones en TripAdvisor acerca de restaurantes de comida
peruana en el Cusco
Customer Rating Obtenido mediante observacion directa
Tipo de investigación: Cuantitativa
OE1: Determinar si el customer rating guarda relación con el score sentimental
del comentario en el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
H1: El customer rating guarda relación con el score sentimental del comentario en el caso de las valoraciones realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Score Sentimental del comentario
Lexalytics (previa corrección
ortográfica con Grammarly)
Diseño: Correlacional Transversal
No experimental
OE2: Determinar si el customer rating guarda relación con el índice de gunnig-
fog del comentario en el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
H2: El customer rating guarda relación con el índice de gunnig- fog del
comentario en el caso de las valoraciones realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Índice de Gunnig Fog de comentario
Readability Software.
OE3: Determinar si el customer rating guarda relación con la cantidad de
palabras del comentario en el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
H3: El customer rating guarda relación con la cantidad de palabras del comentario en el caso de las valoraciones realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Cantidad de palabras presentes en el
comentario. Excel
OE4: Determinar si el customer rating guarda relación con el tipo de viajero el caso de las valoraciones realizadas por
estadounidenses acerca de restaurantes de comida peruana en el Cusco.
H4: El customer rating guarda relación con el tipo de viajero el caso de las
valoraciones realizadas por estadounidenses acerca de
restaurantes de comida peruana en el Cusco.
Tipo de Viajero Obtenido Mediante observacion directa
70
Anexo 3: Uso de instrumento Lexalytics
Figura A1: Interfaz de Lexalytics
Fuente: Lexalytics (2019)
Figura A2: Interfaz de Lexalytics con resultados
Fuente: Lexalytics (2019)
Nota 1: El instrumento está configurado en idioma ingles y para el sector de restaurantes
Nota 2: El puntaje sentimental figura resaltado en negrita
71
Anexo 4: Uso de Readability Calculator
Figura A3: Interfaz de Readability Calculator
Fuente: Online Uitlity (2019)
Nota: El texto a procesar se coloca en la caja de texto. Para obtener los resultados se debe
pulsar Process text
Figura A4: Interfaz de Readability Calculator y los resultados del índice FOG
Nota: En este caso el índice es de 12.55
72
Anexo 5: Uso de Grammarly
Figura A5: Interfaz de Grammarly adherido a una plantilla HTML (correo)
Nota: El instrumento detecto un error. Por ello aparece el número 1 en rojo
Figura A6: Corrección con Grammarly
Nota: El software sugiere correcciones, el investigador opta por hacer clic en la corrección para
corregir el error.
73
Anexo 6: Uso del GOLDMiner
Figura A7: Interfaz de inicio de GOLDMiner
Figura A8: Comandos a activar para ejecutar regresión en GOLDMiner
Nota: Presionar el botón Estimate para obtener resultados
74
Anexo 7: Datas
Extracto de la Data Antigua:
75
Extracto de la Data Nueva:
76
Anexo 8: Paso a paso para procesar data
Un comentario puede lucir de la siguiente forma:
We've had cuy before in Lima but wanted to try it "closer to the source" in Cusco. This
restaurant had excellent reviews so we booked a table for our first night. The food was
excellent, as was the service. The waiter was friendly and made sure that my son's nut
allergies were carefully noted by the kitchen team. On the second night, we showed up
again. Our friendly waiter was nowhere to be seen. His substitute fawned over large
groups of English-speaking tourists, gave them complimentary drinks ... and ignored us.
He also failed to alert the kitchen to my son's allergies and gave us a dish that was full
of nuts! After waving at him for 5 minutes to get the bill, I finally got up from the table and
walked towards the door. Only then did I get his atention
PRMER PASO: Ingresar al siguiente enlace web de Readibility Calculator
https://www.online-utility.org/english/readability_test_and_improve.jsp y copiar y pegar
el comentario en su estado original y luego presionar el botón Process Text
Figura M1: Interface de inicio de Readibility Calculator
Figura M2: Comentario copiado y pegado en Readibility Calculator
77
Figura M3: Resultados con el Readibility Calculator.
Nota1: Debe anotarse los resultados de la fila que dice Gunning Fog Index. En este caso
el índice FOG es de 7.42
SEGUNDO PASO: En lo que corresponde al conteo de palabras puede usarse la
siguiente función en Excel con los comentarios previamente pegados
=SUMA(SI(LARGO(ESPACIOS(A1))=0;0;LARGO(ESPACIOS(A1))-LARGO(SUSTITUIR(A1;" ";""))+1))
Figura M4: Comentario copiado y pegado en Excel
Figura M5: Conteo de palabras con la función de Excel. En total fueron 142 palabras
78
TERCER PASO: El siguiente paso consiste en realizar correcciones ortográficas. Para
ello se emplea el instrumento Grammarly que pude integrarse a una HTML (Gmail, por
ejemplo).
Figura M6: Comentario copiado y pegado en una hoja HTML de Gmail.
Nota1: El instrumento ha detectado dos errores ortográficos. El investigador debe
corregir las que considere apropiadas.
Figura M7: Comentario copiado y pegado en una hoja HTML de Gmail.
Nota1: Grammarly da un conjunto de opciones
Nota2: Fue corregida la palabra “attention” de acuerdo a la sugerencia de Grammarly.
79
CUARTO PASO: El último paso consiste en emplear Lexalytics al comentario depurado
en https://www.lexalytics.com/demo . Es necesario copiar y pegar el comentario
depurado anteriormente.
Figura M8: Comentario copiado y pegado en Lexalytics
Nota 1: Para empezar el análisis debe presionar el botón Start Analysis
Figura M9: Resultados del Lexalytics para una frase ingresada
Nota 1: El puntaje alcanzado es lo que se anota como puntaje sentimental
80
Anexo 9: Entrevistas de Americanos que utilizaron TripAdvisor
PROPÓSITO DEL ESTUDIO:
• Entender tanto el mercado y al cliente que hace viajes internacionales a otros países para detectar oportunidades de crecimiento
TEMA PREGUNTAS: ¿QUÉ
QUEREMOS CONSEGUIR?
1.
Presentación
de dinámica
• Agradecimiento por aceptar la invitación.
• Presentación de moderador.
• Presentación de la dinámica y de los roles.
• En esta oportunidad quisiéramos
pedirles su opinión sobre distintos
temas que trataremos a lo largo de la
reunión. Por favor, siéntanse libres de
dar cualquier opinión ya sea buena o
mala.
• La información que nos proporcione es
confidencial y para uso profesional. Sus
datos no serán revelados sin
autorización.
• Como ya contamos con su autorización,
la sesión será grabada en video.
• Colocar celulares en modo de vibración.
• Presentación:
• Nombre, edad, dónde vive,
• Ocupación
Se utiliza para
crear confianza y
romper el hielo,
para hacer sentir
cómodos a los
participantes
2.
Conociendo
a la persona
que utiliza
TripAdvisor
Vamos a iniciar esta conversación de la siguiente manera. Yo les voy a decir una frase y ustedes van a escribir todo los que se les viene a la mente en estos post it. La frase es “TRIPADVISOR”
-Leer las anotaciones y discutir con los participantes el sentido de cada una de las asociaciones.
▪ ¿Desde cuándo es usuario de TripAdvisor?
▪ ¿Qué ventajas tiene el uso de TripAdvisor frente a otras plataformas orientadas a viajeros?
Entender sus
necesidades,
motivaciones,
hábitos de uso,
actitudes
81
▪ ¿Consideras que TripAdvisor tiene alguna desventaja en comparación a las plataformas ya mencionadas?
3.
Explorar la
experiencia
del usuario
en el Cusco
y su
relación con
TripAdvisor
¿Cuándo acudió a un restaurant en el Cusco,
¿por qué decidió acudir a uno de comida
peruana?
¿Qué te motivo a compartir tu experiencia como
consumidor en TripAdvisor?
Entender su visita
y valoración en
TripAdvisor
4.
Explorar los
aspectos
vinculados
al modelo
propiamente
dicho
¿Considera que la puntuación que asigno al restaurante tiene relación con las emociones o sentimiento que expreso en su comentario? ¿Por qué?
¿Considera que la puntuación que asigno al restaurante tiene relación con la extensión de su comentario? ¿Por qué?
¿Considera que la escritura que emplea al realizar comentarios en TripAdvisor está acorde a su formación académica? ¿Por qué?
Considera que el estilo que usa para escribir comentarios en TripAdvisor acerca de restaurantes puede llegar a variar si califica un servicio diferente como aerolíneas u hoteles
Suele valorar servicios en otras plataformas de viajes o redes sociales (NO: Terminar Entrevista, Si: Pasar a la siguiente)
¿Considera que el estilo que usar para escribir comentarios acerca de servicios puede llegar a variar si es que usa otra plataforma como Facebook, Google Reviews, Twitter o similares?
Muchas gracias por su participación
Si cumple con lo
analizado en la
data
82
TRANSCRIPCIÓN EN INGLES
ENTREVISTADO 1:
Name: Joshua Gardetto
Nacionality: american
Age: 26
Work: English Teacher
• Since when are you a tripadvisor user?
Im been using Tripadvisor to 2014 or 2013 maybe. so five years.
• What advantages does the use of TripAdvisor have over other passenger-
oriented platforms?
I think I use more Trip Advisor because you can use it online. I like to read other
comments and reviews. I like it because you get directions to places.
• Do you think that TripAdvisor has a disadvantage compared to the afore
mentioned platforms?
I do not think so.
• When he went to a restaurant in Cusco, why did he decide to go to a Peruvian
restaurant?
Yes, of course. Lomo Saltado, ceviche.
• What motivates you to share your experience as a TripAdvisor consumer?
I didn't really share or coments or post.
• Do you think that the score I assign to the restaurant is related to the emotions
or feeling expressed in your comment? Why?
No I Didn't to be any emotions.
83
• Do you think that the score assigned to the restaurant is related to the length of
your comment? Why?
Usually, the comments or the answers are given in the restaurant and, in
general, it is done with the feelings I feel for those places.
• Do you consider that the writing you use when making comments on
TripAdvisor is in accordance with your academic background? Why?
Yes I think so.
• Consider that the style you use to write reviews on TripAdvisor about
restaurants may vary if you rate a different service such as airlines or hotels?
I think it's the same, since probably the service is the same. So I think it's the
same as the performance rating.
• Usually assess services in other travel platforms or social networks (NO: End
Interview, Yes: Go to the next)
Not really.
Thank you for your participation
84
ENTREVISTADO 2:
Name: Michael Pippen
Nacionality: american
Age: 27
Work: Student
• Since when are you a tripadvisor user?
If I use it since 2010.
• What advantages does the use of TripAdvisor have over other passenger-
oriented platforms?
I like TripAdivor because it is more detailed for the comments and they are
usually more detailed than other pages since it shows you the place and has
comments.
• Do you think that TripAdvisor has a disadvantage compared to the afore
mentioned platforms?
If I say yes because there are more details, it has more advantages.
sometimes I use yelp but I like more trip.
• When he went to a restaurant in Cusco, why did he decide to go to a Peruvian
restaurant?
Because my friend told me to eat lomo saltado and cuy. Then I started looking
for food restaurants restaurants where they make those dishes.
• What motivates you to share your experience as a TripAdvisor consumer?
I will say yes, because I leave comments as I felt in the place. And it also
encourages me to go to a place according to the experiences of other people.
• Do you think that the score I assign to the restaurant is related to the emotions
or feeling expressed in your comment? Why?
85
Because the information is real and at the same time I have received opinions
from another person and it helps me to choose.
• Do you think that the score assigned to the restaurant is related to the length of
your comment? Why?
I'm going to say that if as I say to you, the level of punctuation is close to the
comment I leave in one place and so I also see comments from other people.
• Do you consider that the writing you use when making comments on
TripAdvisor is in accordance with your academic background? Why?
I'll say that it's a little less depends on my level of background because I try to
make it easy to read for other people understand
• Consider that the style you use to write reviews on TripAdvisor about
restaurants may vary if you rate a different service such as airlines or hotels?
I only use Tripadvisor for tour to places. I never use tripadvisor for hotels or
other things.
• Usually assess services in other travel platforms or social networks (NO: End
Interview, Yes: Go to the next)
Yes.
• Do you think that the style you use to write comments about services can vary if
you use another platform such as Facebook, Google Reviews, Twitter or
similar?
I believe that style can change, as I told you I like more TripAdvisor for travel
only. I almost do not use on Twitter or Facebook.
Thank you for your participation
86
ENTREVISTADO 3:
Name: Katherine Monserrat
Nacionality: Denver Colorado, american
Age: 33
Work: Restaurant
• Since when are you a tripadvisor user?
For 4 years ago.
• What advantages does the use of TripAdvisor have over other passenger-
oriented platforms?
When I travel I look for hotels and restaurants for where to stay and I use
Tripadvisor.
• Do you think that TripAdvisor has a disadvantage compared to the afore
mentioned platforms?
Yes, other platforms such as Facebook and Google. But I use more Tripadvisor
since I can see people who have traveled around the world. It is the most
popular to find information about countries and lodging, since I can see the
comments of the people.
• When he went to a restaurant in Cusco, why did he decide to go to a Peruvian
restaurant?
Because we were Peru, Peruvian food is amazing. I went to Cusco the first time
and also went to Aguas Calientes with my friends. And we use Tripadvisor to be
able to go to the place and find excellent service at the hotel.
To help other people to choose a good place since it depends on the level of
service that was left in the score.
• Do you think that the score I assign to the restaurant is related to the emotions
or feeling expressed in your comment? Why?
87
Yes, you have to be educated at the time of writing. When you put a score it will
depend how you felt in the place with the service.
• Do you think that the score assigned to the restaurant is related to the length of
your comment? Why?
He did not understand the question.
• Do you consider that the writing you use when making comments on
TripAdvisor is in accordance with your academic background? Why?7
The comments that I write if they are in agreement.
• Consider that the style you use to write reviews on TripAdvisor about
restaurants may vary if you rate a different service such as airlines or hotels?
I only use it for hotels and restaurants.
• Usually assess services in other travel platforms or social networks (NO: End
Interview, Yes: Go to the next)
Yes.
• Do you think that the style you use to write comments about services can vary if
you use another platform such as Facebook, Google Reviews, Twitter or
similar?
Yes, I also use Google and Trip to see the comments.
Thank you for your participation