Facultad de Ingeniería - Repositorio UTP: Página de...

37
Facultad de Ingeniería Trabajo de Investigación “MODELO DE RANDOM FOREST APLICADO A VENTAS CRUZADAS EN UN E-COMMERCE DE TELEFONÍA MÓVIL PARA LA PREDICCIÓN DE COMPRA O NO COMPRA DE PRODUCTOS” Autor: Vega Alaluna, Jhosep Antony 1420504 Para obtener el grado de bachiller en: Sistemas e Informática Lima, 01 enero 2019

Transcript of Facultad de Ingeniería - Repositorio UTP: Página de...

Page 1: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

Facultad de Ingeniería

Trabajo de Investigación

“MODELO DE RANDOM FOREST APLICADO A VENTAS CRUZADAS EN UN E-COMMERCE DE TELEFONÍA MÓVIL PARA LA PREDICCIÓN DE COMPRA O NO COMPRA DE PRODUCTOS”

Autor: Vega Alaluna, Jhosep Antony – 1420504

Para obtener el grado de bachiller en:

Sistemas e Informática

Lima, 01 enero 2019

Page 2: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

2

Resumen El objetivo de la presente investigación es realizar una propuesta para el análisis en la implementación de una técnica de machine learning para la predicción de la compra o no compra de productos a través de una web de e-commerce. Existe un auge en estos tiempos para la venta y compra de productos por internet, para muchas de las transacciones realizadas es necesario hacer previamente una identificación en el sistema web. Es por ello que la empresa “Movistar” cuenta con data de sus clientes. Esto hace posible la implementación de técnicas de machine learning para la predicción de la compra o no compra. El trabajo consiste en validar si la aplicación de Random Forest (Modelo de Árboles de Decisión) da un buen performance al momento de la realización del modelo. Previamente se realiza el tratamiento de la data y se analiza las diferentes variables. Como resultado de la implementación de Random Forest en data ficticia se obtuvo un buen performance para la predicción de resultados. Se recomienda mejorar la calidad de las variables y trabajar con data real, ya que los resultados varían de acuerdo a la base de datos. También es recomendable implementar otros modelos de clasificación.

Palabras Clave:

Machine Learning, Random Forest, Modelo Estadístico , E-commerce

Page 3: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

3

Abstract

The objective of this research is to make a proposal for the analysis in the implementation of an automatic learning technique for the prediction of the purchase or purchase of products through an e-commerce website. It is necessary to make an identification in the web system. That's why the company "Movistar" has data from its customers. This makes it possible to implement machine learning techniques for the prediction of purchase or non-purchase. The work consists of validating the application of the Random Forest (Decision Tree Model) in a good performance at the time of the realization of the model. Previously, the data is processed and the different variables are analyzed. As a result of the implementation of Random Forest in fictitious data, a good performance was obtained for the prediction of results. It is recommended to improve the quality of the variables and work with real data, as well as the results according to the database. It is also advisable to implement other classification models.

Keywords: Machine Learning, Random Forest, Statistical Model, E-commerce

Page 4: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

4

Dedicatoria

A mi familia,

quienes me han apoyado y

son fuente de motivación e inspiración para

cumplir las metas que me eh planteado.

Page 5: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

5

Agradecimientos

A mis profesores y asesores, gracias

a su apoyo en mi formación

laboral.

.

Page 6: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

6

ÍNDICE

INTRODUCCIÓN ...................................................................................................................1

1. PLANTEAMIENTO DEL PROBLEMA ...........................................................................2

1.1. ASPECTOS GENERALES ......................................................................................2

1.2. DEBILIDADES ...........................................................................................................2

1.3. PRONÓSTICO ...........................................................................................................2

1.4. CONTROL DEL PRONÓSTICO ..............................................................................3

1.5. FORMULACIÓN DEL PROBLEMA .......................................................................3

1.5.1. Problema General ............................................................................................3

1.5.2. Problemas Específicos ...................................................................................3

1.6. OBJETIVOS ...............................................................................................................4

1.6.1. Objetivo General ..............................................................................................4

1.6.2. Objetivos Específicos .....................................................................................4

1.7. JUSTIFICACIÓN .......................................................................................................4

1.8. LIMITES ......................................................................................................................4

2. MARCO TEÓRICO ...........................................................................................................5

2.1. ESTADO DEL ARTE ................................................................................................5

2.1.1. Introducción ......................................................................................................5

2.1.2. Fases de la revisión sistemática ..................................................................5

2.2. ANTECEDENTES ...................................................................................................17

2.2.1. Antecedentes Bibliográficos.......................................................................17

2.2.2. Bases Teóricas ...............................................................................................19

3. MARCO CONCEPTUAL ................................................................................................21

3.1. GLOSARIO...............................................................................................................21

4. MARCO METODOLÓGICO ...........................................................................................22

4.1. PMBOK .....................................................................................................................22

4.2. SCRUM .....................................................................................................................22

5. HIPÓTESIS ......................................................................................................................23

5.1. HIPOTESIS GENERAL ..........................................................................................23

5.2. HIPOTESIS ESPECÍFICAS ...................................................................................23

5.3. SOLUCIÓN PROPUESTA .....................................................................................23

5.3.1. Alcance.............................................................................................................23

5.3.2. Identificación de las variables ....................................................................23

Page 7: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

7

5.4. NIVEL DE INVESTIGACIÓN .................................................................................25

5.5. POBLACIÓN Y MUESTREO .................................................................................25

5.6. TÉCNICA DE RECOLECCIÓN DE INFORMACIÓN..........................................25

5.6.1. Entrevistas ......................................................................................................25

5.6.2. Documentos Diversos ..................................................................................25

5.7. TÉCNICAS PARA PROCESAR INFORMACIÓN ...............................................25

5.7.1. Rstudio y SPSS ..............................................................................................25

6. CORONOGRAMA Y PRESUPUESTO ........................................................................26

6.1. CRONOGRAMA ......................................................................................................26

6.2. PRESUPUESTO ......................................................................................................27

6.2.1. Bienes ...............................................................................................................27

6.2.2. Servicios ..........................................................................................................27

7. MATRIZ DE CONSISTENCIA .......................................................................................28

8. CONCLUSIONES Y RECOMENDACIONES ..............................................................29

9. BIBLIOGRAFÍA ...............................................................................................................30

Page 8: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

1

INTRODUCCIÓN

Movistar tiene una página web, donde sus usuarios pueden hacer compras de diversos productos. En muchas ocasiones los usuarios no llegan a completar la compra por diversos factores, es por ello que este proyecto de investigación tiene como propósito identificar las causantes de la NO compra de productos por internet que sean mediante la modalidad de venta cruzada. Se empleará un modelo de Machine Learning llamado Random Forest. El cual nos indicará la probabilidad de que un usuario nuevo compre o no compre por la página web de movistar, de esta forma se ayudará a la creación de campañas de fidelización a público específico. Finalmente evaluaremos el performance del modelo aplicado y su capacidad de generalización.

Page 9: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

2

1. PLANTEAMIENTO DEL PROBLEMA

1.1. ASPECTOS GENERALES

Telefónica es una de las compañías de telecomunicaciones más grande a nivel

mundial, posicionado en 21 países. Su marca más representativa en temas de

telefonía móvil es MOVISTAR, la cual tiene como misión brindar la mejor

tecnología a sus clientes. Para lograrlo se ofrecen diversos productos y servicios

cada vez más con mayor sencillez, de esta forma se abarcan las diversas

necesidades del cliente: fijo, móvil, banda ancha, televisión.

1.2. DEBILIDADES

1.2.1. Tecnología

El área de inteligencia de negocios de movistar aplica diversos modelos

matemáticos para la predicción del riesgo de fuga de clientes, pero no se

aplica a la temática de ventas cruzadas. Para la identificación de patrones en

usuarios y creación de campañas.

1.2.2. Creación de Campañas Personalizadas

Las campañas que se crean en movistar no son específicas. Crean campañas

y las envían a todos los usuarios.

1.2.3. Gastos Inadecuados en Campaña

Se crean muchas campañas para los usuarios, pero no hay un retorno

equitativo de todas las campañas, debido a que no se considera la creación

de campañas en tiempo real para las personas que compran por la web.

1.2.4. Predicción de Inventarios

No se considera técnicas de machine learning para predecir la cantidad de

productos que deben estar en stock para el siguiente mes. Es por ello que en

diversas tiendas existen productos que tienen descuentos.

1.3. PRONÓSTICO

Movistar al tener las debilidades anteriormente nombradas, presenta una alta

probabilidad de que sus ventas caigan y no tenga competitividad significativa con

las otras empresas del mismo rubro, los gastos seguirán incrementándose y sus

ingresos no serán los suficientes para cubrirlos.

Page 10: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

3

1.4. CONTROL DEL PRONÓSTICO

Se tendrá un mejor control sobre las necesidades de los usuarios, para que de

esta forma se vea el comportamiento de compra, originando así un incremento

de nuevas promociones que ayuden a la venta cruzada de productos.

Disminución en los gastos en publicidad y en personal, ya que se tendrá la

información del alcance que tendrá una promoción. Y así no generar gastos

innecesarios.

1.4.1. Tecnológico

El desarrollo y posterior implementación del sistema buscará agilizar y reducir la cantidad de usuarios que realizan la búsqueda de productos, pero no llegan a finalizar la compra.

1.4.2. Financiero

El costo total del sistema (en cuanto a desarrollo e implementación) busca retornar la inversión en un corto periodo. Ya que se reducirán las campañas masivas y se crearán campañas personalizadas, pero con mayor mismo impacto.

1.4.3. Aporte La presente busca generar un valor agregado, aplicando tecnología para la toma de decisiones y acciones en el e-commerce.

1.5. FORMULACIÓN DEL PROBLEMA

1.5.1. Problema General

¿El Modelo de Random forest se podrá aplicar a las ventas cruzadas en un e-

commerce de Telefonía Móvil para la predicción de compra o no compra de

productos?

1.5.2. Problemas Específicos

¿Qué tanto (porciento) un modelo de Random Forest, puede explicar las compras o no compras en ventas cruzadas en un e-commerce?

¿Es correcto aplicar Random Forest para estimar la compra o no compra en ventas cruzadas en un e-commerce?

Page 11: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

4

1.6. OBJETIVOS

1.6.1. Objetivo General

Implementar un modelo de Random Forest en las ventas cruzadas de un e-commerce de telefonía móvil para la predicción de compra o no compra de productos.

1.6.2. Objetivos Específicos

Analizar los resultados de los métodos estadísticos, para validar si existe un alto grado de significancia.

Analizar si es correcto aplicar el modelo de Random Forest en ventas cruzadas en un e-commerce.

1.7. JUSTIFICACIÓN

Hoy en día las empresas de telecomunicaciones invierten mucho en la creación de campañas de marketing sobre los productos que venden en sus sitios web, muchas veces las campañas están dirigidas a personas de diferentes perfiles y que no necesariamente necesitan adquirir el producto. La existencia de diversos modelos estadísticos para la predicción es una buena oportunidad para poder obtener diversos resultados. Esta gran variedad de modelos es una de las características que más intervienen en el Procesamiento de la información y el cómo obtener un buen performance.

La existencia de software de auto machine learning facilitan mucho el desarrolle e implementación de esta propuesta, sin embargo, se trabajará con software libre ya que una meta para esta propuesta, es la utilización de Python como software libre para data mining y modelamiento. Finalmente, al tener un modelo bien entrenado con parámetros adecuados garantizará la correcta generalización del modelo, esto hace que el performance del modelo no presente mucha variabilidad al recibir una nueva base de datos. La base de datos donde se trabajará es una ficticia, ya que no se cuenta con la data real de movistar para el entrenamiento.

1.8. LIMITES

Tecnológico: Contar con el hardware (Ordenador) adecuado para el

procesamiento de información.

Cultural: La empresa por temas de seguridad no brindará la base de datos de

ventas de la página.

Page 12: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

5

2. MARCO TEÓRICO

2.1. ESTADO DEL ARTE

Revisión del estado del arte

2.1.1. Introducción

En la búsqueda de información sobre la aplicación de un modelo de Random Forest

sobre las ventas cruzadas dentro de una organización, se encontró poca

información con respecto al tema. Por otro lado, se encontró mucha información en

el concepto de minería de datos y ventas cruzadas de forma independiente. Luego

se precisó el rubro al cual se está enfocando la investigación, para poder recopilar

información importante.

La búsqueda se realizó en Scielo, ScienceDirect, Dialnet, Worldwidescience y

google académico.

2.1.2. Fases de la revisión sistemática

2.1.2.1. Primera Búsqueda

Se realizó esta búsqueda para validar si existen investigaciones

similares en los que se hayan estudiado modelo de Random Forest

sobre las ventas cruzadas dentro de una organización de telefonía.

Con esta búsqueda se fortalecieron los indicios de que existe una

posibilidad de mejora en la predicción de resultados, teniendo como

respaldo una base de datos de los clientes en años anteriores.

Posteriormente se amplió los criterios de búsqueda.

Objetivo

Encontrar investigaciones similares en entidades públicas o

privadas de telefonía que permitan validar la originalidad de la

investigación, Por otro lado, también se fortaleció o justificó el

problema de investigación.

Criterios de inclusión

Trabajos de investigación, artículos o tesis relacionados al tema

de investigación.

Trabajos de investigación, artículos o tesis que se encuentran

en los buscadores de Scielo, ScienceDirect, Dialnet y

Worldwidescience.

Criterios de exclusión

Page 13: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

6

Trabajos de investigación, artículos o tesis que no estén

relacionados a informática o con el tema de investigación.

Trabajos de investigación, artículos o tesis que apliquen otros

tipos de metodologías en minería de datos.

Parámetros

Con el propósito de encontrar la mayor cantidad de información en los

buscadores, se tendrán en cuenta la siguiente secuencia de textos.

Modelo de regresión lineal en ventas cruzadas o

Minería de datos en ventas cruzadas

Para poder ampliar los resultados de búsqueda se han usado diversas

denominaciones de modelo de minería de datos como: modelo de

regresión lineal o minería de datos, por lo cual esto originó las

siguientes cadenas de búsqueda, las cuales fueron ingresadas.

(title-abstr-key(“Modelo de regresión lineal”) and title-abstr-

key(“ventas cruzadas”)) or

(title-abstr-key(“Minería de datos”) and title-abstr-key(“ventas

cruzadas”)).

La búsqueda fue realizada el 15/10/2017 y se obtuvieron los siguientes resultados.

Búsqueda

Memoria Organizacional

Fecha de Búsqueda

Cantidad de Resultados

Artículos relacionados a la investigación

Dialnet 15/10/2017 0 0

Scielo 15/10/2017 0 0

ScienceDirect 15/10/2017 17 0

Worldwidescience 15/10/2017 56 0

Google Académico 15/10/2017 78 0

Tabla 2.1

De la búsqueda realizada, se encontró en Worldwidescience 156

resultados y en ScienceDirect se encontró 17 resultados, de los cuales

ninguno tiene relación con el tema propuesto en la investigación. Es

Page 14: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

7

por ello que se propone una nueva secuencia de textos para poder

tener resultados.

2.1.2.2. Segunda Búsqueda

En la Búsqueda número 1, no se encontró resultados para la

investigación, es por ello que en la segunda búsqueda se ha ampliado

la cadena de texto, con el fin que poder encontrar una mayor cantidad

de investigaciones en las cuales se proponga un modelo de regresión

lineal para ventas cruzadas en un comercio electrónico.

Objetivo

Encontrar investigaciones donde se haya estudiado minería de

datos en ventas, no se especificará si son ventas cruzadas; sin

embargo, si se especificará que la modalidad de venta es por

internet.

Criterios de inclusión y exclusión

Para este punto se tomará en cuenta los mismos criterios

desarrollados en la “Primera Búsqueda”.

Parámetros

Para la búsqueda se tendrá en cuenta la siguiente cadena:

“Modelo de regresión lineal en las ventas de un e-commerce”.

Búsqueda

Memoria Organizacional

Fecha de Búsqueda

Cantidad de Resultados

Artículos relacionados a la investigación

Dialnet 17/10/2017 0 0

Scielo 17/10/2017 2 0

ScienceDirect 17/10/2017 3 0

Worldwidescience 17/10/2017 70 0

Google Académico 17/10/2017 97 0

Tabla 2.2

En esta búsqueda realizada en Scielo se encontraron 2 resultados.

De los cuales ninguno tiene relación con el tema de estudio, en

Page 15: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

8

worldwidescience hay 70 resultados de los cuales ninguno sirve

para la investigación.

2.1.2.3. Tercera Búsqueda

En la búsqueda número 2 no hubo resultados en los buscadores,

por tal motivo se realizará una nueva búsqueda con otra secuencia

de textos. En esta ocasión utilizaremos: “Minería de datos en e-

commerce” o “Minería de datos en ventas e-commerce” sin tener

en cuenta el rubro en el que se haya aplicado, esto nos ayudará a

saber cómo se está aplicando minería de datos en una

organización que venda productos por internet.

Objetivo

Conocer las organizaciones que han aplicado minería de datos

en las ventas que generan por internet, y los resultados que

obtuvieron al aplicarlo.

Criterios de inclusión

Para este punto se tomará en cuenta los mismos criterios

desarrollados en la “Segunda Búsqueda”.

Parámetros

Para la búsqueda se tendrá en cuenta la siguiente cadena:

“minería de datos en las ventas de un e-commerce”.

Búsqueda

Memoria Organizacional

Fecha de Búsqueda

Cantidad de Resultados

Artículos relacionados a la investigación

Dialnet 22/01/1900 5 0

Scielo 22/01/1900 14 0

ScienceDirect 22/01/1900 165 0

worldwidescience 22/01/1900 18 0

Google Académico 22/01/1900 153 8

Tabla 2.3

En la búsqueda, se dio prioridad a los artículos en español, por la baja cantidad relacionada a la investigación en referente al estudio de la minería de datos en un e-commerce.

Page 16: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

9

2.1.2.4. Artículos y Tesis Seleccionadas

A continuación, se van a describir los artículos y tesis

seleccionados dentro de las búsquedas realizadas.

Específicamente se abarcará trabajos de investigación de la

tercera búsqueda (6 artículos y 2 tesis) de lo cual nos da un total

de 10 documentos de investigación.

Page 17: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

10

2.1.2.4.1.1. Tesis

Estudio exploratorio de la oferta de comercio electrónico en un conjunto de micro y

pequeñas empresas (Mypes) localizadas en diversos distritos de Lima

Metropolitana(2016-04-21)

Pregunta

¿Cuáles son las herramientas electrónicas más utilizadas en las MYPES y el impacto en

su uso en las operaciones en las ventas?

Objetivo

Investigar el estado actual en que se encuentran las medianas y pequeñas empresas

(MYPES) en la oferta de comercio electrónico, ubicadas en el distrito de lima Perú.

INTRODUCCIÓN

DEFINICIONES

BASICAS

-MYPES: Micro y pequeñas empresas formada por una persona

-TIC’S: Tecnologías de la Información y comunicación

-Courier: Persona que envía las encomiendas

Contextualización

Económico

Tecnológico

Cultural

-Aumentara los ingresos de las MYPES en Lima Metropolitana

-Nueva herramienta tecnológica para las mypes

-Los pequeñas y micro empresa comenzaran a interesarse por

el comercio por internet y vender por ese medio

Datos biográficos de los

autores analizados (

Nombre

Universidad

Grado)

Autor: Becerra Rodríguez, Carlos Alfredo

Grado: Bachiller

Universidad: Universidad pontificia católica del Perú

RESUMEN

Hace unos años la relación existente entre empresa e individuo ha ido evolucionando. Es

por ello que las estrategias de las empresas, también fueron modificándose para dar mayor

satisfacción al usuario. Es por este motivo que las herramientas de comercio electrónico

fueron utilizadas por mayor cantidad de empresas. Ya que estas nuevas herramientas

ayudan a optimizar tiempos de compras y dar mayor impacto en las ventas diarias gracias

a su adaptabilidad, capacidad de reacción y sostenibilidad.

Page 18: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

11

Análisis, diseño e implementación de un sistema de comercio electrónico integrado con

una aplicación móvil para la reserva y venta de pasajes de una empresa de transporte

interprovincial (2014-01-30)

Pregunta

¿Cuáles son los problemas de los pasajeros al momento de comprar un pasaje por un

medio electrónico o internet?

Objetivo

Realizar un análisis, diseño e implementación una página web para comercio electrónico

que sea integrado con una aplicación para teléfonos móviles y que permita la reserva y

venta de pasajes de una empresa de transportes. Lima Metropolitana

INTRODUCCIÓN

DEFINICIONES

BASICAS

-E-commerce: Distribución compra y venta por internet

Middleware: Es un software que permite la interacción de una

aplicación web con otras aplicaciones.

-Mockup: Propuesta de diseño de una página web, elaborado a

escala o en tamaño real.

Contextualización

Económico

Tecnológico

Cultural

-Aumentara las ventas de pasajes de las empresas de

transporte

-Aplicativo para realizar comprar de viajes.

-Las personas compraran sus pasajes desde su casa o por

celular.

Datos biográficos de

los autores analizados

(

Nombre

Universidad

Grado)

Autor: Becerra Rodríguez, Carlos Alfredo

Universidad: Universidad pontificia católica del Perú

Grado: Bachiller

RESUMEN

El trabajo tiene como finalidad realizar un análisis, diseño e implementación de una página

web para realizar e-commerce y que tenga la capacidad de integrarse con otras

aplicaciones. Cabe mencionar que se realizó un análisis funcional de la mediana empresa.

Se consideró la parte web y móvil para la implementación de este proyecto.

Page 19: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

12

Marketing Digital: Tendencias En Su Apoyo Al E-Commerce Y Sugerencias De

Implementación‖

Problemática

El caso consiste en buscar aplicaciones exitosas referentes a Marketing digital en

empresas de E-Commerce, con el objetivo de identificar los factores que las llevaron al

éxito.

Objetivo

Realizar un análisis de las empresas que utilizan marketing digital y que han tenido éxito,

para que de esta forma adoptar las herramientas adoptadas por estas y sugerir métodos

de implementación en diferentes organizaciones.

INTRODUCCIÓN

DEFINICIONES

BASICAS

-Pago por Click: Es una modalidad de internet muy usada en

e-commerce donde el anunciante da un pago por los anuncios

que publica.

Marketing: Es un conjunto de estudios que ayuda a

incrementar la comercialización de productos.

-BC2: Método que se utiliza en el comercio, para que una

empresa lleve sus productos a sus clientes.

Contextualización

Económico

Tecnológico

Cultural

-Incremento de ventas de las empresas via internet

-Plataforma virtuales de e-commerce con un excelente

Marketing Digital

-La sociedad tomare interés en los E-commerce

Datos biográficos de los

autores analizados (

Nombre

Universidad

Grado)

Autor: Juan Pablo Cangas Muxica Marcela Guzmán Pinto

Universidad: UNIVERSIDAD DE CHILE

Grado: Bachiller

RESUMEN

Se revela un concepto más transaccional de lo que es un e-commerce. Ya que el concepto

de Marketing digital es algo muy amplio. Es por ello que se necesita más esfuerzo en su

investigación y de esta manera descubrir los avances en los diferentes sectores

tecnológicos y económicos. Hasta el momento se investiga los cambios de esta nueva

forma de comercio y se está evaluando los resultados.

Page 20: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

13

PROPUESTA DE UN SISTEMA DE COMERCIO ELECTRÓNICO PARA LA

OPTIMIZACIÓN DE LAS VENTAS DEL STOCK SERVICE DE LA EMPRESA

INCALPACA TPX S.A.(2013)

Problemática

¿Cómo mejorar las ventas por comercio electrónico del Stock Service en la empresa

INCALPACA TPX S.A.?

Objetivo

Realizar una propuesta de un sistema para comercio electrónico para mejorar las ventas

del Stock Service en la empresa INCALPACA TPX S.A.

INTRODUCCIÓN

DEFINICIONES

BASICAS

-E-commerce: a través de internet se distribuyen diversos

servicios como marketing, compra, venta de productos o

servicios.

Tienda Online Es un espacio o lugar en internet donde se

ofrecen artículos para su comercialización.

-B2C: Método que se utiliza en el comercio, para que una

empresa lleve sus productos a sus clientes.

Contextualización

Económico

Tecnológico

Cultural

-Mejorar las ventas de stock en la empresa

-Nuevo sistema de E-commerce

-Nuevo medio por donde de comprar chalinas y estolas

Datos biográficos de

los autores analizados

(

Nombre

Universidad

Grado)

Autor: MERELLO PORTOCARRERO, LORENA

Universidad: Universidad Catolica de Santa Maria

Grado: Bachiller

RESUMEN

Se tiene como objetivo elaborar un sistema web donde se utilice comercio electrónico para

mejorar las ventas del Stock Service en la empresa INCALPACA TPX; con el fin de validar

la hipótesis plateada por él autor, se realizó un estudio de los fundamentos teóricos con

respecto a la competitividad del comercio electrónico aplicador a la venta de productos al

por menor. Y de esta forma lograr un mejor entendimiento en el impacto que tendría el

comercio electrónico en las diferentes industrias que tiene el Perú.

Page 21: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

14

Plataforma de Comercio Electrónico para optimizar el proceso de ventas de la mediana y

pequeña empresa en la Región Lambayeque (2016)

Problemática

¿Cuál es el impacto de una página web con comercio electrónico en la optimización de

los procesos en las ventas en una pequeña y micro empresa de la Región Lambayeque?

Objetivo

Realizar una recolección de los requerimientos tanto funcionales como no funcionales de

una página web con comercio electrónico con el fin de optimizar el proceso de ventas de

una pequeña y mediana empresa de la Región Lambayeque.

INTRODUCCIÓN

DEFINICIONES

BASICAS

-MYPES: Micro y pequeña empresa conformada por una

persona.

-Minería de datos: Es el área de la estadística que se

encarga del análisis de una gran cantidad de datos con el fin

de descubrir patrones.

-B2C: Método que se utiliza en el comercio, para que una

empresa lleve productos a sus clientes.

.

Contextualización

Económico

Tecnológico

Cultural

-Optimizar el proceso en las ventas aplicadas sobre las

MYPES

-Nueva Plataforma de Comercio electrónico

-Las MYPES y medianas empresas tomaran como una

opción usar una plataforma e-commerce

Datos biográficos de los

autores analizados (

Nombre

Universidad

Grado)

Autor Silva Rengifo, Raúl Ricardo

Universidad: Universidad Nacional Pedro Ruiz Gallo

Grado: Bachiller

RESUMEN

Esta tesis consiste en elaborar una propuesta de plataforma web con el fin de implementar

comercio electrónico sobre ella. Un resultado de esta implementación es la optimización de

procesos en las ventas de productos o servicios de las pequeñas y medianas empresas.

Gran parte de esta investigación consta de un análisis, diseño y desarrollo de una página

web que ayude a l oferta de producto a través de internet.

Page 22: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

15

2.1.3 Resumen de la revisión sistemática

En esta sección se presentará los argumentos recogidos de los artículos antes

mencionados.

La minería de datos es una tecnología novedosa, desarrollada por estadísticos

para poder aumentar las ventas dentro de una organización. Se puede aplicar

minería de datos y machine learning en el comercio electrónico, estas

herramientas ayudan a predecir el comportamiento del usuario. Teniendo en

cuenta factores determinantes como el ancho de banda, el acceso a internet y la

publicidad que se hace sobre los artículos ofertados.

Existen ventajas y desventajas al momento de trabajar con la minería de datos

como:

Rastreadores de google

Manejo de personas en el llenado de datos

Las compras no se llegan a completar

Grandes cantidades de datos y el uso de una herramienta correcta

Es por ello que resulta indispensable hacer un análisis de la base de datos y

luego de ello proponer una técnica de minería de datos, que tenga en cuenta el

porcentaje de error de la técnica propuesta.

Por otro lado, también hay tipos de comercio electrónico donde es más viable la

aplicación de minería de datos, un ejemplo de ello es el tipo B2C.

Para una correcta implementación de minería de datos se debe establecer una

arquitectura siguiendo unos pasos para su realización.

Transformación de datos

La presentación de informes

Los algoritmos de minería de datos

Puntuación y visualización

Finalmente, para la aplicación de técnicas de estadística. Hay diversas opciones utilizables, pero de acuerdo a la investigación, las reglas de asociación son las más indicadas. Obteniendo un puntaje de 42 puntos, señalados en el cuadro anterior. Como regla de asociación entiéndase técnicas de canasta de mercado y análisis de regresión estadística.

Page 23: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

16

2.1.4 Viabilidad del proyecto

2.1.4.1 Idea de Negocio

Aplicación de modelo de regresión lineal múltiple en ventas cruzadas en

un comercio electrónico.

2.1.4.2 Análisis de entorno

Hoy en día la tecnología avanza y la competencia en las ventas por

internet está aumentando. Es por ello que hacer una correcta campaña de

marketing es indispensable, para poder personalizar la propuesta u

ofertas en productos. Es por ello que la minería de datos es importante,

ya que es esta herramienta la que nos permitirá hacer una correcta

segmentación del mercado. E identificar a los posibles usuarios.

2.1.4.3 Capacidades del Equipo promotor

En este proyecto trabajará un estudiante de sistemas e informática, con

amplios conocimientos en estadística.

2.1.4.4 Productos/servicios y valor añadido

Servicio de estimación de la herramienta idónea para la

implementación

Análisis de la base de datos de ventas cruzadas

Explicación de la herramienta y aplicabilidad

2.1.4.5 Objetivos estratégicos

Aumentar las ventas en comercio electrónico un 25%

Reducir los gastos de publicidad

Optimizar la inversión en marketing digital

2.1.4.6 Valoración económica-financiera

Inversión

Contratar un estadístico x mes 4500

Licencia de software SPSS 300

Herramienta Microstategy 500

Resultados

Aumento de las ventas en un 25% 25000

Reducción de gastos publicidad 3000

Page 24: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

17

2.1.4.7 Resumen de análisis de Viabilidad

Como conclusión se puede indicar que es importante la implementación

de un modelo de minería de datos para hacer predicción de resultados y

dirigir correctamente el marketing. Con una pequeña inversión de 5300

soles en 2 meses se pueden ver resultados y llegar a ahorrarse 28000

soles.

2.2. ANTECEDENTES

2.2.1. Antecedentes Bibliográficos

Robinson Montenegro Calcedo (2007) realizo un trabajo cuyo objetivo es

Desarrollar metodologías con minería de datos para analizar la información

generada en e-commerce en lo cual se basa en su estudio, el cual indica

que la investigación de las diferentes técnicas de minería de datos y su

empleo en la solución de diversos tipos de problemas de análisis de

información nos ayuda a tener un conocimiento general del tema para

desarrollar trabajos futuros en otras áreas de conocimiento. En el que se

concluye que

“[…] La minería de datos es una herramienta tecnológica que ayuda

a la toma de decisiones, se analiza una base de datos para filtrar información

y obtener conocimiento, e-commerce se puede predecir el comportamiento

del consumidor y elaborar perfiles de compra […].”1

Por otro lado, se puede utilizar estudios anteriores en el campo de las ventas

cruzadas para predecir el comportamiento del consumidor.

“[…] Las ventas cruzadas de Amazon. Amazon siempre ha sido un

referente en Internet a la hora de vender productos […].”2

Con esto vemos que las ventas cruzadas involucran una gran cantidad de

datos, ya que no sólo involucra a un solo producto, sino también a un

producto complementario al principal. Para ello es importante saber elegir

una buena herramienta y un buen modelo para poder hacer las predicciones

de las ventas teniendo en cuenta las variables.

“El proceso de extracción de información previamente desconocida,

válida y útil de grandes bases de datos para tomar decisiones cruciales de

negocios”3

1 Marta Postigo Palomar. Relevancia del E-commerce para la empresa actual, 2014, pág., 65. 2 María Amau Duque (2008). data mining en tiempo real. Lima, Perú. Recuperado de

https://estudiandobi.blogspot.pe/2008/02/data-mining-en-tiempo-real.html?m=0. 3 Kenneth C. Laudon. Jane P. Administración de la información y toma de decisiones, Resúmenes de los

principales capítulos del libro, Managment Information. Universidad de Tarapacá. chile-2005.

Page 25: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

18

Finalmente podemos concluir que la minería de datos y el comercio

electrónico han evolucionado en los últimos años, debido a la gran cantidad

de páginas que ofrecen productos y sevicios por internet.

“herramientas de minería de datos de ayuda el descubrimiento de patrones en los datos, y Gartner, el líder mundial en investigación de tecnologías y servicios de TI definir la minería como el proceso de descubrir correlaciones significativas, patrones y tendencias por tamizado a través de gran cantidad de datos almacenados en depósitos y de comercio electrónico proporciona un banco de trabajo perfecto para la minería de datos.”4

El modelo que tenga mejores indicadores será el que se emplee en el análisis.

Para ello se evaluará en diversos softwares estadísticos.

“Si los datos originales se almacenan en la base de datos, el objetivo es

mantenerlos allí asegurándose de que todas las operaciones anteriores de la

ruta necesarias se pueden convertir a SQL, Esto evitará que los datos se

descarguen de IBM® SPSS® Modeler”5

4 Lipsa Sadath. La minería de datos en el Comercio Electrónico: Una plataforma CRM, 2013 pág., 32. 5 © Copyright IBM Corporation. Manual de minería interna de base de datos de IBM SPSS modeler 14.2.

1994, 2011. Pág., 8

Page 26: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

19

2.2.2. Bases Teóricas

2.2.2.1. Modelo

Por definición, “Es un formulismo matemático para expresar relaciones,

proposiciones sustantivas de hechos, variables, parámetros, entidades

y relaciones entre variables de las operaciones, para estudiar

comportamientos de sistemas complejos ante situaciones difíciles de

observar en la realidad.”6

2.2.2.1.1. Características

● Es demostrable matemáticamente.

● Se basa de información.

2.2.2.1.2. Tipos

● Modelo de correlación ● Modelo Random Forest ● Modelo regresión exponencial ● Modelos de mínimos cuadrados

2.2.2.2. Random Forest

Random Forest es un algoritmo de aprendizaje supervisado. Tiene como función crear un bosque de forma aleatoria. El "bosque" que construye, es un conjunto de árboles de decisión, la mayoría de las veces entrenados con el método de "bagging". La idea general del método de bagging es que una combinación de modelos de aprendizaje aumenta el resultado general.

2.2.2.3. Ventas Cruzadas

“Es una técnica que consiste en la venta de varios productos o

servicios complementarios al que el cliente desea comprar

inicialmente”7

2.2.2.3.1 Características:

● Ayuda a incrementar las ventas

● Ayuda a conocer el comportamiento de compra y venta del

consumidor

● Ayuda a vender productos complementarios al producto

principal.

6 Veterinaria.org (2005). Modelo matemático, explicación en redes bayesianas. Aplicación en la

medicina Veterinaria. Enfermedad: Peste porcina Clásica (PPC). California, EE.UU. Recuperado de http://www.veterinaria.org/descargas/articulos.a.arbitrar/FEB1205.doc. 7 Carme Ribera Guixé. Merchandising y técnicas de venta en la oficina de farmacia. 2013, pág., 10

Page 27: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

20

2.2.2.3.2 Tipos:

● Upselling.

● Venta de servicios complementarios.

● Venta de productos complementarios.

2.2.2.4. E-commerce

“consiste en la compra y venta de productos o de servicios a través de

medios electrónicos, tales como Internet y otras redes informáticas.” 8

2.2.2.4.1 Características:

● Se encuentra en todos los lugares con acceso a internet

● Puede personalizar el mensaje de contenido hacia los

usuarios.

● Es una herramienta interactiva, donde el usuario puede

obtener lo que realmente busca

2.2.2.4.2 Tipos:

B2B. - Se refiere a Business to business

B2C. - Se refiere a Business to Consumer

B2E. - Se refiere a Business to Employee

C2C.- Se refiere a Consumer to Consumer

G2C. - Se refiere a Government to Consumer

8 Claudio Ariel Clarenc. Nociones de cibercultura y periodismo. 2011, pág., 75

Page 28: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

21

3. MARCO CONCEPTUAL

3.1. GLOSARIO

● Upselling: es un término bastante auto descriptivo. Se trata de vender un

producto de gama más alta. Es decir, un producto con mejores prestaciones o

más opciones.

Marketing Relacional y CRM. (2008). pp.25-27.

https://flcruz.files.wordpress.com/2008/06/marketing-relacional-y-cmr.pdf 16 Jun

2017

● La venta de servicios complementarios: es precisamente esto: ofrecer un servicio

que complete la compra de un artículo físico. Sin ser la estrategia de cross selling

más común.

Marketing Relacional y CRM. (2008). pp.28-29.

https://flcruz.files.wordpress.com/2008/06/marketing-relacional-y-cmr.pdf 17

Jun. 2017

● Venta de productos complementarios: Es vender productos que complementen

al principal elemento de la compra.

Teoría de Juegos y Problemas de Información (2009) Pp 93-95

https://www.ucursos.cl/usuario/6c35e35ec55a71af969f59a168a300a7/mi_blog/r

/ZTeoria_de_Juegos_y_Problemas_de_Informacion_02_-_38.pdf 16 Jun 2016

● Venta cruzada: Es una técnica que consiste en la venta de varios productos o

servicios complementarios al que el cliente desea comprar inicialmente

La venta cruzada, camino hacia el éxito (2013). Pp. 1-2.

http://www.infotaller.tv/archivos/story/adjuntos/ventacruzada_pdf_70703.pdf. 19

Jun 2017

● Minería de datos: es un campo de la estadística y las ciencias de la computación

referida al proceso que intenta descubrir patrones en grandes volúmenes de

conjuntos de datos.

Minería de Datos (2012) Pp. 5

https://ccc.inaoep.mx/~jagonzalez/AI/Sesion13_Data_Mining.pdf 19 Jun 2017

Page 29: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

22

4. MARCO METODOLÓGICO

4.1. PMBOK

Para gestionar el proyecto.

4.2. SCRUM

Para gestionar el desarrollo del Sistema de compra o no compra de productos de ventas cruzadas.

Page 30: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

23

5. HIPÓTESIS

5.1. HIPOTESIS GENERAL

El modelo de Random Forest mejora las ventas cruzadas en un e-commerce de telefonía móvil.

5.2. HIPOTESIS ESPECÍFICAS

Los métodos estadísticos si validan un alto grado de significancia del modelo.

El modelo de Random Forest si explica las ventas cruzadas en un e-commerce.

5.3. SOLUCIÓN PROPUESTA

5.3.1. Alcance

El código para la implementación de un modelo de machine learning se trabajará con data ficticia de la empresa movistar. Lenguaje de Programación: Python Notebook: Jupyter

Base de datos: SQL server

5.3.2. Identificación de las variables

Variable Independiente (X) = Modelo de Random Forest Variable Dependiente (Y) = Compra de productos

Tabla 1 Variable Independiente

Modelo de Random Forest

Dimensiones Indicadores Peso

Estándar Estructura de la base de datos estandarizada.

5

Correcta Elección de variables importantes.

4

Precisión Curva ROC mayor a 80% 4

Equilibrio entre sesgo y variabilidad

5

Registro disponible 5

Registro pertinente 5

Peso Total 28

Desarrollo de la variable independiente y su respectivo peso.

Page 31: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

24

Tabla 2 Variable Dependiente

Optimizar

Dimensiones Indicadores Peso

Estándar Correctamente clasificados 5

Estandarización de la columna compra

5

Calidad Equilibrada 5

Sin Vacíos 5

Naturaleza Dicotómica 5

Peso Total 25

Desarrollo de la variable dependiente y su respectivo peso.

Page 32: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

25

METODOLOGÍA

5.4. NIVEL DE INVESTIGACIÓN

Es nivel Explicativo debido a que la investigación trata como se puede emplear

un modelo de regresión lineal para predecir el comportamiento de los usuarios

en ventas cruzadas en un comercio electrónico analizando en número de ventas,

los productos vendidos, frecuencia y numero de interacción de las personas con

la página web. Lo cual indica que la relación es causa – efecto.

5.5. POBLACIÓN Y MUESTREO

La población de estudio está conformada por todas las personas que hacen compras por la web de movistar a nivel nacional. No obstante, para el caso de estudio se tomará en cuenta las personas que compren productos principales y sus complementos mediante la web de movistar.

5.6. TÉCNICA DE RECOLECCIÓN DE INFORMACIÓN

5.6.1. Entrevistas

Realizar una entrevista con el director de marketing de la empresa movistar.

5.6.2. Documentos Diversos

La base de datos de la empresa de Telefonía móvil de las visitas históricas a

la página web.

5.7. TÉCNICAS PARA PROCESAR INFORMACIÓN

Se usarán pruebas estadísticas apropiadas para analizar la hipótesis formulada. Para ello, se recurrirá a herramientas como:

5.7.1. Rstudio y SPSS

El software a Utilizar para el procesamiento de datos serán SPSS y Rstudio.

Debido a que estos dos softwares tienen la característica de poder analizar gran

cantidad de información. También permite hacer líneas de tendencia y análisis

de correlación, para saber qué tan relacionadas están las variables que vamos

a emplear en el modelo, Una de las características también es la capacidad de

poder hacer gráficos y cruces de variables de acuerdo al interés que tengamos

en hallar un determinado dato.

Rstudio es un software libre que ayuda al análisis estadístico. Esta herramienta

trabajo con diferentes extensiones de archivos como, por ejemplo .csv, .txt, .xlsx,

etc. Se carga la información al sistema mediante código en R, y se puede ver la

base de datos en un dataframe, luego de ello ya se puede trabajar con la data y

hacer las imputaciones, balanceo, estandarización, etc que se requiera en la

casuística

Page 33: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

26

6. CORONOGRAMA Y PRESUPUESTO

6.1. CRONOGRAMA

En base a la presente, se presenta el siguiente cronograma de trabajo.

Tabla 4 Cronograma de actividades principales

semanas

Esquema Principal 1 2 3 4 5 6 7 8 9 10 11 12 13 14

antecedentes Bibliográficos

Planteamiento de Problema

Marco teórico

Justificación

Objetivo

Hipótesis

Identificación de variables

Indicadores

Metodología

Cronograma

Presupuesto

Vista de avance de la actividad según el tiempo definido por semanas.

Page 34: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

27

6.2. PRESUPUESTO

6.2.1. Bienes

6.2.2. Servicios

TOTAL INVERSION…………………………………………………S/. 3,700.00

Page 35: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

28

7. MATRIZ DE CONSISTENCIA

Problema General Objetivo General Hipótesis General Diseño

¿El Modelo de Random Forest se podrá aplicar a las ventas cruzadas en un E-commerce de Telefonía Móvil para la predicción de compra o no compra de productos?

Implementar un modelo de Random Forest en las ventas cruzadas de un e-commerce de telefonía móvil Móvil para la predicción de compra o no compra de productos

El modelo de Random Forest mejora las ventas cruzadas en un e-commerce de telefonía móvil.

Es no experimental debido que sólo se está realizando una vez el proceso de recolección de información, y los resultados obtenidos en la base de datos Serán los valores a emplear en la tesis.

Técnicas de recolección de información

Problemas Específicos

Objetivo Específico Hipótesis Específica

¿Qué tanto (porciento) un modelo de Random Forest, puede explicar las compras o no compras en ventas cruzadas en un e-commerce?

Analizar los resultados de los métodos estadísticos, para validar si existe un alto grado de significancia

Los métodos estadísticos si validan un alto grado de significancia del modelo.

Entrevista: Entrevista al gerente de Marketing de Movistar

¿Qué modelo de Random Forest se debe aplicar para estimar la compra o no compra en ventas cruzadas en un e-commerce?

Analizar si es correcto aplicar el modelo de Random Forest en ventas cruzadas en un e-commece

El modelo de Random Forest si explica las ventas cruzadas en un e-commerce

Documentos Diversos: Base de datos de clientes que visitan la página web de la empresa.

Población: Personas que compran por la web de movistar a nivel nacional

Muestra: Cantidad de personas que compran por la web de movistar productos principales y complementos.

Page 36: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

29

8. CONCLUSIONES Y RECOMENDACIONES

8.1. Conclusiones

El modelo de Random Forest se usa para los problemas relacionados a la

clasificación. Se basa en la creación de pequeños árboles para luego unirlos y formar

un árbol más grande con mejor predicción.

El E-commerce tiene suficiente información para poder predecir la compra o no

compra de productos. Ya que solamente se usarían los campos relacionados al

cliente y a su compra.

La precisión del modelo es importante para la generalización del mismo, ya que debe

de existir un equilibrio entre la precisión y la generalización. Esto ayudará a que los

resultados no se alteren demasiado en caso de que se corra el mismo modelo, pero

con data diferente.

8.2. Recomendaciones

Se recomienda hacer un buen limpiado de la data, estandarización y transformación

de las variables.

Identificar el target e imputar los valores ausentes.

Hacer una correcta división de la data en train y test para la etapa de Modelado.

Usar K folds para evitar el Overfiting. Y Obtener mejores parámetros para el modelo.

Hacer un mantenimiento del modelo y buscar nuevos parámetros bajo la nueva data

que se ingresará a evaluar.

Page 37: Facultad de Ingeniería - Repositorio UTP: Página de iniciorepositorio.utp.edu.pe/bitstream/UTP/1674/1/Jhosep Vega_Trabajo d… · Autor: Vega Alaluna, Jhosep Antony – 1420504

30

9. BIBLIOGRAFÍA

Acuña (2012), E. Notas de clase: Data Mining I.

Daniel Zelterman (2013) Applied Multivariate statistics with R USA: New Haven,

CT. http://www.springer.com/series/2848., pag 174-182

Gareth James, Daniela Witten (2013) An Introduction to Statistical Learning, USA: Los angeles, Springer.

Haim Dahan (2014) Proactive Data Mining With Decision trees, USA: New York, Springer.

Hidalgo (2017), K. Cluster.. https://rpubs.com/kfhidalgoh/300948.

J. F. Hair, Jr.,R. F. Anderson. (2014). Análisis Multivariante. España: Universidad Autónoma de Madrid, 5ta edición, pág. 11-19

Lior Rokach, Oded Maimon (2015) Data Mining With Decision trees theory and applications 2da edición, world scientific.

Max Kuhn, kjell Johnson (2013) Applied predictive modeling, USA: Connecticut, Springer.

Pandya (2017), T. Cluster Analysis.. https://rpubs.com/Tanmay007/cluster_analysis

Pérez (2004), C.Técnicas deAnálisis Multivariante de datos. España: Madrid.

Pérez (2007), C. Minería de datos:Técnicas y Herramientas.

Tarazona (2017), E. Notas de clase:Técnicas de Minería de Datos.

Torgo (2011), L. Data Mining with R.