Data warehouse

45
Una introducción a la nuevas características de Almacén de datos escalabilidad de SQL Server 2008 R2 (Abstracción)

description

 

Transcript of Data warehouse

  • 1. Una introduccin a la nuevas caractersticas de Almacn de datos escalabilidad de SQL Server 2008 R2
    (Abstraccin)

2. Mapa de las nuevas caractersticas de almacenamiento de datos
3. Latabla anterior muestra las caractersticas de escalabilidad de nuevo en SQL Server 2008 R2, y donde se ayudan con las actividades que rodean a su almacn de datos.
Este whitepaper describe brevemente las mejoras en el almacenamiento de datos en cada uno de los diferentes componentes de SQL Server 2008 R2, y cmo pueden ayudarle a sacar el mximo partido de su almacn de datos.
4. SQL Server Relational DBMS Data Warehouse Improvements
El SQL Server 2008 R2 relacional DBMS contiene avances importantes respecto a versiones anteriores, por lo que funciona mejor cuando usted crea, gestiona y consulta los almacenes de datos de gran tamao.En esta seccin se detalla en el DBMS relacional mejoras de almacenamiento de datos en la Tabla 1.
5. Star Join
Con modelados dimensionales de almacenes de datos, una gran parte de su carga de trabajo suele consistir en lo que se conoce como la estrella de consultas de unin.Estas consultas siguen un patrn comn que se une a la tabla de hechos con una o varias tablas de dimensiones.Adems, la combinacin en estrella consultas suelen expresar las condiciones de filtro contra las columnas sin clave de las tablas de dimensiones y realizar una agregacin (por lo general SUM) en una columna de la tabla de hechos (denominada columna demedida).Con SQL Server 2008 R2, que experimentar importantes mejoras de rendimiento para la estrella de muchas consultas de unin de ese proceso una fraccin significativa de las filas tabla de hechos.
6. 7. Partitioned Table Parallelism
Elparalelismo tabla particionada(PTP) en SQL Server 2008 R2.Aplicaciones de almacenamiento de datos suele reunir grandes cantidades de datos histricos en las tablas de hechos, que a menudo son divididas por la fecha.En SQL Server 2005, las consultas que tocan ms de una particin usa un thread (y por lo tanto un ncleo del procesador) por particin.A veces, esto limita el rendimiento de las consultas que implican las tablas con particiones, especialmente cuando se ejecuta en paralelo con varios procesadores de memoria compartida (SMP) con ncleos de procesador.
8. 9. La figura anteriorilustra el impacto de paralelismo tabla con particiones en un escenario tpico de almacenamiento de datos.
Consulta Q resume las ventas de ms de siete das.La consulta se puede tocar particiones diferentes segn el momento en que se ejecuta.Esto se ilustra en la consulta Q1, que toca una sola particin P2 y Q2, que toca dos particiones ya que los datos pertinentes en el momento de la ejecucin se extiende por P3 y P4.
10. Partition-Aligned Indexed Views
Particin de las vistas indizadas alineadas le permiten crear y gestionar los agregados de resumen en su almacn de datos relacionales de manera ms eficiente, y utilizarlos en situaciones en las que no podra usarlos con eficacia antes, la mejora de rendimiento de las consultas.
Cuando se cambia en una particin nueva tabla, las particiones de los puntos de vista coincidentes alineadas por particin ndice definido en la tabla con particiones tambin cambian, de forma automtica.
La particin alineados funcin de las vistas indizadas en SQL Server 2008 R2 le ofrece las ventajas de las vistas indizadas en tablas con particiones grandes, evitando al mismo tiempo el costo de la reconstruccin de los agregados en toda una tabla con particiones.Estos beneficios incluyen el mantenimiento automtico de los agregados, y se pongan vista indizada (reescritura de la consulta automtica de utilizar los agregados para resolver las consultas que se refieren slo a las tablas base, no los agregados).Para ms detalles sobre las vistas indizadas
11. La siguiente figura muestra cmo se mueven los agregados con las particiones de la tabla base cuando se cambia de una particin.
12. GROUPING SETS
GROUPING SETS le permiten escribir una consulta que produce varias agrupaciones y devuelve un solo conjunto de resultados.El conjunto de resultados es equivalente a una UNION ALL de filas agrupadas de manera diferente.Mediante el uso de GROUPING SETS, usted puede concentrarse en los diferentes niveles de informacin (grupos) en sus necesidades de negocio, en lugar de la mecnica de cmo combinar varios resultados de la consulta.
13. Salida de una consulta GROUPING SETS, con formato de tabla dinmica
14. MERGE
La instruccin MERGE le permite utilizar varios lenguajes de manipulacin de bases de datos (DML) (INSERT, UPDATE y DELETE) en una tabla o vista en una sola instruccin Transact-SQL.La tabla o vista de destino est unido a una fuente de datos y las operaciones de DML se realizan en los resultados de la unin.
La instruccin MERGE tiene tres clusulas WHEN, cada una de ellas le permite realizar una accin especfica de DML en una fila determinada en el conjunto de resultados
15. Para cada fila que existe tanto en el objetivo y la fuente, la clusula WHEN MATCHED le permite actualizar o eliminar la fila en la tabla de destino.
Por cada fila que existe en el origen pero no en el de destino, el CUANDO que no se repite la clusula le permite insertar una fila en el blanco.
Para cada fila que existe en el destino pero no en la fuente, la clusula WHEN FUENTE que no se repite le permite actualizar o eliminar la fila en la tabla de destino
Tambin se puede especificar una condicin de bsqueda con cada una de las clusulas WHEN para elegir el tipo de operacin de DML se debe realizar en la fila.La clusula de salida para la instruccin MERGE incluye una nueva columna virtual llamadoaction,que se puede utilizar para identificar la accin DML que se llev a cabo en cada fila
16. Change Data Capture
La captura de datoses una de las caractersticas de los nuevos datos de seguimiento introduce en SQL Server 2008 R2.Diseado principalmente para escenarios de data warehousing, la captura de datos proporciona un mecanismo eficaz para rastrear y recopilar datos de los cambios realizados en las tablas de usuario y le proporciona acceso a modificar los datos en un formato relacional.
La informacin auxiliar se reunieron junto con los datos de cambio permite captura de datos modificados para dar respuesta a una serie de preguntas.
aqu hay una serie de preguntas para las que la captura de datos puede proporcionar las respuestas de manera eficiente:
17. Quiero que todas las filas que han cambiado entre las 12:00 am y 12:00 pm
Necesito saber si un cambio es una insercin, actualizacin o eliminacin.
Para una fila actualizada, me gustara saber en qu columna (s) modificado.
La captura de datos que proporciona una forma muy eficiente para extraer los cambios de manera gradual, reduciendo el tiempo general de procesamiento ETL.
El siguiente diagrama proporciona una visin general de los componentes que conforman la captura de datos.
18. 19. Minimally Logged INSERT
En general, cuando se escriben datos en una base de datos de usuario, debe escribir en el disco dos veces: una para el registro, y una vez a la propia base de datos.Esto es porque el sistema de base de datos utiliza un undo / redo log por lo que puede deshacer o rehacer operaciones cuando sea necesario.
Esto es lo que la nueva funcin de registro mnimo INSERTAR hace en SQL Server 2008 R2.Un factor de 2 o ms aceleracin es comn con el registro mnimo en comparacin con el registro completo.Sus resultados dependern de su aplicacin y el hardware.
Las operaciones que se registra al mnimo en SQL Server 2005 incluye las operaciones de importacin masiva, SELECT INTO, y la creacin de ndices y la reconstruccin.SQL Server 2008 R2 extiende la optimizacin de INSERT INTO ... SELECT FROM T-SQL operaciones que insertan un gran nmero de filas en una tabla de destino existente en esa tabla es un montn que no tiene ndices no agrupados, y la sugerencia TABLOCK se utiliza en el objetivo.
20. Data Compression
La caracterstica de compresin de datos en SQL Server 2008 R2 reduce el tamao de tablas, ndices o un subconjunto de las particiones de almacenamiento de longitud fija los tipos de datos en formato de almacenamiento de variables longitud y por reducir los datos redundantes.
SQL Server ofrece dos tipos de compresin de la siguiente manera:
CompresinROWpermite el almacenamiento de tipos de longitud fija en formato variable de almacenamiento de longitud.
LacompresinPAGE se construye en la parte superior de la compresin de fila.Reduce al mnimo el almacenamiento de datos redundantes en la pgina mediante el almacenamiento de patrones de bytes que ocurren comnmente en la pgina de una vez y luego hacer referencia a estos valores en las columnas respectivas.El reconocimiento de patrones de bytes es de tipo independiente.Bajo la compresin PAGE, SQL Server optimiza el espacio en una pgina mediante dos tcnicas.
21. La primera tcnica esprefijo de columna.En este caso, el sistema busca un patrn de bytes comn como un prefijo para todos los valores de una columna especfica en las filas de la pgina.
La segunda tcnica es eldiccionario de nivel de pgina.Este diccionario almacena los valores comunes a travs de columnas y filas y los almacena en un diccionario.Las columnas se modifica para referirse a la entrada del diccionario.
Los comandos para comprimir los datos se exponen como opciones en el modo de CREATE / ALTER DDL y el apoyo tanto online como offline.Adems, un procedimiento almacenado se proporciona para ayudarle a calcular el ahorro de espacio antes de la compresin real.
22. Backup Compression
Al reducir el tamao de las copias de seguridad de SQL, se ahorra mucho en los medios de comunicacin en disco para copias de seguridad de SQL.Mientras que todos los resultados de compresin depende de la naturaleza de los datos se comprimen, los resultados del 50% no son infrecuentes, y una mayor compresin posible.Esto le permite utilizar menos espacio de almacenamiento para guardar sus copias de seguridad en lnea, o para mantener a ms ciclos de copias de seguridad usando el mismo almacenamiento.
23. Resource Governor
El regulador de recursos nuevos en SQL Server 2008 R2 le permite controlar la cantidad de recursos de la CPU y la memoria asignada a diferentes partes de su carga de trabajo de base de datos relacional.Se puede utilizar para evitar que las consultas fuera de control (que niegan los recursos a otros) y de reservar recursos para una parte importante de su carga de trabajo.SQL Server 2005 las polticas de asignacin de recursos tratar a todos por igual las cargas de trabajo, y asignar los recursos compartidos (por ejemplo, ancho de banda de CPU y memoria), cuando se requiere.Esto a veces causa una distribucin desproporcionada de los recursos, que a su vez se traduce en un desempeo desigual o retrasos inesperados.
24. Hay tres nuevos conceptos que son importantes para la comprensin de la regulacin de recursos: los grupos de trabajo, las agrupaciones de recursos, la clasificacin (y clasificador de las funciones de usuario).
Grupo:Ungrupo de trabajo,ogrupo,es una categora especificada por el usuario de las solicitudes que son similares de acuerdo a las reglas de clasificacin que se aplican a cada solicitud.
Piscina:Ungrupo de recursos,o en lapiscina,representa una porcin de los recursos fsicos del servidor.Dependiendo de su configuracin, un grupo puede tener un tamao fijo (la configuracin de los recursos mnimos y mximos de uso son iguales entre s) o una parte que se reparte entre varios grupos (el mnimo es menor que el mximo de eficacia)
Clasificacin:La clasificacines un conjunto de reglas escritas por el usuario que permiten que el regulador de recursos para clasificar las solicitudes en los grupos descritos anteriormente.Se implementa a travs de un escalar Transact-SQL definida por el usuario (UDF), que se designa como "UDF clasificador" para el regulador de recursos
25. Esto se ilustra en la siguiente figura
26. Integration Services Improvements
Haciendo ETL para mover datos de sus sistemas operativos en su almacn de datos puede ser una tarea ardua.Para hacer este proceso ms rpido, SQL Server 2008 IntegrationServices R2 (SSIS) presenta dos caractersticas de escalabilidad importante: mejorar el rendimiento de bsqueda y un mejor rendimiento de transformacin de tuberas
Rendimiento de bsqueda
El componente de bsqueda en SSIS se ejecuta ms rpido, y es an ms fcil de programar que en SQL Server 2005.A las pruebas de bsqueda si cada fila de una corriente de filas tiene una fila correspondiente en otro conjunto de datos.Una bsqueda es como una operacin de combinacin de bases de datos.Por lo general se utiliza de bsqueda dentro de un proceso de integracin, tales como la capa de ETL que rellena un almacn de datos de sistemas de origen
27. Otras mejoras al componente de bsqueda incluyen:
Optimizado las rutinas de E / S que lleva a la carga de cach ms rpida y las operaciones de bsqueda.
De usuario ms intuitiva interfaz que simplifica la configuracin del componente de bsqueda, en particular, las opciones de almacenamiento en cach.
Filas de la entrada que no coinciden con al menos una entrada en el conjunto de datos de referencia son ahora enviados a la salida del partido no.La salida de error slo se ocupa de los errores, como truncamientos.
Instrucciones de consulta en las transformaciones de bsqueda se puede cambiar en tiempo de ejecucin, por lo que las transformaciones de programacin ms flexible.
Mensajes informativos y de error se han mejorado para ayudar a la solucin de problemas y anlisis de rendimiento.
28. 29. Tubera de rendimiento
30. En SSIS SQL Server 2008 R2, varios hilos pueden trabajar juntos para hacer el trabajo que un solo hilo se ve obligado a hacer por s mismo en SQL Server 2005 SSIS.Esto puede darle una aceleracin varias veces en el rendimiento de ETL.
Para lograr un alto nivel de paralelismo, las tuberas de SQL Server 2008 R2 SSIS permite un procesamiento ms en paralelo, lo que significa que para cualquier mquina multiprocesador esto debera resultar en un rendimiento ms rpido.
31. Analysis Services Improvements
SQL Server 2008 AnalysisServices R2 (SSAS) mejora considerablemente la velocidad de las consultas con el clculo nuevo bloque, write-back, y compartida escalable caractersticas de rendimiento de base de datos.Tambin mejora la capacidad de gestin con la capacidad de copia de seguridad de bases de datos mucho mayor.
32. Rendimiento de las consultas MDX: Clculo de bloques
Clculo bloque mejorado en SQL Server 2008 R2 velocidades SSAS hasta el procesamiento de consultas MDX principalmente mediante el trabajo slo para los valores no nulos en un espacio del cubo.No se pierde tiempo la evaluacin de clulas nulas.La idea clave detrs de la computacin subespacio es el mejor presentado por contraste con un "ingenuo" clula por clula de evaluacin de un clculo.Considere la posibilidad de un clculo RollingSum que resume las ventas del ao anterior y el ao en curso, y una consulta que pide al RollingSum para el ao 2005 para todos los productos.
33. Data Warehouse 2.0 and SQL Server Architecture and Vision.
34. SQL Server en la evolucin
En un principio, como una base de datos que sirvieron de pequeas cantidades de datos en un ordenador personal con funciones muy bsicas.
ahora est preparado para servir de base para la BD de tamao medio y grandes cantidades de datos para almacenamiento de datos.
Cambio totalmente su arquitectura
se ha convertido en la plataforma de tecnologa preferida para la forma ms avanzada de la arquitectura de almacenamiento de datos - DW 2.0.
almacenamiento de datos como la base de base de datos para almacenes de datos grandes y complejos.
35. Las caracteristicas de DW 2.0
El acceso bsico de datos :
aleatoria y secuencial de E / S
1.-Tranzacciones en lnea
2.-DSS
36. 2.-Un Data Mart Ruta de migracin
Inconvenientes:
No hay una fuente definitiva de los datos corporativos.
Se crea cada puesto de dato a partir de cero.
Fragiles.
SQL Server.
37. 3.-Los costos de almacenamiento de datos
. Los ciclos de procesamiento ms caros son los que se encuentran en las mquinas ms grandes. Cuanto ms la carga de trabajo se puede dividir, el menos costoso de los ciclos de procesamiento de llegar a ser.
38. 4.-Compresin
Necesidad de almacenar y gestionar un gran volumen de datos.
39. 5.-Procesamiento Paralelo
Los datos son almacenados en ms de un dispositivo a fin de que ms de un procesador puede acceder y gestionar los datos, al mismo tiempo.
Si un solo servidor se siente abrumado por su carga de datos, varios servidores pueden ser utilizados al mismo tiempo y la carga de datos se pueden dividir en ms de un servidor.
Tal enfoque se denomina un enfoque paralelo porque los conjuntos de datos son operados en paralelo de forma independiente. Al hacerlo aadiendo ms servidores en paralelo aumenta el rendimiento total que un sistema puede manejar.
40. 6.-Probabilidad de acceso de datos
DW 2.0 insta a la separacin fsica de los datos basados en la probabilidad de que el acceso de los datos.
Los datos menos utilizados que hay en almacenamiento de alto rendimiento, ms eficientes que es encontrar los datos que est siendo buscado en almacenamiento de alto rendimiento
SQL Server permite que los datos se dividen de acuerdo a su probabilidad de acceso. Fsicamente divisin de datos en los diferentes sectores, el rendimiento de los datos es mucho mayor.
41. 7.-Los datos de streaming
SQL Server CAR: Esa capacidad es la habilidad para manejar el flujo de datos.
Hay dos divisiones bsicas de los datos - los datos estticos y los datos transmitidos.
Los datos estticos son los datos que se registra como un subproducto de un acontecimiento que ocurre sobre una base caso-por-evento. El evento que se produce por lo general ocurre de una manera relajada.
Datos transmitidos se diferencia de los datos estticos en que los datos transmitidos se produce y entra en el sistema de base de datos muy rpida y predecible muy.
42. 8.-Datos Histricos Qu significa eso?
As que vamos a llamar a los datos que todava est muy fresco recin creado los datos histricos y vamos a llamar a los datos que es ms antigua que el archivo de datos real.
Muestra que los datos histricos se pueden dividir en dos clases - de nueva creacin y los datos histricos verdaderos datos de archivo.
43. Esta distincin de lo que se entiende por datos histricos necesarios para comprender qu tipo de datos tiene que ser colocado en el sector interactivo.
En DW 2.0 hay un sector de datos llamada el sector interactivo.
El sector interactivo contiene datos recin creado histricos como un conjunto de datos transmitidos, no los datos de archivo.
44.9.-El ajuste entre DW 2.0 y SQL Server
Hay una adecuacin de la arquitectura muy buena entre la arquitectura del futuro del almacenamiento de datos - DW 2.0 - y SQL Server.
45. La necesidad de manejar grandes volmenes de datos .
La necesidad de estar constantemente al tanto de los costes del almacenamiento de datos.
La necesidad de separar interactiva y procesamiento de datos transmitidos desde otras partes de los datos y el procesamiento.
La necesidad de gestionar los datos de forma paralela.
La necesidad de dividir la carga de trabajo a mayor cantidad de componentes ms pequeos como sea posible.
La necesidad de un acceso bsico secuencial de conjuntos de datos.
La necesidad de tener una ruta de migracin racional de los data marts y data warehouses mini a un gran almacn de datos centralizado.
El lugar y la posicin de los datos transmitidos.
La necesidad de datos separadas fsicamente sobre la base de las diferencias en la probabilidad de que el acceso de los datos.