Arquitecturas AvanzadasCurso 10/11

Arquitecturas Avanzadas Curso 10/11

1 INTRODUCCIÓN

2 CONECTIVIDAD

3 MÁQUINAS MIMD

4 MÁQUINAS SIMD

5 AUMENTO DE PRESTACIONES

arqAva Clasificación de Flynn Ampliada Introducción-2

Arquitecturas Paralelas

SISD SIMD MISD MIMD

Multi-procesadores

Multi-computadores

MPP COW

Von Neumann

ProcesadoresVectoriales

Array de Procesadores

Sistólicos

UMA NUMACOMA

Distintas formas de organizar la memoria común

Beowulf

Symetric

Processor

Distributed Shared Memory

arqAva Temario SIMD-3

3 MÁQUINAS SIMD

1 Procesamiento Sistólico1 Introducción2 Metodología3 Ejemplos

2 Procesamiento Vectorial1 Definiciones y tipos de instrucciones2 Memorias entrelazadas3 Funciones vectoriales compuestas4 Encadenamiento Hardware

Bibliografía:“VLSI Array Processors” S.Y. Kung-1988 [119..149]

“Advanded Computer Architecture...” Kai Hwang-1993 [Capítulo 8]

arqAva Sistólicos (Introducción) SIMD-4

INTRODUCCIÓN

• Límites de MIMD para grano fino

• El modelo sistólico

• Ejemplo Vector x Matriz

• Algunos inconvenientes

• Ejemplos de máquinas

arqAva Introducción (Límites de MIMD para grano fino)SIMD-5

Problema: Multiplicar una secuencia muy grande de vectores poruna matriz

• Filtrado de imagen

• Generación de efectos de vídeo

• Conversión, cod/decod de vídeo

• Manipulación de imagen en 3D

• Procesado de imágenes médicas

• Reconocimiento de objetos detectando bordes

• Filtros FIR para sistemas de comunicaciones

Algunasaplicaciones

Problema: Multiplicar una secuencia muy grande de vectores poruna matriz

..... Xi4, ..... X2

4, X14 * A4x4 ==> ..... Yi

4, ..... Y24, Y1

(x1,x2,x3,x4)i *

a11 a12 a13 a14

a21 a22 a23 a24

a31 a32 a33 a34

a41 a42 a43 a44

= (y1,y2,y3,y4)i

x1a11+x2a21+x3a31+x4a41 x1a14+x2a24+x3a34+x4a44

¿Tiempo de cálculo de Yi4 en monoprocesador?

T(*) => 2 T(+) => 1T(Mem <==> Reg) => 1

T(Yi4) = 16*2+12*1+20*1+4*1 = 68

(*) (+) (r) (w)

Paralelización de X4*A4x4 con multiprocesadores

1 3 2 -1xx1 x2 x3 x4

P11 . . P14

. P22 . . . . . .P41 . . P44

3 5 -1 4

2 7 3 -2

4 0 1 5

8 6 9 -3

0 => Cargar coeficientes y

P11 P12 P13 P14

9 20 1 11

y1 y2 y3 y4

2 => 4 P1i suman

Y1 Y2 . . . . . .

3 5 -1 4

6 21 9 -6

8 0 2 10

-8 -6 -9 3

1 => 16 Pij multiplican

¿Cada cuántotiempo obtengo Yi?

-- Código de P1irepeat

-- Multiplicar

-- Sumar

Hagamos los cálculos:repeat

[i,j] := X[i] * A[i,j] -- Los 16 Pij T1

Y[i] := [1,i]+[2,i]+[3,i]+[4,i] -- Los 4 P1i T2

forever

T1 = 1(r) + 2(*) + 1(w) = 4

T2 = 3(r) + 3(+) + 1(w) = 711 ¿SEGURO?

B(SP1i); B(SP1i); B(SP1i);

Subir (SNuevoY);

Bajar (SNuevoX);

¡ Sincronizar !

¿Conflictos de accesos paralelos a datos comunes?

• El tiempo puede dispararse 20 ....Barreras de sincronización Hw.

• ¿Mejorable con multicomputadores?

Paralelización de X4*A4x4 con multicomputadores

1 3 2 -1xx1 x2 x3 x4

3 5 -1 4

2 7 3 -2

4 0 1 5

8 6 9 -3

y 9 20 1 11

y1 y2 y3 y4

3 5 -1 4

2 7 -23

8 6 -39

4 0 51

S=I*A21+N

? ? * + ! !

2 1 9 • ¿Será alcanzable 4?

Sistólicos

D=I¿Flujo E/S?

Xi / Yi

arqAva Introducción (El modelo sistólico) SIMD-10

1978 (H.T. Kung y C.E. Leiserson) Mucho interés en los 80

Objetivo: Aprovechar el alto grado de paralelismo espacial y temporal de algunos algoritmos muy demandados y limitados por cómputo

....X43, X4

2, X41 *

a11 a12 a13 a14

a21 a22 a23 a24

a31 a32 a33 a34

a41 a42 a43 a44

= .... Y43, Y4

2, Y41

8 (E/S) vs 28 (*/+)

Aplicaciones: Computación científica, procesado de señal e imagen,análisis de datos biológicos, criptografía, etc.

Yale, Carnegie Mellon, MIT

Sistólicos: Máquinas paralelas de propósito específico:

• Paralelismo masivo y descentralizado (Pipeline)

• Peso del cómputo mucho mayor que el de E/S

• Comunicaciones locales

Arquitectura regular y modular organizada como una red de un gran número de unidades de proceso idénticas (celdas), conectadas localmente.

Sólo las celdas de los bordes pueden comunicarse con el exterior.

• Modo de operación síncrono

• Factores de posibilidad (VLSI, CAD) y muy escalables

HOSTARQUITECTURA

SISTÓLICA

Trabajos

Resultados

Ejemplos de redes sistólicas

Modo de operación síncrono

t0 t1 t2 t3 t4 ...........

Cada celda siempre hace lo mismo:

• Recibe datos de sus vecinos

• Realiza unos cálculos sencillos

• Transmite resultados a sus vecinosParalelo

• Recibe datos de sus vecinos

• Realiza unos cálculos sencillos

• Transmite resultados a sus vecinos

En cada ciclo (), dos fases:

1 Intercambio de datos 2 Cálculo

arqAva Introducción (Ejemplo Vector * Matriz) SIMD-14

¿Cómo utilizar esta arquitectura para multiplicar Vectores2 * Matriz2x2?

Recordar el intento de paralelización con multicomputadores

DI1 ?I, ?N, !S, !D

2 S = (I*aij)+N, D = I

Propagación de las Xi

a11 a12

Situación justo al

inicio del ciclo

x11a11

a11 a12

x12 x1

x11a11

x12 x1

x12a11

x13 x1

x11a12 x1

x14 x1

x12a12

x14a11

x15 x1

x13a12

x1ia11

x1i+1 x1

x1i-1a12

¿Tiempo de cálculo de Yi4 con este método?

y12 y2

y13 y2

y14 y2

3 y32 y4

y15 y2

4 y33 y4

t4Obtenemos un resultado cada ciclo ()

Transferir datos => 1Multiplicar => 2Sumar => 1

Total => 4 ¿Tiempos creíbles?

Posible aspecto de una celda:

arqAva Introducción (Algunos inconvenientes) SIMD-18

• Dificultad algorítmica (Veremos una sistematización)

• Sincronismo de reloj (Sesgo de reloj | Clock Skew)

¿Soluciones?

Distribuciónregular de Ck

• Frente de Ola | Wave Front

Asíncronos

Flujo de Datos vs Flujo de Control

arqAva Introducción (Ejemplos de máquinas) SIMD-19

• iWarp (1988-1992)

Carnegie Mellon Univ. + Intel Supercomputing System Div.

Todavía la mejor en 1995 para algunas aplicaciones

µP RISC de 32 bits de 96bit LIW a 20MHz

Desde 4 a 1024 celdas. Típico un toro de 8x8 => 64µP

www-2.cs.cmu.edu/~iwarp

“iWarp: Anatomy of a Parallel Computing System” 1998

• SAMBA (1993-1995) www.irisa.fr/SAMBA

Systolic Accelerator for Molecular Biological Applications

Laboratorio IRISA de Rennes

1994 => Chips con 4µP de 100MIPS (12bits) (Total 128µP)

1998 => “Speeding up genome computations with a systolic accelerator”

Estudio genético => 41’ en SAMBA y 127,5h en una WorkStation

1998 => Chips con 16..20µP más MIPS => Todo en una tarjeta PCI

GeneMatcher2:

192 P SIMD

Empresa comprada en junio 2000

por Celera Genomics Group.

www.celera.com

• … GeneMatcher2 … 2004]

www.paracel.com

Sistema de análisis de similitud de secuencias genéticas.

Acelerador => 3.072..221.184 P

• Procesador CSX700 [Hoy]

www.clearspeed.com

“Convierta su PC en un supercomputador”

96 GFlops y < 9 W

#9 Top500 11/06TSUBAMEGrid Cluster

#29 Top500 11/08#56 Top500 11/09

+ GPU’s

• DeCypher Engine G4 => SeqCruncher [Hoy]

www.timelogic.com

128 Xeon

• Cell [Hoy] www.blachford.info/computer/Cell/Cell0_v2.html

• GPU’s[Hoy] www.nVidia.com

Tesla C1060

Tesla S1070

TSUBAME

arqAva Vectoriales (Definiciones) SIMD-26

DEFINICIONES

Vector: Conjunto ordenado de unidades de datos escalares de un mismo tipo

Vectorización

Conversión de código escalar a vectorial

Proporción de vectorización

Grado de vectorización alcanzado

Compilador vectorial

Traductor diseñado para vectorizar código

Procesador vectorial: Conjunto de elementos hardware diseñado para procesar vectores

• Un resultado por ciclo

• Menor overhead control bucle por software

• Menos conflictos de accesos a memoria

Vector: Conjunto ordenado de unidades de datos escalares de un mismo tipo

short V1[5]; long V2[5]; tPersona V3[5];

V1[0]$1000

V1[2]V1[1]

V1[3]V1[4]

V2[0]$1000

$1002$1004

$1010Stride 2

Stride 4

V4[0]$1000

¿Vector V4?

Stride 4

Stride

tsize(tipo)

¿Utilidad?

arqAva Tipo / Fuentes (Control, Datos, Flujo) Introducción-28

• PARALELISMO DE DATOS (Espacial)

– Operaciones sobre datos regulares (vectores) aplicando la misma operación sobre cada elemento

En los procesadores vectoriales hay poca replicación hardware (pocas unidades de proceso que sumen). En su lugar, se apoyan

en una especialización mediante pipeline.

2 1 3 1 4 5 7 8

3 4 6 1 0 2 1 1

5 5 9 2 4 7 8 9

+ + + + + + + +

Suma de Vectores, etc.

¡LIMITACIONES!

Más datos que U.P.

Operaciones escalares

2 1 3 1 4 5 7 8

3 4 6 1 0 2 1 1 5 5 9 2 4 7 8 9

Unidad FuncionalAritmética Segmentada

4 Etapas: Sumar ExponentesMultiplicar MantisasNormalizarRedondear

Un resultado por ciclo

Registros Vectoriales

TIPOS DE INSTRUCCIONES VECTORIALES

S x Vk Vi

Escalar-Vector Vi

Memoria-Vector, Vector-Memoria

VMemoria

arqAva Vectoriales (Tipos de instrucciones) SIMD-30

Vector-VectorVi Vj

Vj x Vk Vi

Unidad funcional segmentada

Vector reducciónVi S , Vj x Vk S S

Compresión (gather recoger)M Vj x Vk

56 200

memoriaVk

¿Utilidad?

Expansión (scatter esparcir)

200130

xx 200

etc.Vj Vk

memoriaVj x Vk M

MPI_ScatterMPI_GatherMPI_Reduce

Máscara (masking)

VkVk x Vm Vi

1011001......6

VM ¿Utilidad?

¿Utilidad VM?

arqAva Vectoriales (Memorias entrelazadas) SIMD-34

¿Memoria multipuerto?

Vectorial

¿Un único pipe? Vectorial

Patrón de acceso a MP

¡ Demasiado secuencial !

Acceso a bloques:• Instrucciones• Arrays• Líneas de caché

¿ Acceso paralelo al vector V[16] ?

M0 M1 M7

V[0] V[1] V[7]

V[8] V[9]

palabra módulon 3 Entrelazado

ordeninferior

¿Cuántos bancos?

Para acceder a un vector en memoria (longElemento = palabra):

DirInicio, NumElementos, Stride (Separación entre elementos)

Entrelazado de orden inferior: Acceso Concurrente

Memoria de 2a+b palabras, # de módulos: m=2a, Palabras por módulo: w=2b

palabra módulo

aDirección de memoria

m(w-1)

m(w-1)+1

decodificador

Módulos

Tiempo

t de acceso () t de transmisión ()

Stride=1 ¿Stride=2? Pérdida de eficiencia

¿Stride = 3? Sin pérdida de eficiencia

t total de un vector grande (m)

¡ Ojo al ubicar matrices en memoria !

m(w-1)

m(w-1)+1

módulopalabra

bDirección de memoria

Multiplexador

Ciclo debúsqueda

Ciclo deacceso

Entrelazado de orden inferior: Acceso Simultáneo

Memoria de 2a+b palabras, # de módulos: m=2a, Palabras por módulo: w=2b

Módulos

Tiempo

‘m’ palabras (8)

Ciclo de búsqueda

Ciclo de acceso

Pérdida de eficiencia para Stride 1

arqAva Vectoriales (Funciones vectoriales compuestas)SIMD-39

FUNCIONES VECTORIALES COMPUESTAS

BUCLE I=1 HASTA 100

CARGA R1,X(I)

CARGA R2,Y(I)

MULTIPLICA R1,S

SUMA R2,R1

ALMACENA Y(I), R2

FIN BUCLE

Carga de Vector

Escalar x Vector

Carga de Vector

Suma vectorial

Almacenamiento de Vector

Y(I) = S * X(I) + Y(I)

Vectorización

IV1: CARGA VECTOR

IV2: CARGA VECTOR

IV3: MULTIPLICA VECTOR x ESCALAR

IV4: SUMA VECTOR, VECTOR

IV5: ALMACENA VECTOR

Si disponemos de2 U.F. (*,+)

¿Ociosa siempre una?

arqAva Vectoriales (Encadenamiento hardware) SIMD-40

ENCADENAMIENTO HARDWARE

S * X(I) + Y(I)Una vez extraídos X e Y, hay que realizar 2 operaciones vectoriales

Vector intermedioVector intermedio

SumadorMultiplicador

Etapa de procesamiento

Y(I) = S * X(I) + Y(I) Conflicto en los 3 accesos a memoria

Cuantos más pipelines de acceso a memoria tengamos, mejor podremos encadenar los procesamientos vectoriales

123456

654321

Y(I) = S * X(I) + Y(I)

Conflicto en los 3 accesos a memoria

Disponiendo de un solo pipeline para acceso a memoria (Cray I):

memoria Vy

Carga de memoria

Carga de Y Etapa 1

memoriaV4

Almacenamiento en memoria

Almacenamiento de Y Etapa 3

memoria

Carga de memoria

Carga de X

Etapa 2

Y(I) = S * X(I) + Y(I) Conflicto en los 3 accesos a memoria

Disponiendo de tres pipelines para acceso a memoria (Cray X-MP):

Encadenamiento completo

memoria

Carga de memoria

Carga de Y

memoriaV4 Almacenamiento

en memoria

Almacenamiento de Y

memoria

Carga de memoria

Carga de X

Carga X

Carga Y

Almacena YV + Y

Carga Y

Carga X

Almacena YV + Y

Carga X

Carga YS * X

Almacena YV + Y

Eficiencia sin utilizar encadenamiento:

Eficiencia utilizando encadenamiento con un solo pipe de acceso a memoria:

Eficiencia utilizando encadenamiento con 3 pipes de acceso a memoria:

Limitaciones:

# Unidades Funcionales

# Registros Vectoriales

Cray Y-MP 1988

8 registros de64 elementos

Fujitsu VP200 1988

Fichero registros 64K: 8 x 1024 16 x 512 32 x 256 64 x 128128 x 64256 x 32

Earth Simulator 2001

72 registros de256 elementos

+ 17 registros máscara

FIN64 bits 128 bits

Arquitecturas AvanzadasCurso 10/11

Documents

Transcript of Arquitecturas AvanzadasCurso 10/11

Arquitecturas que crecen y arquitecturas que no

Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5AUMENTO DE PRESTACIONES Horas 5 6 7 2 3.

Arquitecturas Minimas

Tema02 - Arquitecturas de redes · 2019. 11. 12. · 1 1 ASIR PLANIFICACIÓN Y ADMINISTRACIÓN DE REDES TEMA 2 ARQUITECTURAS DE REDES 2 ÍNDICE 2.1. Introducción. 2.2. Problemas

Arquitecturas de juego.pdf

Arquitecturas Excavadas

ARQUITECTURAS MIMD

Arquitecturas Escalables

ARQUITECTURAS DE TI.ppsx

Arquitecturas ti

Otras Arquitecturas y metodologías SOA · 2018-12-11 · Otras Arquitecturas y metodologías SOA Pablo García Sánchez pgarcia@atc.ugr.es Departamento de Arquitectura y Tecnología

Arquitecturas 0708

TEMA 1. Introducción a las arquitecturas distribuidasocw.bib.upct.es/.../content/1/Tema_1_-_Intro-_conceptos_basicos.pdf · Arquitecturas Distribuidas-10/11 4 ... presenta su funcionalidad

Arquitecturas de red

Arquitecturas Multiprocesadores

Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4.

Arquitecturas Paralelas

Arquitecturas evolutivas

Arquitecturas de red Arquitecturas de red

Arquitecturas SIMD