| Apell                                                                                                              | idos                          |                                                                                                                                                                          |                                                                                                                                                                                                                                                                                                                                                                                                                                   | N                                       | lomb                                   | ore                                                                                                                                                                                                            | Grupo:                                                                                                                                 |
|--------------------------------------------------------------------------------------------------------------------|-------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------|----------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|
|                                                                                                                    |                               | Arquitectura e li                                                                                                                                                        | ngeniería de Compu                                                                                                                                                                                                                                                                                                                                                                                                                | ıtador                                  | es. E                                  | Examen Parcial. 7/0                                                                                                                                                                                            | 2/2012                                                                                                                                 |
| es cie<br>consid<br>expliq                                                                                         | rta ma<br>lera q<br>ue sus    | irque con un aspa la casilla de la colui                                                                                                                                 | mna " <b>C</b> "; por el contario, s<br>por tanto, podría conside<br>e permite la utilización de                                                                                                                                                                                                                                                                                                                                  | i consid<br>rarse c<br>calcula          | era qu<br>ierta d<br>dora.             | ue es falsa marque con u<br>o falsa en función de la                                                                                                                                                           | falsa. Si considera que la afirmación n aspa la casilla de la columna " <b>F</b> ". Si interpretación, ponga una llamada y : 0 puntos. |
| _                                                                                                                  |                               |                                                                                                                                                                          |                                                                                                                                                                                                                                                                                                                                                                                                                                   | _                                       | _                                      |                                                                                                                                                                                                                |                                                                                                                                        |
| de 64<br>descr<br>casos<br>arrays                                                                                  | byte<br>iben<br>los<br>s se   | amos una Mc de datos directa de<br>es. En este sistema ejecutamos<br>a continuación, teniendo en cue<br>elementos de los vectores son pa<br>almacenan en memoria por fil | los programas que se<br>inta que en todos los<br>labras de 64 bits y los<br>as. Determine si los                                                                                                                                                                                                                                                                                                                                  | ☒                                       |                                        |                                                                                                                                                                                                                | ciones de salto que ejecuta el típico de un programa de Punto                                                                          |
| C<br>×                                                                                                             | F 🗆                           | a) Al ejecutar el siguiente código: double A[1024]; double B[1024]; for (i = 0; i < 1024; i : C = C + (A[i] + B[i]);                                                     |                                                                                                                                                                                                                                                                                                                                                                                                                                   | de T<br>instr<br>regis<br>para<br>reore | omas<br>uccio<br>stros<br>sum<br>denar | Ejecución que utiliza el algoritmo para la planificación dinámica de có en clase. La máquina tiene 32 rs, 8 estaciones de reserva (ER) ltiplicación/división y un buffer de entradas. Marque si las siguientes |                                                                                                                                        |
| _                                                                                                                  |                               | Se producen 2048 fallos en Mc d                                                                                                                                          |                                                                                                                                                                                                                                                                                                                                                                                                                                   | C                                       | F                                      | nes son ciertas o falsa                                                                                                                                                                                        | 3.                                                                                                                                     |
|                                                                                                                    | X                             | b) Al ejecutar el siguiente código:<br>struct fusion{<br>double A;<br>double B;                                                                                          |                                                                                                                                                                                                                                                                                                                                                                                                                                   |                                         | X                                      | b) La anchura mínim es 5 bits.                                                                                                                                                                                 | entana de instrucciones es 28. na del campo "Destino" de las ER el ROB está compuesta por los                                          |
|                                                                                                                    |                               | <pre>} array[1024]; for (i = 0; i &lt; 1024; i =    C = C + (array[i].A + a Se producen 512 fallos en Mc de</pre>                                                        | array[i].B);                                                                                                                                                                                                                                                                                                                                                                                                                      |                                         | $\boxtimes$                            | campos (TAG, VAL<br>LISTO).<br>d) En esta arqu                                                                                                                                                                 | OR, TIPO_DE_INSTRUCCION, itectura no pueden aparecer                                                                                   |
| X                                                                                                                  |                               | c) Al ejecutar el siguiente código:<br>double A[1032];<br>double B[1024];<br>for (i=0; i < 1024; i=i+:                                                                   |                                                                                                                                                                                                                                                                                                                                                                                                                                   | X                                       |                                        | instrucciones tipo<br>finalización (commit)<br>e) Siempre que una                                                                                                                                              | instrucción de la forma                                                                                                                |
|                                                                                                                    | X                             | <pre>C = C + (A[i] + B[i]); Se producen 256 fallos iniciales e d) Al ejecutar el siguiente código double A[32][32];</pre>                                                |                                                                                                                                                                                                                                                                                                                                                                                                                                   |                                         |                                        | guarda en F2.                                                                                                                                                                                                  | mit, el resultado de la suma se                                                                                                        |
| <pre>for (i=0; i &lt; 32;i=i+1)   for (j=0; j &lt; 32;j=j+1)   {     C = C * A[i][j];     D = D + A[i][j]; }</pre> |                               | s en Mc de datos.                                                                                                                                                        | 4. En un DLX se ejecuta un programa P que consta de 10 <sup>11</sup> instrucciones. El 40% de las instrucciones son de punto flotante y el resto son enteras. Las instrucciones en punto flotante tiener una penalización media por instrucción de 2,5 ciclos, mientras que las enteras tienen un CPI igual a 1. Suponiendo que la frecuencia de reloj es de 500 MHz, marque si las siguientes afirmaciones son ciertas o falsas. |                                         |                                        |                                                                                                                                                                                                                |                                                                                                                                        |
| X                                                                                                                  |                               | e) Si duplicamos el tamaño de la                                                                                                                                         |                                                                                                                                                                                                                                                                                                                                                                                                                                   | С                                       | F                                      |                                                                                                                                                                                                                |                                                                                                                                        |
|                                                                                                                    |                               | número de fallos iniciales en la N ejecutar el código del apartado d constante.                                                                                          |                                                                                                                                                                                                                                                                                                                                                                                                                                   | □                                       | $\boxtimes$                            |                                                                                                                                                                                                                | la frecuencia de reloj, el<br>S se multiplica por 1,2<br>programa es 2                                                                 |
|                                                                                                                    |                               | gamos un DLX con planifica<br>es, segmentado en 7 etapas (IF1                                                                                                            |                                                                                                                                                                                                                                                                                                                                                                                                                                   | ×                                       |                                        | segundos                                                                                                                                                                                                       | ejecución del programa es 40                                                                                                           |
| ME2,<br>instru<br>trabaj<br>instru                                                                                 | WB)<br>ccion<br>o es<br>ccion | que implementa una política de si<br>es de salto se resuelven en la etá<br>constituida por los programas<br>es de salto que cada programa                                | altos retardados. Las<br>apa DE. La carga de<br>A, B y C. El % de<br>ejecuta es A=10%,                                                                                                                                                                                                                                                                                                                                            |                                         | X                                      | ejecutar las instrucc                                                                                                                                                                                          | una cierta mejora que permite<br>ciones en punto flotante el doble<br>de alcanza un Speedup de 1,25.                                   |
| provo<br>"delay                                                                                                    | can p                         | C=5%. Se supone que las deporadas. La capacidad del compila s' viene dada por la siguiente tabla de los de instrucciones // % de i                                       | ador para rellenar los                                                                                                                                                                                                                                                                                                                                                                                                            |                                         |                                        | e si las siguientes afirm<br>iding (MT) son ciertas                                                                                                                                                            | naciones sobre procesadores con o falsas:                                                                                              |
|                                                                                                                    |                               | ejecutadas en "delay slots" que realizan trabajo útil                                                                                                                    | adas en "delay<br>que son NOPs                                                                                                                                                                                                                                                                                                                                                                                                    | ⊠<br>□                                  | □<br>⊠                                 | instrucciones de cad<br>b) Sea un procesa                                                                                                                                                                      | dores con MT en los que las la thread se ejecutan en orden. ador con MT simultáneo de 2                                                |
|                                                                                                                    | <u>А</u><br>В                 | 50<br>20                                                                                                                                                                 | 10                                                                                                                                                                                                                                                                                                                                                                                                                                |                                         |                                        |                                                                                                                                                                                                                | se puede afirmar que el a ejecución una instrucción de                                                                                 |
| Marqı<br><b>C</b>                                                                                                  | F                             | 60<br>las siguientes afirmaciones son ci                                                                                                                                 |                                                                                                                                                                                                                                                                                                                                                                                                                                   |                                         | X                                      | cada thread en cada c) En un procesad                                                                                                                                                                          |                                                                                                                                        |
| X                                                                                                                  |                               | a) En el programa A el 60% de jecutadas en "delay slots" so                                                                                                              | n instrucciones del                                                                                                                                                                                                                                                                                                                                                                                                               | _                                       | _                                      | operativo se encarga suspendido.                                                                                                                                                                               | a de salvar el contexto del thread                                                                                                     |
| X                                                                                                                  |                               | programa que el compilador ha l<br>los "delay slots".<br>b) La penalización media por                                                                                    | •                                                                                                                                                                                                                                                                                                                                                                                                                                 | ⊠                                       |                                        | thread en cada ciclo<br>e) En los procesado                                                                                                                                                                    | ores con MT, normalmente cada                                                                                                          |
|                                                                                                                    | X                             | programa A es 1 ciclo. c) La penalización media por programa B es 0,16 ciclos.                                                                                           | instrucción en el                                                                                                                                                                                                                                                                                                                                                                                                                 |                                         |                                        | thread tiene su instrucciones.                                                                                                                                                                                 | propia memoria cache de                                                                                                                |

## Arquitectura e Ingeniería de Computadores. Examen Parcial (Problemas). 7/02/2012

| ombreGrupo |
|------------|
|------------|

- **1)** Sea un procesador segmentado con planificación dinámica mediante el algoritmo de Tomasulo sin especulación. El procesador tiene las siguientes características:
- Los datos que se escriben en la etapa de escritura no se pueden usar en la etapa de ejecución de una instrucción dependiente hasta el ciclo siguiente.
- Las instrucciones de load y store tienen ambas una latencia de 2 ciclos y utilizan una unidad funcional común para su ejecución.
- Existe un único bus común de datos (CDB).
- Se dispone de las siguientes unidades funcionales, estaciones de reserva, buffers de load (LB) y buffers de store (SB):

| UF         | Cantidad | Latencia | Segmentación |
|------------|----------|----------|--------------|
| FP ADDD    | 1        | 3        | Sí           |
| FP MULD    | 1        | 6        | Sí           |
| FP DIVD    | 1        | 8        | No           |
| LOAD/STORE | 1        | 2        | Sí           |
| INT ALU    | 1        | 1        | No           |

| Estaciones de reserva /LB /SB | Cantidad |
|-------------------------------|----------|
| FP ADDD                       | 2        |
| FP MULD                       | 1        |
| FP DIVD                       | 2        |
| LOAD                          | 1        |
| STORE                         | 1        |

a) Para el siguiente código mostrar en qué ciclo o ciclos se llevan a cabo cada una de las tres fases del algoritmo de Tomasulo para cada instrucción, indicando también en cada caso el tipo de parada que se produce. (1.5 ptos)

|    | Instrucción            | ISSUE | EJECUCIÓN | ESCRITURA |
|----|------------------------|-------|-----------|-----------|
| 1  | <b>MULD F2,F8,F6</b>   |       |           |           |
| 2  | ADDD F8,F0,F6          |       |           |           |
| 3  | ADDD F6,F2,F4          |       |           |           |
| 4  | LD F2, 0(R3)           |       |           |           |
| 5  | <b>DIVD F0, F4, F8</b> |       |           |           |
| 6  | ADDD F2,F2,F8          |       |           |           |
| 7  | <b>MULD F6,F6,F8</b>   |       |           |           |
| 8  | SD 0(R3),F2            |       |           |           |
| 9  | DIVD F4,F8,F2          |       |           |           |
| 10 | ADDD F8,F2,F2          |       |           |           |

- b) Indicar el estado de las estaciones de reserva, buffers de loads, buffers de stores y banco de registros en punto flotante al final del ciclo 10. **(0.5 ptos)**
- **2)** Supongamos un procesador con predicción dinámica de saltos que usa un predictor competitivo (Tournament Predictor) como el del Alpha 21264. Supongamos un programa que posee dos únicas instrucciones de salto con la siguiente estructura:

Inst1
loop: Inst2
Inst3
Inst4
BEQ R1, loop
Inst6
Inst7
BNE R2, loop

donde Insti representa una instrucción que no es de salto. Supongamos que la instrucción BEQ se ha ejecutado 1000 veces con el siguiente comportamiento: T-T-NT-NT-T-NT-NT-NT-NT-.....El comportamiento de la instrucción BNE es que se toma siempre.

- a) Determinar qué entradas de la Tabla de Predicción Local han sido accedidas como consecuencia de las 100 últimas ejecuciones de la instrucción BEQ y determinar cuál es el contenido de dichas entradas al final de las 1000 ejecuciones. (1 pto)
- b) Si la instrucción BEQ se ejecuta 1000 veces más, siguiendo el mismo patrón de comportamiento, ¿cuántos fallos de predicción se producen en estas 1000 ejecuciones? (0.5 ptos)
- **3)** Sea un procesador de 16 bits con una memoria direccionable en bytes que dispone de una memoria cache de 4 KB, con organización directa, líneas de 512 bytes y que realiza precarga del bloque siguiente en caso de fallo.

Suponiendo la siguiente secuencia de accesos a memoria principal: 25AFh, 3601h, 4E11h, 38AAh, 5100h, 427Ah, mostrar el contenido del directorio cache. Indicar con el símbolo "-" un fallo, con un "+" un acierto y con "\*" una precarga. **(1.5 ptos)** 

## Solución

1)

a)

|    | Instrucción            | ISSUE | <b>EJECUCIÓN</b>     | <b>ESCRITURA</b> |
|----|------------------------|-------|----------------------|------------------|
| 1  | MULD F2,F8,F6          | 1     | 2-7                  | 8                |
| 2  | ADDD F8,F0,F6          | 2     | 3-5                  | 6                |
| 3  | ADDD F6,F2,F4          | 3     | 9-11 <sup>LDE</sup>  | 12               |
| 4  | LD F2, 0(R3)           | 4     | 5-6                  | 7                |
| 5  | <b>DIVD F0, F4, F8</b> | 5     | 7-14 <sup>LDE</sup>  | 15               |
| 6  | ADDD F2,F2,F8          | 7 EST | 8-10                 | 11               |
| 7  | MULD F6,F6,F8          | 9 EST | 13-18 <sup>LDE</sup> | 19               |
| 8  | SD 0(R3),F2            | 10    | 12-13 <sup>LDE</sup> | -                |
| 9  | DIVD F4,F8,F2          | 11    | 15-22 <sup>EST</sup> | 23               |
| 10 | ADDD F8,F2,F2          | 12    | 13-15                | 16               |

b)

|       | Op       | Busy | Vj   | Vk   | Qj    | Qk |
|-------|----------|------|------|------|-------|----|
| Suma1 | Suma     | Sí   | [F2] | [F8] | 0     | 0  |
| Suma2 | Suma     | Sí   | [F2] | [F4] | 0     | 0  |
| Mul1  | Mul      | Sí   |      | [F8] | Suma2 | 0  |
| Div1  | División | Sí   | [F4] | [F8] | 0     | 0  |
| Div2  |          | No   |      |      |       |    |

|        | Busy | Dir. | Qi    |
|--------|------|------|-------|
| Store1 | Sí   | 0+R3 | Suma1 |

|       | Busy | Dir. |
|-------|------|------|
| Load1 | No   |      |

|    | F0   | F2               | F4 | F6    | F8    |
|----|------|------------------|----|-------|-------|
| UF | Div1 | Mul1             |    | Suma2 | Suma1 |
|    |      | <del>Load1</del> |    | Mul1  |       |
|    |      | Suma1            |    |       |       |

## 2)

a) Las posiciones modificadas en la Tabla de predicción local como consecuencia de las últimas 100 ejecuciones (de la 901 a la 1000) son las siguientes (se indexan de acuerdo a los 10 bits que marcan el comportamiento del salto en sus 10 ejecuciones inmediatamente anteriores:

Posición 204 (0011001100) Posición 409 (0110011001) Posición 819 (1100110011) Posición 614 (1001100110)

El contenido de las posiciones 204 y 409 es 111, mientras que el de las posiciones 819 y 614 es 000

Cuando se accede a las posiciones 819 y 614 el salto es siempre no tomado, por lo que después de 1000 ejecuciones, e independientemente de cuál era el contenido inicial de la tabla, los bits de predicción en ambas entradas saturarán a cero (000).

Cuando se accede a las posiciones 204 y 409 el salto es siempre tomado, por lo que después de 1000 ejecuciones, e independientemente de cuál era el contenido inicial de la tabla, los bits de predicción en ambas entradas saturarán a siete (111).

b) El predictor acertará siempre en cada una de las iteraciones, por lo que el número de fallos será 0.

## 3)

El número de bloques que caben el cache es: (Tamaño de la cache)/(Tamaño de línea) =  $(2^{12} / 2^9) = 8$ , por lo que se necesitan 3 bits de la dirección para expresar el índice de cache.

Como el tamaño de línea es de 512 B, necesitamos 9 bits de la dirección como selector del byte. Los 16 - (3+9) bits restantes de la dirección (4) se corresponden con el tag. Por tanto:

Bits  $0-8 \rightarrow$  selector de byte

Bits 9-11 → índice de cache

Bits  $12-15 \rightarrow tag$ 

|   | 25AF | 3601 | 4E11 | 38AA | 5100 | 427A |
|---|------|------|------|------|------|------|
| 0 |      |      | 5*   | 5    | 5+   | 5    |
| 1 |      |      |      |      |      | 4-   |
| 2 | 2-   | 2    | 2    | 2    | 2    | 4*   |
| 3 | 2*   | 3-   | 3    | 3    | 3    | 3    |
| 4 |      | 3*   | 3    | 3+   | 3    | 3    |
| 5 |      |      |      |      |      |      |
| 6 |      |      |      |      |      |      |
| 7 |      |      | 4-   | 4    | 4    | 4    |