Сравнение процессоров haswell, broadwell и skylake

Если подумать, то выглядит это слегка ненормально.

Кроме того, это делает возможным то, чего так долго ждали любители технических новинок – речь идет о MacBook Air с Retina-дисплеем. Мы надеялись увидеть данную версию Air с высоким разрешением еще в рамках обновления аппаратного обеспечения на конференции I/O 2014, однако все, что нам было там представлено – это MacBook с незначительным обновлением процессора. То есть менять модель 2013 года особо не на что.

Причина, по которой появление Broadwell так важно, проста: появится дополнительное пространство, и тонкие ноутбуки можно будет оснащать экранами с высокой разрешающей способностью

Преимущества процессора Haswell

Haswell – поколение Intel Core, имеющее довольно много противников. Они находят в нем недостатки, такие как завышенная цена или необходимость слишком часто обновлять платформу. Однако у данного оборудования есть ряд плюсов. Это и высокие эффективность и производительность, и функциональная платформа и др.

  • Главный же плюс, которым обладает процессор – интегрированное ядро графики. Оно стало конкурентоспособным. Появилась возможность поддержки нескольких мониторов и значительный прирост производительности;
  • Устройство обладает повышенной эффективностью по энергопотреблению. По сравнению с прошлыми версиями удалось снизить его на 5 Ватт в режиме бездействия. Это не столь большая разница для настольного ПК, но значительная, если Вы выбираете ноутбук или ультрабук. Потребление электроэнергии под нагрузкой низкое;
  • Производительность повысилась на 5 – 10 % в сравнении с прошлыми поколениями. Отличается в зависимости от условий теста. В отдельных случаях может быть выше или ниже. Разница не столь значительная, чтобы проводить апгрейд существующей системы предыдущего поколения, однако значительная, если Вы выбираете процессор haswell взамен значительно устаревшего;
  • Система разгона процессора через базовую частоту стала более гибкой. Тем самым разработчики ответили на претензии пользователей предыдущих версий устройств.

ПОСМОТРЕТЬ ВИДЕО

Core[edit]

Front-endedit

The front-end is the complicated part of the microarchitecture as it deals with variable length x86 instructions ranging from 1 to 15 bytes. The main goal here is to fetch and decode correctly the next set of instructions. The caches have not changed in Haswell from Ivy Bridge, with the L1i$ still 32KB , 8-way set associative shared dynamically by the two threads. Instruction cache instruction fetching remains 16B/cycle. TLB is also still 128-entries, 4-way for 4KB pages and 8-entries, fully associative for 2MB page mode. The fetched instructions are then moved on to an instruction queue which has 40 entries, 20 for each thread. Haswell continued to improve the branch misses although the exact details have not been made public.

Haswell has the same µOps cache as Ivy Bridge — 1,536 entries organized in 32 sets of 8 cache lines with 6 µOps each. Hits can yield up to 4-µOps/cycle. The cache supports microcoded instructions (being pointers to ROM entries). Cache is shared by the two threads.

Following the instruction queue, instructions are coded via the complex 4-way decoder. The decoder has 3 simple decoders and 1 complex decoder. In total, they are capable of emitting 3 single fused µOps and an additional 1-4 fused µOps. The unit handles both micro and macro fusions. Macro-fusion as a result of compatible adjacent µOps may be merged into a single µOp. Push and pops as well as call and return are also handled at this stage. 4 instructions, but with the aid of the macro-fusion, up to 5 instructions can be decoded each cycle.

Execution engineedit

Continuing with the decoder is the register renaming stage. This is crucial for out-of-order execution. In this stage the architectural x86 registers get mapped into one of the many physical registers. The integer physical register file (PRF) has been enlarged by 8 addition registers for a total 168. Likewise the FP PRF was extended by 24 registers bringing it too to 168 registers. The larger increase in the FP PRF is likely to accommodate the new AVX2 extension. The ROB in Haswell has been increased to 192 entries (from 168 in Ivy) where each entry corresponds to a single µOp. The ROB is fixed split between the two threads. Additional scheduler resources get allocated as well — this includes stores, loads, and branch buffer entries. Note that due to how dependencies are handled, there may be more or less µOps than what was fed in. For the most part, the renamer is unified and deals with both integers and vectors. Resources, however, are partitioned between the two threads. Finally, as a last step, the µOps are matched with a port depending on their intended execution purpose. Up to 4 fused µOps may be renamed and handled per thread per cycle. Both the load and store in-flight units were increased to 72 and 42 entries respectively.

Haswell continues to use a unified scheduler for all µOps which holds 60 entries. µOps at this stage sit idle until they are cleared to be executed via their assigned dispatch port. µOps may be held due to resource unavailability.

Following a successful execution, µOps retire at a rate of up to 4 fused µOps/cycle. Retirement is once again in-order and frees up any reserved resource (ROB entries, PRFs entries, and various other buffers).

Execution Unitsedit

Some of the biggest architectural changes were done in the area of the execution units. Haswell widened the scheduler by two ports — one new integer dispatch port and a new memory port bringing the total to 8 µOps/cycle. The various ports have also been rebalanced. The new port 6 adds another Integer ALU designs to improve integer workloads freeing up Port 0 and 1 for vector works. It also adds a second branch unit to lower the congestion for Port 0. The second port that was added, Port 7 adds a new AGU. This is largely due to the improvements for AVX2 that roughly doubled its throughput. Port 0 had its ALU/Mul/shifter extended to 256-bits; same is true for the vector ALU on port 1 and the ALU/shuffle on port 5. Additionally a 256-bit FMA unit were added to both port 0 and port 1. The change makes it possible for FMAs and FMULs to issue on both ports. In theory, Haswell can peak at over double the performance of Sandy Bridge, with 16 double / 32 single precision FLOP/cycle + Integer ALU option + Vector operation.

The scheduler dispatches up to 8 ready µOps/cycle in FIFO order through the dispatch ports. µOps involving computational operations are sent to ports 0, 1, 5, and 6 to the appropriate unit. Likewise ports 2, 3, 4 and 7 are used for load/store and address calculations.

Особенности архитектуры[]

  • Конструктивное исполнение LGA 1150 (Socket H3)
  • Базовое количество ядер — 2 или 4
  • Полностью новый дизайн кэша
  • Улучшенные механизмы энергосбережения
  • Поддержка технологии Thunderbolt
  • Интегрированный векторный сопроцессор
  • Добавление инструкций AVX 2; FMA (Fused Multiply Add); битовых инструкций BMI1 и BMI2
  • Расширение команд TSX (Шаблон:Нп3) для аппаратной поддержки транзакционной памяти (кроме процессоров с индексом K). В начале августа 2014 один из разработчиков обнаружил неправильную работу инструкций TSX, что Intel впоследствии подтвердила собственными тестами и выпустила новый микрокод, который полностью отключает новый набор команд. К „дефектным“ процессорам относятся все модели Haswell и Haswell-E.
  • Память eDRAM объёмом 64 Мбайт (по некоторым сведениям — 128 МБ) как отдельный кристалл, но в общей упаковке — только в процессорах для BGA, например Core i7-4770R
  • Энергопотребление на 30 % ниже по сравнению с аналогами из линейки Sandy Bridge; в некоторых режимах — в 20 раз ниже.

В чипе реализована возможность одновременной работы с четырьмя операндами, позволяющая за одну инструкцию совершать сразу две операции умножения и сложения либо вычитания.

Процессоры, построенные на архитектуре Haswell имеют дополнительный интегрированный регулятор напряжений (VRM, FIVR), выполненный в виде отдельного кристалла под общей теплораспределительной крышкой. FIVR имеет размеры около 13×8 мм и изготовлен по 90 нм процессу.

Clock domains[edit]

Overclockingedit

See also: Intel’s XMP

Warning: Overclocking can result in better performance for many types of workloads but it does so by pushing the system beyond its rated specifications. This can reduce the life of the chip, affect system data integrity, reduce system stability, and cause system components to fail.

Overclocking needs to be done on an unlocked part such as the Core i7-5820K, Core i7-5930K, or Core i7-5960X Extreme Edition. Additionally those chips need to be paired with the Intel X99 Chipset.

The 5930K and the 5820K are hexa-core parts whereas the 5960X is an octa-core part. Between 28 and 40 PCIe lanes are possible with a core ratio of up to x80 the BCLK.

Haswell provides a Coarsed BCLK ratios of either 100 MHz, 125 MHz, or 167 MHz (this was consequently changed in ). The clock is generated internally by the chipset, but motherboard ODMs could generate it independently. A single BCLK from the PCH is fed in < 1 MHz steps, however in practice the input is very much limited by PCI Express and DMI PLL interface. This works out to 100 MHz ± 5-7% PEG/DMI @ 5:5, 125 MHz ±5-7% PEG/DMI @ 5:4, and 166.66 MHz ±5-7% @ 5:3.

  • fCORE = BCLK ×
  • fRING = BCLK ×
  • FDDR = BCLK × [1.33/1.00] ×

All the clock domains in Haswell are derived from the BCLK (also called DMICLK). In the diagram on the right (xC) refers to the Core Frequency and is represented as a multiple of BCLK (Core Frequency = BCLK × Core Freq Multiplier up to x80). Likewise (xM) refers to the memory ratio (up to 2667 MT/s in granularity operations of 200 and 266 MHz) and Two additional multipliers to adjust the PEG(PCIe & Graphics)/DMI links which should remain at a nominal frequency of 100 MHz.

Voltage control is done by Haswell’s new FIVER (Full Integrated Voltage Regulator) based architecture. This means that voltage arrives via the VCCin input from the motherboard into the processor and onto the voltage regulator (VCCin = SVID 1.8 V Nom up to 2.3 V+). Internally, the various voltage planes are all derived from there. This includes the VCORE, VRING, and VSA. With the memory voltage (VDDQ = 1.2 V Nom) provided from the motherboard with to its own rail.

Когда выйдет Broadwell?

Мы запросили у Intel информацию о том, когда же выйдут процессоры Broadwell. О точной дате нам пока не сообщили, но сказали, что «выпуск устройств на основе Broadwell, включая безвентиляторные конструкции 2-в-1, созданные на основе процессора Core M, ожидается в конце этого года, наряду с другими продуктами (в том числе и продукции OEM), которые появятся в 2015 году».

Не все разновидности чипа Broadwell выйдут одновременно, в магазинах мы увидим различные компьютеры, собранные на основе одной из трех основных разновидностей чипсета Broadwell. Для того, чтобы расшифровать названия процессоров, прежде всего, нужно иметь представление об их типах – Y, U и H. В процессорах Haswell этот шифр используется и сегодня.

Чипы типа Y предназначены для маломощных устройств, где теплообразование настолько мало, что вентилятор не требуется. Если поставить такой чип в ноутбук, а затем открыть на нем несколько гигантских фото формата RAW, то… в общем плохо ему придется. Ожидается, что такими будут первые девайсы, оснащенные Broadwell.

Каждый процессор обеспечивает разную мощность, но вам не обязательно выбирать самый мощный процессор, если все что вы делаете за ПК — серфите в интернете

Большее значение для большинства из вас приобретет группа U. Это чип, который будет использоваться в таких устройствах, как ультрабуки 2015 года выпуска и MacBook Air грядущего поколения. Он тоже низковольтный, но на нем возможен просмотр видео нестандартных форматов и хороший уровень редактирования фотографий.

Ну а для настоящих энтузиастов у Broadwell есть решительные чипы серии «H». Они будут устанавливаться в тех устройствах (в том числе и игровых), для которых объем энергопотребления не так важен.

Похоже, знаковые чипы от Broadwell появятся уже в 2015. Intel испытывала определенные затруднения в сокращении процесса от 22нм в Haswell до 14 нм в Broadwell, что и вызвало небольшую задержку. Некоторые производители вряд ли начнут обновление линий своих ноутбуков до 2015 года.

Что будет после Broadwell?

Intel не останавливается никогда. У компании уже есть и планы насчет того поколения, которое последует за Broadwell, и название для новых процессоров.

Преемником Broadwell станет Intel Skylake. И поскольку о стратегии «тик-так» от Intel мы уже наслышаны, то можно утверждать, что новый процессор будет иметь новую микроархитектуру, но те же 14-нанометровые транзисторы, что и Broadwell.

Предварительные сообщения свидетельствуют о том, что здесь уже можно ожидать увеличение мощности процессора на 50%. Но для большинства из нас настоящего восхищения заслуживает эффективность работы Broadwell. Теперь и MacBook Air с Retina-дисплеем не заставит себя долго ждать.

Spread the love

» Haswell-WS » (22 морских миль)

Xeon E3-12xx v3 (однопроцессор)

Модель номер sSpec номер Ядра Частота Турбо Модель
графического процессора
Частота
GPU
TDP Разъем Шина ввода / вывода Дата выхода Часть номер (а)

Отпускная цена (долл. США)

Двухъядерный, сверхнизкое энергопотребление
2 1,1 ГГц 2/4 2 × 256 КБ 4 МБ N / A N / A

13 Вт

LGA 1150 DMI 2.0 Сентябрь 2013 193 долл. США
Четырехъядерный
4 3,1 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

80 Вт

LGA 1150 DMI 2.0 июнь 2013
  • CM8064601467204
  • BX80646E31220V3
193 долл. США 203 долл. США
  • SR14U (C0)
  • SR1KX (C0)
4 3,2 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4600 350–1200 МГц

84 Вт

LGA 1150 DMI 2.0 июнь 2013
  • CM8064601466507
  • BX80646E31225V3
  • CM8064601466510
213 долл. США 224 долл. США
4 3,3 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4600 350–1200 МГц

84 Вт

LGA 1150 DMI 2.0 Май 2014 г.
  • CM8064601575206
  • BX80646E31226V3
213 долл. США
4 3,3 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

80 Вт

LGA 1150 DMI 2.0 июнь 2013
  • CM8064601467202
  • BX80646E31230V3
240 долларов США 250 долларов США
4 3,4 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

80 Вт

LGA 1150 DMI 2.0 Май 2014 г.
  • CM8064601575332
  • BX80646E31231V3
240 долл. США
4 3,4 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

80 Вт

LGA 1150 DMI 2.0 июнь 2013
  • CM8064601467102
  • BX80646E31240V3
262 долл. США 273 долл. США
4 3,5 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

80 Вт

LGA 1150 DMI 2.0 Май 2014 г.
  • CM8064601575331
  • BX80646E31241V3
262 долл. США
4 3,4 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4600 350–1200 МГц

84 Вт

LGA 1150 DMI 2.0 июнь 2013
  • CM8064601466509
  • BX80646E31245V3
276 долларов США 287 долларов США
4 3,5 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4600 350–1200 МГц

84 Вт

LGA 1150 DMI 2.0 Май 2014 г.
  • CM8064601575205
  • BX80646E31246V3
276 долл. США
4 3,5 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

80 Вт

LGA 1150 DMI 2.0 июнь 2013
  • CM8064601467101
  • BX80646E31270V3
328 долларов 339 долларов
4 3,6 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

80 Вт

LGA 1150 DMI 2.0 Май 2014 г.
  • CM8064601575330
  • BX80646E31271V3
328 долларов США
4 3,5 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4600 350–1250 МГц

84 Вт

LGA 1150 DMI 2.0 июнь 2013
  • CM8064601466508
  • BX80646E31275V3
339 $ 350 $
4 3,6 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4600 350–1250 МГц

84 Вт

LGA 1150 DMI 2.0 Май 2014 г.
  • CM8064601575216
  • BX80646E31276V3
339 долл. США
4 3,6 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

82 Вт

LGA 1150 DMI 2.0 июнь 2013 612 долл. США
  • SR1R2 (C0)
  • SR21F (C0)
4 3,7 ГГц 2/3/4/4 4 × 256 КБ 8 МБ N / A N / A

82 Вт

LGA 1150 DMI 2.0 Май 2014 г. 612 долл. США
4 3,6 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4700 350–1300 МГц

84 Вт

LGA 1150 DMI 2.0 июнь 2013 662 долл. США
4 3,7 ГГц 2/3/4/4 4 × 256 КБ 8 МБ HD Графика P4700 350–1300 МГц

84 Вт

LGA 1150 DMI 2.0 Май 2014 г. 662 долл. США
Четырехъядерный процессор, низкое энергопотребление
4 2,5 ГГц 09.06.11.12 4 × 256 КБ 8 МБ HD-графика (10 EU) 350–1200 МГц

45 Вт

LGA 1150 DMI 2.0 июнь 2013 294 долл. США
4 2.3 ГГц 07.06.09.10 4 × 256 КБ 8 МБ HD Графика P4600 350–1000 МГц

45 Вт

LGA 1150 DMI 2.0 июнь 2013 377 долл. США
  • SR1T7 (C0)
  • SR156 (C0)
4 2,7 ГГц 09.06.11.12 4 × 256 КБ 8 МБ HD-графика (10 EU) 350–1200 МГц

45 Вт

LGA 1150 DMI 2.0 Май 2014 г. 328 долларов США
4 1,8 ГГц ? /? /? / 14 4 × 256 КБ 6 МБ Ирис Pro Графика 5200 750–1000 МГц

47 Вт

BGA-1364 DMI 2.0 Февраль 2014 года OEM
  • SR14X (C0)
  • SR15B (C0)
4 3,1 ГГц 05.04.08 4 × 256 КБ 8 МБ HD Графика P4700 350–1250 МГц

65 Вт

LGA 1150 DMI 2.0 июнь 2013 774 долл. США
4 3,2 ГГц 05.04.08 4 × 256 КБ 8 МБ HD Графика P4700 350–1250 МГц

65 Вт

LGA 1150 DMI 2.0 Май 2014 г. 774 долл. США
Четырехъядерный процессор, сверхнизкое энергопотребление
4 1,8 ГГц 07.06.09.10 4 × 256 КБ 8 МБ N / A N / A

25 Вт

LGA 1150 DMI 2.0 июнь 2013 250 долл. США
4 2 ГГц 07.06.09.10 4 × 256 КБ 8 МБ N / A N / A

25 Вт

LGA 1150 DMI 2.0 Май 2014 г. 278 долл. США

Added instructions[edit]

AVX2 — Integer data types were extended to 256-bit SIMD.

  • VBROADCASTI128
  • VBROADCASTSD
  • VBROADCASTSS
  • VEXTRACTI128
  • VGATHERDPD
  • VGATHERDPS
  • VGATHERQPD
  • VGATHERQPS
  • VINSERTI128
  • VMOVNTDQA
  • VMPSADBW
  • VPABSB
  • VPABSD
  • VPABSW
  • VPACKSSDW
  • VPACKSSWB
  • VPACKUSDW
  • VPACKUSWB
  • VPADDB
  • VPADDD
  • VPADDQ
  • VPADDSB
  • VPADDSW
  • VPADDUSB
  • VPADDUSW
  • VPADDW
  • VPALIGNR
  • VPAND
  • VPANDN
  • VPAVGB
  • VPAVGW
  • VPBLENDD
  • VPBLENDVB
  • VPBLENDW
  • VPBROADCASTB
  • VPBROADCASTD
  • VPBROADCASTQ
  • VPBROADCASTW
  • VPCMPEQB
  • VPCMPEQD
  • VPCMPEQQ
  • VPCMPEQW
  • VPCMPGTB
  • VPCMPGTD
  • VPCMPGTQ
  • VPCMPGTW
  • VPERM2I128
  • VPERMD
  • VPERMPD
  • VPERMPS
  • VPERMQ
  • VPGATHERDD
  • VPGATHERDQ
  • VPGATHERQD
  • VPGATHERQQ
  • VPHADDD
  • VPHADDSW
  • VPHADDW
  • VPHSUBD
  • VPHSUBSW
  • VPHSUBW
  • VPMADDUBSW
  • VPMADDWD
  • VPMASKMOVD
  • VPMASKMOVQ
  • VPMAXSB
  • VPMAXSD
  • VPMAXSW
  • VPMAXUB
  • VPMAXUD
  • VPMAXUW
  • VPMINSB
  • VPMINSD
  • VPMINSW
  • VPMINUB
  • VPMINUD
  • VPMINUW
  • VPMOVMSKB
  • VPMOVSXBD
  • VPMOVSXBQ
  • VPMOVSXBW
  • VPMOVSXDQ
  • VPMOVSXWD
  • VPMOVSXWQ
  • VPMOVZXBD
  • VPMOVZXBQ
  • VPMOVZXBW
  • VPMOVZXDQ
  • VPMOVZXWD
  • VPMOVZXWQ
  • VPMULDQ
  • VPMULHRSW
  • VPMULHUW
  • VPMULHW
  • VPMULLD
  • VPMULLW
  • VPMULUDQ
  • VPOR
  • VPSADBW
  • VPSHUFB
  • VPSHUFD
  • VPSHUFHW
  • VPSHUFLW
  • VPSIGNB
  • VPSIGND
  • VPSIGNW
  • VPSLLD
  • VPSLLDQ
  • VPSLLQ
  • VPSLLVD
  • VPSLLVQ
  • VPSLLW
  • VPSRAD
  • VPSRAVD
  • VPSRAW
  • VPSRLD
  • VPSRLDQ
  • VPSRLQ
  • VPSRLVD
  • VPSRLVQ
  • VPSRLW
  • VPSUBB
  • VPSUBD
  • VPSUBQ
  • VPSUBSB
  • VPSUBSW
  • VPSUBUSB
  • VPSUBUSW
  • VPSUBW
  • VPUNPCKHBW
  • VPUNPCKHDQ
  • VPUNPCKHQDQ
  • VPUNPCKHWD
  • VPUNPCKLBW
  • VPUNPCKLDQ
  • VPUNPCKLQDQ
  • VPUNPCKLWD
  • VPXOR

BMI1 / BMI2 — Bit Manipulation Instructions Sets

  • ANDN
  • BEXTR
  • BLSI
  • BLSMSK
  • BLSR
  • BZHI
  • LZCNT
  • MULX
  • PDEP
  • PEXT
  • POPCNT
  • RORX
  • SARX
  • SHLX
  • SHRX
  • TZCNT

FMA3 — Fused Multiply-Add instructions, 3 operands

  • VFMADD123PD
  • VFMADD123PS
  • VFMADD123SD
  • VFMADD123SS
  • VFMADD132PD
  • VFMADD132PS
  • VFMADD132SD
  • VFMADD132SS
  • VFMADD213PD
  • VFMADD213PS
  • VFMADD213SD
  • VFMADD213SS
  • VFMADD231PD
  • VFMADD231PS
  • VFMADD231SD
  • VFMADD231SS
  • VFMADD312PD
  • VFMADD312PS
  • VFMADD312SD
  • VFMADD312SS
  • VFMADD321PD
  • VFMADD321PS
  • VFMADD321SD
  • VFMADD321SS
  • VFMADDSUB123PD
  • VFMADDSUB123PS
  • VFMADDSUB132PD
  • VFMADDSUB132PS
  • VFMADDSUB213PD
  • VFMADDSUB213PS
  • VFMADDSUB231PD
  • VFMADDSUB231PS
  • VFMADDSUB312PD
  • VFMADDSUB312PS
  • VFMADDSUB321PD
  • VFMADDSUB321PS
  • VFMSUB123PD
  • VFMSUB123PS
  • VFMSUB123SD
  • VFMSUB123SS
  • VFMSUB132PD
  • VFMSUB132PS
  • VFMSUB132SD
  • VFMSUB132SS
  • VFMSUB213PD
  • VFMSUB213PS
  • VFMSUB213SD
  • VFMSUB213SS
  • VFMSUB231PD
  • VFMSUB231PS
  • VFMSUB231SD
  • VFMSUB231SS
  • VFMSUB312PD
  • VFMSUB312PS
  • VFMSUB312SD
  • VFMSUB312SS
  • VFMSUB321PD
  • VFMSUB321PS
  • VFMSUB321SD
  • VFMSUB321SS
  • VFMSUBADD123PD
  • VFMSUBADD123PS
  • VFMSUBADD132PD
  • VFMSUBADD132PS
  • VFMSUBADD213PD
  • VFMSUBADD213PS
  • VFMSUBADD231PD
  • VFMSUBADD231PS
  • VFMSUBADD312PD
  • VFMSUBADD312PS
  • VFMSUBADD321PD
  • VFMSUBADD321PS
  • VFNMADD123PD
  • VFNMADD123PS
  • VFNMADD123SD
  • VFNMADD123SS
  • VFNMADD132PD
  • VFNMADD132PS
  • VFNMADD132SD
  • VFNMADD132SS
  • VFNMADD213PD
  • VFNMADD213PS
  • VFNMADD213SD
  • VFNMADD213SS
  • VFNMADD231PD
  • VFNMADD231PS
  • VFNMADD231SD
  • VFNMADD231SS
  • VFNMADD312PD
  • VFNMADD312PS
  • VFNMADD312SD
  • VFNMADD312SS
  • VFNMADD321PD
  • VFNMADD321PS
  • VFNMADD321SD
  • VFNMADD321SS
  • VFNMSUB123PD
  • VFNMSUB123PS
  • VFNMSUB123SD
  • VFNMSUB123SS
  • VFNMSUB132PD
  • VFNMSUB132PS
  • VFNMSUB132SD
  • VFNMSUB132SS
  • VFNMSUB213PD
  • VFNMSUB213PS
  • VFNMSUB213SD
  • VFNMSUB213SS
  • VFNMSUB231PD
  • VFNMSUB231PS
  • VFNMSUB231SD
  • VFNMSUB231SS
  • VFNMSUB312PD
  • VFNMSUB312PS
  • VFNMSUB312SD
  • VFNMSUB312SS
  • VFNMSUB321PD
  • VFNMSUB321PS
  • VFNMSUB321SD
  • VFNMSUB321SS

MOVBE — Move Big-Endian instruction

TSX — Transactional Synchronization Extensions

  • XABORT
  • XBEGIN
  • XEND
  • XTEST

Architecture[edit]

While sharing a lot of similarities with its predecessor Ivy Bridge, Haswell introduces many new enhancements and features. Haswell is the first desktop-line of x86s by Intel tailored for a system on chip architecture. This is a significant move that will continue to be developed over the next couple of microarchitectures. Overall Haswell shares the same basic flow as Sandy Bridge and Ivy but expands on them considerably in the execution engine with wider execution units and additional scheduler ports.

Key changes from Ivy Bridgeedit

  • 3.5x performance/watt over Nehalem
  • Platform Controller Hub (PCH)
  • Support for DDR4 (server/enthusiast segments)
  • Full Integrated voltage regulator (FIVR)
  • New C6 & C7 sleep states
  • Cache
    • L1D$ has double the bandwidth
      • Load: 64B/cycle (up from 32B/cycle)
      • Store: 32B/cycle (up from 16B/cycle)
    • L2$ bandwidth to L1 is doubled
    • STLB been made to support 2MB pages
  • Reorder Buffer (ROB) was increased to 192 entries (up from 168)
  • Scheduler has been widened, (see )
    • Increased to 60 entries (up from 54)
    • Integer register file up 8 entries to 168
    • FP register file up 24 entries to 168
    • 2 additional execution ports (see )
  • New memory model for Transactional Synchronization Extensions

CPU changesedit

Haswell can do many general purpose instructions with 4 ops/cycle throughput. SandyBridge/Ivybridge could do so only for NOPs, CLC, some vector MOVs and some zeroing instructions (SUB, XOR and vector analogs).

  • MOVSX and MOVZX have 4 op/cycle throughput for 8->32, 8->64 and 16->64 bit forms.
  • Many ALU operations have 4 op/cycle throughput for GP registers: XOR, OR, NEG, NOT, ADD, SUB, CMP, AND, etc.
  • Variable shifts and rotates (SHL r32, CL etc) latency increased from 1 cycle to 2 cycles, variable SHLD/SHRD from 2 cycles to 4 cycles.
  • REP MOVS copy is twice as fast: now ~52 bytes/cycle.
  • REP STOS fill is twice as fast: now ~30 bytes/cycle.

GPU changesedit

  • Direct3D 11.1
  • OpenGL 4.3
  • OpenCL 1.2
  • Four versions of GPU options codenamed GT1, GT2, GT3 and GT3 (with GT3e having a dedicated eDRAM L4$)

New instructionsedit

Haswell introduced a number of new instructions:

  • — Advanced Vector Extensions 2; an extension that extends most integer instructions to 256 bits vectors.
  • — Bit Manipulation Instructions Sets 1
  • — Bit Manipulation Instructions Sets 2
  • — Move Big-Endian instruction
  • — Floating Point Multiply Accumulate, 3 operands
  • — Transactional Synchronization Extensions
  • — Invalidate Process-Context Identifier
  • — Leading zero count

Individual Coreedit

Memory Hierarchyedit

The memory hierarchy in Haswell had a number of changes from its predecessor. The cache bandwidth for both load and store have been doubled (64B/cycle for load and 32B/cycle for store; up from 32/16 respectively). Significant enhancements have been done to support the new gather instructions and transactional memory. With Haswell new port 7 which adds an address generation for stores, up to two loads and one store are possible each cycle.

  • Cache
    • L1I Cache:
      • 32 KB 8-way set associative
        • 64 B line size
        • Write-back policy
        • shared by the two threads, per core
    • L1D Cache:
      • 32 KB 8-way set associative
        • 64 B line size
        • shared by the two threads, per core
        • 4 cycles for fastest load-to-use
        • 64 Bytes/cycle load bandwidth
        • 32 Bytes/cycle store bandwidth
        • Write-back policy
    • L2 Cache:
      • unified, 256 KB 8-way set associative
      • 11 cycles for fastest load-to-use
      • 64B/cycle bandwidth to L1$
      • Write-back policy
    • L3 Cache:
      • 1.5 — 3 MB
      • Write-back policy
      • Per core
    • L4 Cache:
      • 128 MB
      • Per package
      • Only on the Iris Pro GPUs

Haswell TLB consists of dedicated level one TLB for instruction cache and another one for data cache. Additionally there is a unified second level TLB.

  • TLBs:
    • ITLB
      • 4KB page translations:
        • 128 entries; 4-way set associative
        • dynamic partition; divided between the two threads
      • 2MB/4MB page translations:
        • 8 entries; fully associative
        • Duplicated for each thread
    • DTLB
      • 4KB page translations:
        • 64 entries; 4-way set associative
        • fixed partition; divided between the two threads
      • 2MB/4MB page translations:
      • 1G page translations:
    • STLB
      • 4KB+2M page translations:
        • 1024 entries; 8-way set associative
        • shared