AMD ZEN 마이크로아키텍처

AMD 마이크로아키텍처
제품군 마이크로아키텍처
데스크톱K5
(1996)
K6
(1997)
K7
(1999)
K8
(2003)
K9
(2005)
K10
(2007)
K10.5
(2009)
불도저
(2011)
파일드라이버
(2012)
스팀롤러
(2014)
엑스카베이터
(2015)
ZEN
(2017)
ZEN2
(미정)
ZEN3
(미정)
저전력밥캣
(2011)
재규어
(2013)
푸마
(2014)
푸마+
(2015)

1 개요

파일:RptTiug.jpg
2016년 8월 17일[1]에 정식으로 발표된 AMD의 차세대 마이크로아키텍처.[1] #] GlobalFoundries의 14nm FinFET 공정에서 생산된다. 데스크톱 프로세서의 소켓이 모두 AM4[2]로 통합되었으며, DDR4, USB 3.1 등의 최신 규격 지원과 노스/사우스 브리지가 프로세서에 통합되고 인텔 PCH(Platform Controller Hub)와 비슷한 프로몬토리(Promontory) 칩셋이 사용될 예정이다.

ZEN 코어가 최초로 사용될 데스크톱 CPU인 서밋 릿지(Summit Ridge)와 APU인 레이븐 릿지(Raven Ridge)가 2017년 출시 예정이다. 다만 의외로 기존의 엑스카베이터 역시 바로 단종수순을 밟지는 않고 브리스톨 릿지와 스토니 릿지를 통해 당분간 유지되며, 2017년 하반기 까지도 보급형 APU를 중심으로 라인업이 지속될 예정이다.2015-2017 로드맵

2 구조

파일:Amd zen microarchitecture.png
애플 A 시리즈 및 과거 AMD의 전성기를 이끌었던 AMD 애슬론 64 시리즈의 설계에 참여한 짐 켈러가 설계를 맡았다. 참고로 짐 켈러는 계약 기간이 끝나 15년 9월에 AMD에서 퇴사했으며, 그후 테슬라 모터스로 이직했다는 모양.[3]

불도저 마이크로아키텍처부터 시작된 모듈(클러스터) 기반 멀티스레드(CMT) 방식의 설계에서 벗어나, IPC 증대와 인텔이 꾸준히 채택하고 있는 동시 멀티스레드(SMT) 방식을 통해 병렬 처리 능력을 극대화하는 전통적인 구조로 회귀하였다. 전체적인 구조를 보면 과거 페넘 시절의 K10과 유사하지만, 부동소수점 실행 유닛이 기존의 128비트*2 구조에서에서 128비트*4 혹은 256비트*2 구조로 SSEAVX에 대응할 수 있는 병렬처리 능력이 크게 상승하였고, 두 배로 늘어난 정수 실행 유닛과 함께 캐시 정책 역시 인텔과 동일하게 변경된다. 모듈 설계의 영향으로 두 개의 코어가 공유하던 L2 캐시 역시 코어마다 독립적으로 탑재되고, 또한 인텔의 하이퍼스레딩에 대응하는 멀티스레드 기술이 탑재되었다. 이 밖에도 새로운 명령어 세트의 추가와 GCC, LLVM 최적화, 인텔의 하스웰, 브로드웰의 ISA를 지원한다고 한다. 실제로 현행 인텔 CPU와 굉장히 유사해졌다는 증언이 있다.

2.1 성능

파일:345EOgh.jpg
AMD에서 공식 발표한 바에 따르면 엑스카베이터 대비 IPC(Instructions Per Clock)가 40% 향상된다고 한다. 초기에는 단지 클럭당 성능이 40% 향상된다고 알려졌을 때에는 초기 불도저 대비 40% 향상으로 해석하여 아이비브릿지 수준의 성능일 것으로 예상되었으나 기준이 엑스카베이터인 것이 알려지면서 인텔의 브로드웰 에 근접한 성능을 가질 것으로 평가가 상향되었다. 이는 엑스카베이터가 의외로 기존 불도저 대비 15% 정도의 클럭당 성능 향상이 보고되었기 때문.

재미있는 건 인텔이 발표한 스카이레이크 제온의 최대 코어는 28코어이고, AMD가 발표한 젠 옵테론의 최대 코어는 32코어인데, 둘을 같은 면적이라고 가정하면 코어당 14% 정도의 차이가 나온다. 그리고 스카이레이크에서 15% 가량을 줄이면 브로드웰이다.(...)

데스크톱 라인업인 서밋 릿지인 경우, 불도저에서 이어져 온 4모듈-8코어-8스레드 구성에서 8코어-16스레드 구성으로 바뀌면서 스레드 기준 2배가 증가하게 된다. 이런 구성이면 양쪽 클럭이 동일하다고 가정할 경우 스카이레이크 기반 4코어-8스레드 i7에 대해서 싱글스레드 성능은 불과 10% 정도 떨어지지만 멀티스레드 성능은 2배에 달하는 코어 숫자를 이용해 1.8배 정도 우위를 점하면서 제품경쟁력을 높일 수 있다.

AMD의 공식 발표에 의하면 Blender에서 Intel Core i7-6900K (8C 16T) 3GHz와 AMD Zen/Summit Ridge (8C 16T) 3GHz 동클럭 환경에서 근소하게 앞서는 클럭당 성능을 보여주고 있어, 추후 QS이후의 리테일 제품의 클럭이 성능을 결정 지을 것으로 보인다. 하지만 해당 테스트에 관해서 인텔 엔지니어인 François Piednoël은 'FMA3 명령어로 실행하는 것으로 보이며, L1, L2, L3 캐시의 사이즈가 다르므로 IPC 비교는 무의미하다'는 글을 올렸다[4][5].

2.2 사용 모델 일람

3 공개 전 루머

파일:MKsTjHl.jpg
이외에도, ZEN APU에서는 새로운 인터커넷트 버스인 GMI(Global Memory Interconnect)가 들어간다는 말이 있다. 이 새로운 버스는 높은 대역폭과 매우 낮은 레이턴시가 특징이며, 자료에 따르면 4개의 링크로 100GB/s의 대역폭을 구현할 수 있다. 경쟁사인 인텔 프로세서의 CPU와 iGPU 사이는 링버스로 연결되어 있으며 L3 캐시와 L4 캐시[6]도 링버스에 물려있어서 CPU와 GPU가 공유하는데, ZEN의 경우 CPU와 GPU가 공유하는 캐시가 있는지 또는 저 4 GMI links의 100GB/s 대역폭이나 레이턴시가 인텔의 링버스[7]와 비교해서 어떤지 알려지지 않았기 때문에 섣부른 비교는 금물이다.
또한 이 GMI 버스가 Xbox One의 CPU-GPU간의 내부 버스, 그리고 엔비디아의 NVLink와 같다는 주장이 있다. 엔비디아의 NVLink와 Xbox one의 버스의 개발자는 동일인임이 판명되었지만 GMI와 같은지는 아직 불명.

74c055ab55c719f44babaab104be2a2c153409151071021.jpg
2015년 10월 5일까지 나온 정보를 종합해 그린 ZEN 1코어 다이어그램이다. 출처
ZEN에는 ALU와 AGU가 4:2로 나뉘어지며 부동 소수점은 128bit 2개를 엮은 FMAC가 2개가 들어간다. 파일드라이버 대비(ALU:AGU=2:2) 1코어당 ALU, FMAC의 수가 2배 증가하므로 정수, 부동소수점 연산 능력은 최대 2배로 증가한다. 똑같은 연산 유닛이 들어간다는 가정 하에 폴락의 법칙[8]을 적용할 경우 40%정도의 성능 향상을 기대할 수 있지만 최신형 설계일 수록 연산유닛 자체의 성능도 올라가므로 성능 향상 수준은 40% 보다는 좀 더 높을 것으로 예상된다.

Zen-Architektur%2BCore%2BV0.3.2.png
출처
2016년 2월에 업데이트 된 ZEN 1코어 다이어그램으로 2015년 10월자 다이어그램에 비해 추가 및 변경된 부분이 존재한다.

  • uOp 캐시가 추가되었다.
  • FMAC로 묶인 형태로 표현된 FMUL/FADD 부분이 분리되었다. 실제로 관련 코드를 검토해 보면 4개의 FPU가 제각각의 기능을 담당하면서 특별히 대칭되는 구조가 없는 것을 확인할 수 있다.
  • L1 데이터 캐시의 레이턴시가 4 cycle로 밝혀졌다.
  • L1 데이터 캐시에 대해 동시에 128 bit 읽기동작 2회와 쓰기동작 1회가 가능하다.

이전 다이어그램과는 달리 FPU가 FMAC로 묶인 부분이 삭제되었지만 어차피 FMA명령의 AVX 256bit 명령어조차도 동시에 2명령어의 처리가 가능한 점이 바뀌지는 않았으므로 전반적인 성능 특성은 위의 평가와 동일할 것으로 예상된다. 또한 uOp캐시의 존재가 밝혀지면서 파이프라인 스톨 등에 의한 처리 레이턴시 증가를 억제하는데 좋은 효과를 볼 것으로 기대되고 있다.

루머에 의하면 서밋 릿지는 적어도 처음에는 8코어 칩셋으로만 양산되며 4코어/2코어 ZEN 프로세서는 없다고 한다.불도저에서도 2코어는 없었는데 생기겠냐 APU로 만들겠지 아니지 코어를 죽이겠지... FX면 인텔로치면 i7라인업인데 거기에 2코어를 넣는다고? 코어죽여서 애슬론라인업으로 나오겠지...8코어 프로세서와 일부를 비활성화한 6코어 프로세서가 출시될 예정이며, 수율이 나쁠 경우 4코어 프로세서까지 출시될 가능성이 있다고 한다. 이러한 생산 전략은 많은 금전적인 이득을 줄 것이라고 하며, 4코어 이하 프로세서는 브리스톨 릿지가 일단 담당하며 ZEN 기반 후속 제품인 레이븐 리지가 배턴을 넘겨받을 가능성이 크다.

파일:Amd fighting.jpg
8월 10일 AMD ZEN의 ES 제품의 AOTS 벤치마크가 유출 되었다.
i5-4670K (3.4/3.8Ghz)를 제첬으며, i7-4790 (3.6/4.0Ghz) 보다는 조금 못한 수치이다.

ashes-r9390x.png
AOTS의 CPU별 게임프레임은 멀티코어를 잘 반영하는 편이 아닌, 메이저급 게임사를 제외한 대중적인 게임들과 비슷한 편이다.
5960X와 0.8GHz 차이나는 6700K가 3~4% 앞서는걸 고려하여 서밋 릿지의 대략적인 게임 성능을 가늠할수 있다.

벤치마크에 사용된 서밋릿지 ES의 클럭은 베이스 2.8GHz, 터보 3.2GHz이다.
AMD의 ES와 실제품 간의 클럭 차이는 전통적으로 0.8GHz 정도 차이났던걸 생각하면, 서밋릿지 최상위 제품은 3.6GHz로
출시가 될 거라 예상된다.

3.1 기대와 우려

2016년 상반기 기준으로 나온 정보들을 종합하면 ZEN에서 기대할 수 있는 부분과 우려할 만한 부분은 다음과 같다.

기대

  • 10년만에 등장한, 인텔과 IPC에서 비슷하게 겨룰 수 있는 제품의 출시.
  • 고질적으로 AMD를 괴롭혔던 미세 공정 경쟁의 열세에서 벗어나면서 동급의 14nm 공정 달성.
  • PC시장 최초로 인텔의 4코어-8스레드 제품 대비 차별화된 8코어-16스레드 제품의 도입.
  • 파운드리 협력 업체로 14nmFinFET공정을 빠르고 안정적으로 개발한 삼성전자GlobalFoundries를 선택하여 안정적인 물량수급 경로와 저렴한 생산단가의 양산체제 확보[9].

우려

  • 8코어-16스레드 제품은 인텔 역시 이미 제온 및 익스트림 제품군을 통해 공급하고 있으므로 만약 인텔이 해당 제품을 일반 PC 시장으로 투입할 경우 차별성 있는 포인트가 사라질 우려.
  • PC시장에서의 8코어-16스레드라는 컨셉의 제품이 실제로 충분한 시장 수요가 있는 지에 대한 불확실한 전망.[10] [11]
  • 삼성과 GF의 파운드리 고객사 정책에 따라 ZEN의 생산 우선순위가 밀릴 가능성.
  • 랩톱 및 메인스트림 시장에 대응되는 ZEN 기반 APU의 부재. 2016년도에 투입 가능한 ZEN 기반 프로세서는 서밋 릿지밖에 존재하지 않으며, 브리스톨 릿지 APU는 여전히 엑스카베이터 마이크로아키텍처에 머무르는 실정.[12]

4 기타

#!HTML<iframe width="560" height="315" src="https://www.youtube.com/embed/soc5x_4IACQ" frameborder="0" allowfullscreen></iframe>
새로운 기본 쿨러인 Wraith 쿨러가 공개되었는데, 테스트 결과 기존의 매우 시끄럽던 쿨러[13]에 비해 확실하게 쿨링 성능과 소음 모두 획기적인 개선이 있고, 기본 쿨러에 LED[14]까지 넣어주는 등 감성적으로 여러 사람들의 심금을 울리고 있다.(...)
다만 루머에 의하면 AM4의 쿨러 홀이 기존의 AM과 FM 소켓과는 달라진다는 말이 있어 ZEN에는 신규 규격의 신형 쿨러가 들어갈 가능성이 크다. 신형 쿨러라고만 했지 더 좋은 쿨러를 준다고 한 적은 없다 [15]

뜬금없이 제이씨현에서 ZEN CPU와 AM4메인보드 교환권을 상품으로 내건 오버워치 리그 이벤트가 개최되었다... 출시 이후 교환권으로 상품을 받을 수 있다는 듯 하다.
  1. 이 날은 인텔이 개최하는 IDF(인텔 개발자 포럼)16의 두 번째 날이었다. 아키텍처에 대한 자세한 정보는 Hot Chips 28에서 공개되었다.
  2. 초기(2015년 초)에는 FM3으로 불린적도 있었다.보드나라 기사 다만 소켓이 통합되는 사실 자체는 변함이 없고 명칭이 정식으로 AM4가 된 것이다.
  3. 짐 켈러의 이런 행동에 대해서 논란이 약간 있었는데, 짐 켈러의 경력 자체가 기반을 구축하거나 전반적인 문제를 해결해주고 바로 다른 데로 떠나는 스타일이라는 주장이 있다. AMD CPU의 역사상 최전성기였던 K8의 리드 아키텍트였던 시절에도 정작 K8이 출시될 때에는 AMD에 없었다.
  4. 첨언을 하자면 FMA3명령어의 경우 SIMD형식의 명령어이다. SIMD는 명령어구조의 특성상 단일 명령으로 여러 데이터를 동시에 처리하도록 고안되었기 때문에 다중명령 동시처리능력을 의미하는 IPC를 측정하기에는 부적합하다는 주장 자체는 맞다. 문제는 브로드웰은 FMA명령어를 256bit데이터폭으로 동시에 두 개 처리할 수 있는데 비해 ZEN은 FMA명령어를 128bit데이터폭으로 처리할 수 있어서 단순 스루풋 기준으로는 브로드웰이 두 배로 빨라야 정상이다. 즉 FMA명령어 의존적이라는 주장이 맞다면 오히려 ZEN의 FMA 연산에서의 아키텍처 효율이 단순 스펙에서 드러나는 것 보다 훨씬 더 좋다는 이야기가 된다. 본격 자폭성 디스
  5. 캐시사이즈가 달라서 IPC측정으로서는 의미 없다는 주장 자체가 큰 의미가 없는데 애초에 성능 위주의 프로그램들은 캐시미스로 인한 패널티를 피하기 위해 각 단계별 캐시 크기에 맞도록 코드나 데이터 사이즈를 조정해서 로드하는 경우가 많다.
  6. L4 캐시 자체는 별도의 EDRAM 다이로 따로 들어가 있지만 이를 컨트롤하기 위한 태그 부분이 CPU 내에서 링버스에 물려있다.이미지 출처
  7. 샌디브릿지 링버스는 3GHz 기준으로 코어당 약 96GB/s (듀얼코어는 190GB/s, 쿼드코어의 경우 380GB/s)라는 얘기가 있다.
  8. 폴락의 법칙은 CPU설계에 투입하는 트랜지스터 숫자를 2배로 늘려도 성능향상폭은 그 이하, 즉 대체로 [math]\sqrt{2}[/math]만큼 밖에는 증가하지 않는다는 일종의 경험법칙이다.
  9. 인텔의 스카이레이크의 다이 면적은 약 122mm2에 불과하여 일반적인 모바일 AP의 다이 면적과도 큰 차이가 없으며 제품의 성격 역시 로직IC라는 점에서 유시하다. 하지만 가격은 대략 10배의 차이가 나는데 그럼에도 불구하고 파운드리 업체는 모바일AP 생산을 통해 막대한 수익을 내고 있다. 파운드리 업체들의 원가경쟁력이 얼마나 강력한지 실감할 수 있는 부분.
  10. 실제로 8코어-16스레드는 커녕 그 딱 절반인 4코어-8스레드의 인텔 코어 i7조차도 대다수의 소비자들에겐 전혀 필요없는 오버테크놀로지 취급, 4코어-4스레드의 i5가 하이엔드 게이밍 PC에 사용되며 2코어-4스레드의 i3만으로도 왠만한건 죄다 쾌적하게 돌아가는 실정... 다만 VR 시장이 대두되고 PC와 연동해서 쓰는 기기가 대세가 된다면 다시 수요가 생길 가능성이 있다. 또한 인텔도 HEDT 제품군은 이미 2014년 3분기에 8코어-16스레드 제품들을 내놓았으며, 16년도 중순 브로드웰-E 부터는 10코어 20스레드까지 확장하였으므로 이들의 저렴한 대안으로 선택되는 분야도 생길 것이다.
  11. PC시장에서 프로세서의 코어가 크게 증가하지 않은 이유는, 소프트웨어는 하드웨어에 맞춰 최적화를 진행하기 때문임이 크다. 지난 7년간 인텔은 데스크탑 CPU의 면적을 25% 수준으로 줄이면서도 코어는 추가하지 않고 있었다. 현재의 스카이레이크 코어에 iGPU를 제거하고 코어를 채워넣으면 8코어 16스레드 L3 16MB의 CPU를 같은 단가로 생산할수 있다. 한술 더 떠 과거 네할렘 i5 , i7로 생산했던 면적만큼 스카이레이크를 생산한다면, 무려 16코어 32스레드와 32MB L3 캐시를 넣을수 있는 것이다. 현재 6코어, 8코어 제품들은 400달러로는 변변찮은 제품도 못사는 굉장히 비싼 CPU라고 생각되어지지만, 과거엔 메인스트림 수준으로 판매했던 단가의 제품인 것이다. 사용자들의 하드웨어들을 강제로 쿼드코어로 통일 시켰으니, 소프트웨어 시장은 8스레드 이상의 멀티스레드 지원이 불필요하다고 생각되어질수밖에 없을 것이다. 지지리도 안 팔렸던 불도저 마저도 소프트웨어들이 멀티코어를 지원하게 될 계기를 주는 촉매제가 되어주었던 것을 생각한다면, 꽤 신선한 반향을 불러올 수 있을것이다.
  12. 참고로 현재 PC용 CPU의 절반 이상이 랩탑 시장용으로 출시되는 상황이기 때문에 랩탑용 제품의 출시가 늦다는 이야기는 전체PC시장의 절반이 넘는 시장에 대한 대응이 늦어진다는 이야기와 같다. 이는 Time-to-Market 관점에서 매우 뼈아픈 부분.
  13. 그나마도 FX8350같은 상위모델에 쓰이던 쿨러다. FX8300의 기본 쿨러는 히트파이프도 없는 쿨러라 훨씬 더 떨어지고 시끄럽다.
  14. 쿨러 몸통에 AMD 로고가 파랗게 빛난다.
  15. CPU 업체의 입장에서는 CPU 본품의 발열 문제가 줄어들 경우 굳이 좋은 성능의 쿨러를 번들로 넣어 줄 필요가 없어진다. 가까이 인텔만 해도 샌디브릿지 이후로 CPU의 열관리가 점점 용이해 지면서 오히려 써멀컴파운드나 쿨러 등은 초코파이 쿨러로 대표되는 점점 더 열악한 제품으로 바뀌기도 했고.