ARM Mali GPU

파일:MLKzb22.jpg

1 개요

ARM Holdings에서 설계하는 그래픽 칩셋 브랜드. 잉글랜드 본사가 아닌 ARM Holdings 노르웨이 지사에서 주로 개발을 담당한다.

2 상세

2006년, ARM Holdings가 Falanx Microsystems를 인수한 후에 본격적으로 개발에 들어간 GPU 솔루션이다.[1]

ARM이 GPU 개발에 뛰어든 이유는 크게 두 가지로,

  • 모바일 AP, 특히 ARM 아키텍쳐 기반의 AP에서 사용할 GPU 솔루션의 부재.
  • 일종의 대세가 되어가는 GPGPU 기술개발의 목적.

등이 있다.

ARM의 경우, 과거 피쳐폰 시절부터 모바일 AP 부분에서는 강자에 속했었다. 인텔역시 모바일 AP 시장에 진출하기 위해서 과거 XScale를 ARM 아키텍쳐 기반으로 만들기도 했다. 다만, 모바일 임베디드 시장이 점진적으로 확대되고, 이 시장이 기존의 PC의 영역까지 침범하게 될 가능성이 높아지자 CPU가 처리하지 못하는 더욱 높은 수준의 그래픽 작업 능력을 지원하기 위해 AP 안에 GPU를 탑재하기 위해 개발에 들어갔다는 것이다. 비단 ARM 뿐만이 아니라 대표적인 CPU 아키텍처 라이센스 구입사인 퀄컴에서도 舊 ATI에서 인수한 Imageon 모바일 사업부의 자체 GPU를 자사의 AP에 통합하기 시작했고, TI같은 타 라이센스 구입사의 경우 PC 그래픽 시장에서 도태되어 모바일 GPU 시장으로 시선을 돌린 Imagination Technology사의 PowerVR SGX 시리즈를 GPU 솔루션으로 사용하고 있었다. 때문에 ARM에서는 기존의 ARM의 CPU 아키텍쳐를 라이센스를 받는 것과 비슷한 형식으로 GPU 솔루션을 개발, 라이센스를 판매하여 기반 기술이 부족한 구매사라도 수월하게 시장에 진출하게 하기위해 GPU 솔루션을 개발하기로 한 것이다. 회사 항목에도 나왔지만, ARM은 지들끼리 싸워야 돈을 번다.

또한 연산유닛이 CPU에 비해 압도적으로 많은 GPU를 일반적인 연산에 응용하기 위해서 당시에 여러 회사에서 많은 시도가 있었기 때문에 시장에서 도태되지 않기 위해 개발을 한 것이라고 한다.

3 GPU 제품 라인업

관련 성능은 모두 ARM의 발표치로 실 성능은 1/3토막 정도 난다고 보면 편하다. 였는데... 지금까지 실 성능을 측정하던 GFXbench 앱이 3.0으로 업데이트 되고난 후 이론 성능에 90%에 가까운 성능은 보여주고 있다. 측정 앱의 최적화 문제라니... 성장형 말리

3.1 Utgard 기반

3.1.1 Mali-55

20101213203516317.jpg

추가바람

3.1.2 Mali-200 / Mali-300

파일:JPoViUV.jpg

클럭성능타겟공정
210 MHz23 Mtri/s, 210 Mpix/s40nm LP
500 MHz55 Mtri/s, 500 Mpix/s28nm HPM

극 초창기의 Mali 제품군이다. 사용한 예를 거의 찾아 볼 수 없다. 굳이 찾자면 국내 업체인 텔레칩스의 TCC89XX시리즈 정도가 Mali-200을 탑재한 사례다. 당시 기준으로는 그렇게 좋지않은 성능은 아니었으나, 시기 자체가 GPU의 중요도가 없었던 시기였기 때문에 묻힌 감이 없지않아 있다.

현재 Mali-200은 ARM 공식 사이트에서도 언급되지 않는 상태이며 성능이 비슷한 Mali-300만 남아있다.

3.1.3 Mali-400

파일:74bt0ST.jpg

싱글코어 기준
클럭성능타겟공정
210 MHz23 Mtri/s, 210 Mpix/s40nm LP
500 MHz55 Mtri/s, 500 Mpix/s28nm HPM
쿼드코어 기준[2]
클럭성능타겟공정
210 MHz23 Mtri/s, 840 Mpix/s, 7.6 GFLOPS40nm LP
500 MHz55 Mtri/s, 2 Gpix/s, 18 GFLOPS28nm HPM

표만보면 Mali-300의 멀티코어 지원 버전으로 보인다.

멀티코어 구성이 가능한 최초의 Mali GPU이다. 최대 지원 개수는 4개이다. 이전의 Mali-300과 같이 독립 쉐이더 구조로, 버택스를 담당하는 코어와 픽셀을 담당하는 코어가 각각 나누어져 있다.

버택스 코어는 항상 하나로 코어 수에 포함되지 않고 독립적으로 픽셀을 처리하는 Fragment Processor 하나가 추가되는 수준이다.. 그래서 별명이 버택스 고자 그렇기에 싱글코어든 쿼드코어든 버택스 성능은 같아 Mali-400을 탑재한 기기들이 벤치마크 점수에서 힘을 못 쓰는 발단이 되었다.

삼성전자의 자체 AP인 엑시노스 4210에 쿼드코어 266 MHz 구성으로 최초로 탑재되었다. 당시 ARM에서는 400 MHz로 들어갈 것을 권고했으나, 발열 문제를 우려해 클럭을 낮췄다고 한다. 그리고 이 AP를 최초로 사용한 갤럭시 S II에서 역시 Mali-400을 최초로 사용했다. 물론 루팅하면 기존 클럭치인 400 MHz로 가능하나, 역시나 발열 ..초반에는 호환성이 있는 애플리케이션이 전혀 없는 관계로 많은 사람들이 우려를 표했으나, 갤럭시 S II 자체가 삼성전자의 플래그쉽 스마트폰이었고, 또 당시 안드로이드 진영에서는 유일하게 아이폰에 맞설 수 있는 기업이었기 때문에 글로벌 판매량이 상당히 높았다. 그로인해 실질적으로 사용하는 사람들이 많아졌고, 더 나아가 삼성전자 자체에서도 쇼미더머니를 시전하여 호환성을 끌어올렸기 때문에 문제가 쉽게 해결 될 수 있었다고 한다. 그렇게 우리가 생각하는 삼성 최대 전성기인 갤럭시s2가 되었다

이후 엑시노스 4210의 공정 개선판인 엑시노스 4212에는 정상적으로 440 MHz의 클럭으로 탑재되었고, 같은 공정을 사용하는 엑시노스 4412에도 그대로 적용되어 이 AP를 사용한 갤럭시 S III갤럭시 노트 II에는 최대 533 MHz의 클럭까지 적용되었다고 한다. 갤럭시 그랜드에도..

삼성전자엑시노스 4210이 호환성 문제를 해결하자, 후발 주자로 ST에릭슨과 락칩에서도 다양한 구성으로 사용되었다.

구세대인 독립 쉐이더 구조 떄문에 떨어지는 버택스 성능으로 인한 병목 현상이 많이 일어나며 절대적인 성능도 2013년 현재 퀄컴 Adreno 320 같은 경쟁 GPU와 비교했을 때 떨어지는 편이지만, 아직까지 모바일에서는 버택스 성능이 중요한 폴리곤보다 픽셀 성능이 중요한 텍스처를 주로 많이 쓰기 때문에 무난한 성능을 보여주고 있다. 특히 갤럭시 S II, 갤럭시 S III를 비롯한 엑시노스 4210, 4412 탑재 기기들이 안드로이드 점유율에 지대한 영향력을 끼치기 때문에 각종 애플리케이션 개발자들로부터 지원 역시 활발히 받고 있다. 특히 카톡 게임들이 있다. 역시 물량의 삼성

다만, Open GL 3.0을 지원하지 않기에 Android 4.3 젤리빈에서는 큰 영향력을 행사하기 어렵다.

3.1.4 Mali-450

파일:Go88bzh.jpg

쿼드코어 기준
클럭성능타겟공정
270 MHz59 Mtri/s, 1.1 Gpix/s40nm LP
650 MHz142 Mtri/s, 2.6 Gpix/s28nm HPM
옥타코어 기준[3]
클럭성능타겟공정
270 MHz59 Mtri/s, 2.2 Gpix/s40nm LP
650 MHz142 Mtri/s, 5.2 Gpix/s28nm HPM

레알 옥타코어 GPU

Utgard 기반의 끝판왕으로 불리지만 구조 자체는 Mali-400을 2개 붙인 것과 크게 다르지 않다. 다만, Mali-400에서 문제점으로 지적된 버택스 성능이 두 배로 증가시켜 어느정도 문제를 해결하였다. 또한 Mali-400이 쿼드코어까지 지원했기 때문에 단순히 2개를 붙인 Mali-450은 총 8개까지 지원할 수 있다.

여기에 약간의 기술 개선이 이루어져 권고 클럭까지 상승하여 Mali-400의 버택스 성능보다 약 3배 가능 높은 성능을 보여준다. 또한 원래 괴물이었던 픽셀 성능은 2013년 당시 고성능 GPU 중 하나인 퀄컴 Adreno 320보다 2.5배 더 높은 성능을 보여준다.

다만, Mali-400이 모체인 만큼 구세대 독립 쉐이더 구조의 GPU라는 것은 변하지 않기 때문에 전력 소모 문제를 생각하면 이 것보다는 차기작인 Midgard 기반의 GPU를 탑재하는 것이 정신건강에 이롭다. 때문에 실제로 탑재할 AP가 있을지는 의문인 상황. 거기에 Open GL 지원 역시 Mali-400을 따라 2.0까지만 지원한다.

2013년 4분기 드디어 실 탑재 제품이 등장했다. 미디어텍의 MTK6592와 Amlogic의 AML-M802. 벤치를 보면 코어수는 포커처서단순 마켓팅만이 아닌 성능을 보여준다. 버텍스 코어가 2개 로 늘어서 병목현상이 대폭 줄었는지 Mali-400을 단순 2배 한 것보다도 성능이 잘 나온다. 이는 넥서스10의 Mali-T604보다 높으며, 예상대로 Adreno320급의 성능. 특히 Mali-400에서 최적화가 끝난 드라이버와 앱의 호환성 그리고 전력대비 성능이 매우 우수하다. 의외로 쓸만했다... 그것도 많이

3.1.5 Mali-470

mali-470-chip-diagram-LG.png

추가바람

3.2 1세대 Midgard

3.2.1 Mali-T604

파일:QQn6qwg.jpg

쿼드코어 기준[4]
클럭성능타겟공정
533 MHz533 Mtri/s, 2 Gpix/s, 72 GFLOPS28nm HPM

출처

삼성전자엑시노스 5250에 최초로 탑재되었으며 출시된 제품으로는 넥서스 10이 있다.

1세대 Midgard 기반의 첫 GPU이며, 이전 Utgard기반의 GPU와 비교 시 가장 큰 차이점은 통합 쉐이더 구조라는 점에 있다. 때문에 각각의 코어에 코어 당 2개씩 연산 유닛[5]이 있고, 텍스처 유닛이 별도로 들어간다. 이로 인해 기존의 Utgard기반에서 하나의 코어만 버택스 작업을 담당했다면 이번에는 픽셀 코어와 동등한 버택스 코어를 가지게 되었다. 때문에 기존보다 4배 이상 버택스 성능이 상향되었다.

픽셀 성능은 기존에 비해 크게 오르지 않았지만, 기존의 픽셀 성능이 매우 기형적으로 훌륭했다는 것을 볼 때 별 문제가 아닌 것으로 보인다. 그래도 전체적인 성능은 퀄컴 Adreno 320 400 MHz와 비슷하다.

2015년 기준 최신인 Open GLES 3.1 까지 지원하는데, 동시기 Adreno 320은 고사하고, Adreno 330도 Open GLES 3.0 까지 밖에 지원하지 못한것을 본다면, 출시 시기를 기준으로도 상당히 미래 지향적인 설계로 API지원이 훌륭한 GPU이다.

3.2.2 Mali-T658

파일:RoDwJ83.jpg

옥타코어 기준
클럭성능타겟공정
? MHz? Mtri/s, ? Gpix/s?

출처
1세대 Midgard 기반으로 T604와 같이 발표되었다.

기본적으로 Mali-400과 Mali-450처럼 Mali T604를 2개를 붙여 놓은 모습을 가지고 있지만, 각 쉐이더 코어 당 연산 유닛[6]의 수가 4개로 늘어 총 32개의 연산 유닛을 가지고 있게되었다. 한 마디로 말해서 괴물.

정확한 수치가 공개되지 않아 언급하기 어려운 점이 있지만, ARM의 발표대로라면 Mali-400의 10배, Mali T604의 4배의 성능을 보인다고 한다.

하지만, ARM에서 라인업 개편을 시행하면서 ARM의 라인업에서 사라졌다. 여담으로 비슷한 시기에 삼성전자에서 엑시노스 5410의 GPU를 선정하려 움직였으나 1순위였던 이 녀석이 드랍되는 바람에 결국 PowerVR SGX544 트리플코어를 채용하는 방향으로 틀어졌다고 한다. 그리고 이 것은 신의 악(惡)수가 되었다.

그래도 존재 자체는 아직도 있는 것으로 보인다. 화웨이의 자체 AP인 K3V2의 후속으로 계획 중인 big.LITTLE 기술 적용 AP인 K3V3에 들어간다는 뉴스가 뜬금없이 떴다. 다만 전작을 볼 때 성능은 보장을 못한다.

3.3 2세대 Midgard

3.3.1 Mali-T62X

헥사코어 기준
클럭성능
700 MHz600 Mtri/s, 4.2 Gpix/s, 143 GFLOPS
533 MHz457 Mtri/s, 3.2 Gpix/s, 109 GFLOPS

출처


2012년 8월 2세대 Midgard기반의 T624와 T628이 T678과 같이 공개되었다. T622는 2013년 6월 2일에 CPU 아키텍쳐인 Cortex-A12와 함께 따로 공개되었다. 2013년 9월 기준으로 사용하는 AP는 삼성전자엑시노스 5420이 유일하며 탑재된 기기로 갤럭시 노트3갤럭시 노트 10.1 2014 에디션이 있다.
ASTS 압축 포맷을 지원하고 Open GL 4.3과 Open GL ES 3.0에 대응한다.

이전 T60X 시리즈에 비해서 약 50%의 성능 향상이 있다고 한다.

벤치마크상 헥사코어버전의 성능은 퀄컴의 Adreno 330과 거의 비슷한 성능, 다만 Mali계열은 이전까지 6개월 정도 드라이버 최적화 과정 후 성능이 눈에띄게 올라가는것이 다반사였기 때문에 조금 더 지켜볼 필요가 있다.

마찬가지로 T62x 시리즈도 사람들의 관심사에서 멀어질 때 쯤 하여 최적화 드라이버가 기기에 적용되었다. 특히나 Open GL ES 3.0 환경에서 프레임이 2배 가 되어, 상대적으로 차이가 많이 나던 Adreno 330 기기과 정말로 동급이 되어 버렸다. 일해라 ARM !! Adreno 330대비 비교적 떨어지는 프레임도 동급이 되어 버리고, 결정적으로 T62x 시리즈는 Open GLES 3.1 API를 지원하면서 Adreno 330과의 경쟁은 T628 mp6의 판정승(...) 다만 이제는 아무도 신경쓰지 않지만...

여담으로, GPU 명에 마지막으로 들어가는 숫자는 최대 코어 개수를 의미한다. 때문에 엑시노스 5420이 T628을 옥타 코어가 아닌 쉐이더 코어 2개를 덜어내어 헥사 코어로 사용하고 있다.

3.3.1.1 Mali-T622

파일:JtNwZk0.jpg

듀얼코어 기준
클럭성능타겟공정
? MHz? Mtri/s, ? Gpix/s32nm , 28nm
3.3.1.2 Mali-T624

파일:BhZTV55.jpg

쿼드코어 기준
클럭성능타겟공정
? MHz? Mtri/s, ? Gpix/s32nm , 28nm
3.3.1.3 Mali-T628

파일:GWl1iOk.jpg

옥타코어 기준
클럭성능타겟공정
695 MHz? Mtri/s, ? Gpix/s32nm , 28nm

3.3.2 Mali-T678

옥타코어 기준
클럭성능타겟공정
? MHz? Mtri/s, ? Gpix/s28nm

1개의 쉐이더 코어당 4개의 ALU모듈[7]이 있으며, 이는 이전 Mali T658의 개선 버전으로 추정됨.
다만 시장에 실 탑제된 제품이 출시되지도 않고, 어느 순간부터 ARM의 제품 리스트에서도 사라졌다.

3.4 3세대 Midgard

3.4.1 Mali-T720

파일:5f2lydf.jpg

옥타코어 기준
클럭성능공정
650 MHz650 Mtri/s, 5.2 Gpix/s, 88.4 GFLOPS28nm HPM


2013년 10월 발표된 ARM의 새로운 중급 라인업의 GPU이다. 2세대 Midgard 기반의 GPU지만[8], 일단 라인업상 Mali-450을 잇는 중급 라인업. 그러나 공개된 스펙을 보면 중급의 그것이 아닌데, 현세대인 Mali-T62X 시리즈와 비슷하거나 그 이상의 성능을 보여준다. [9]

현재 시장에서 T62X시리즈를 탑재하고 시장에 출시된 제품은 엑시노스 5 시리즈가 유일하며, 이것은 Utgard 기반의 GPU가 라이센스와 양산이 쉬워서 많은 제조사들이 채택했다는 것에 비해서 너무 접근성이 떨어진다는 상황을 잘 보여주고 있다. 양산이나 설계 능력이 떨어지는 제작사들은 Midgard 보다는 기존의 Utgard 기반의 Mali-450을 탑재하고 있는 상황에서 양산의 용이성을 높이고 성능 효율을 끌어올린 기존 T600 시리즈를 최적화한 버전이라고 할 수 있겠다.[10]

나중에 상세히 밝혀진 바로는 각 코어의 연산 모듈의 수가 1개로 같이 공개된 T760의 반토막 버전.

실 제품은 2015년 하반기나 되어서 출시 되었는데, 탑재제품이 대부분 보급형을 타겟 성능으로 잡아서 1~2 코어 구성으로 나왔다. 따라서 GFX벤치 2.7 티렉스 기준 25fps를 찍어주는 T628 헥사코어에 비해서는 성능이 낮게 나온다. 엑시노스 7580의 Mali-T720MP2가 티렉스 14fps정도를 찍는 수준으로 Adreno 320과 비슷한 성능이다. 실 제품으로 출시된 T760의 다이 크기가 생각보다 거대해서[11]여전히 삼성 위주로 사용 되었다는 것과 대비해보면, T720은 2015년 현재 최신 API인 Open GLES 3.1을 지원하며 무난히 중~저가형 포지션을 책임 질 만큼의 성능과 생산성을 가진 GPU IP로 각광 받고 있다. [12]

3.4.2 Mali-T760

파일:FEGVdn3.jpg

16코어 기준
클럭성능공정
695 MHz1390 Mtri/s, 11.2 Gpix/s, 378 GFLOPS28nm HPM

Mali-T720과 같이 공개된 하이엔드 라인업. 공개된 성능만으로 보면 Mali-T720과 같은 코어로 추정되며, 최대 16개의 코어를 추가할 수 있다. 각 코어당 2개의 연산모듈이 들어가며, 전력효율은 기존 1세대 Midgard인 T604의 4배라고 한다.[13]

압축 기술인 AFBC(ARM Frame Buffer Compression)과 Smart Composition 기술을 적용해, 이미지와 텍스쳐를 읽어들일 때 기존보다 메모리 대역폭과 전력 소비가 50% 줄었다고 한다.

이론 성능이 엑스박스 원의 것[14]과 가까워졌다. 차세대 테그라인 프로젝트 로건을 뛰어넘는 수준. 물론 실제품에 저 16코어가 다 들어갈 일은 없다.

CES 2014에서 첫 탑재 AP가 공개되었다. 제조사는 중국의 락칩. 4개라는 비교적 적은수의 쉐이더 코어가 탑재된 T764 구성으로도 현재 시장에 정식 출시된 모든 AP를 상회하는 성능을 보여준다고. 다만 어차피 GPU에 몰빵한 테그라 K1이 있어서 안될꺼야 나중에 수율 문제가 있었는지 정식 출시 성능은 발표때의 반토막 보다 조금 높은 성능. 무려 미디어텍의 MP2 구성이랑 성능이 비슷하다.

삼성의 엑시노스 7 Octa (5433)에 헥사코어 구성으로, 7420에 옥타코어 구성으로 들어갔다. 옥타코어 구성의 Mali-T760 772mhz는 FP32 기준 210 GFLOPS의 연산성능과 6.2 GPix/s의 픽셀 필레이트를 보여준다.

보여주는 성능은 동시기 비교군 대비 그리 우월하거나 눈에 띄게 뛰어나지 않지만 다중 코어 구성으로 다양한 라인업에 사용될 수 있다는 예시가 되었다.[15]

여담으로 GPU코어의 다이가 이전 Mali 스럽지 않게 큰 편이다. 1:1 코어 비교시 Cortex A57과 거의 비슷한 크기.

3.5 4세대 Midgard

3.5.1 Mail-T820

파일:JGBHhWi.jpg

4코어 기준
클럭성능공정
650 MHz400 Mtri/s, 2.6 Gpix/s28nm HPM

T720의 개선 버전으로, 각 쉐이더 코어에서 ALU모듈의 수는 1개로 유지하고 성능을 개선, 텍셀 필라이트 성능을 20%끌어올렸다.
ARM의 주장으로는 같은 코어 구성에서 이전 T62x 시리즈 대비 40% 높은 성능을 보여다고 한다.

3.5.2 Mail-T830

파일:Od1wV3z.jpg

4코어 기준
클럭성능공정
650 MHz400 Mtri/s, 2.6 Gpix/s28nm HPM

820에 비해 달라진게 없다?!
드디어 Mali Cost Efficient Graphics 라인업에서 각 쉐이더 코어 당 2 개의 ALU모듈을 갖는 GPU IP이다.

T820 대비 높은 연산성능을 보여줄것으로 예상되며, 같은 코어 구성에서 Mali T62x 대비 55% 높은 성능을 보여준다고 한다.

삼성의 엑시노스 7 Octa 7870 에 싱글 코어구성으로 들어갔다.

3.5.3 Mail-T860

파일:9tdGN6X.jpg

16코어 기준
클럭성능공정
650 MHz1300 Mtri/s, 10.4 Gpix/s, 353.6 GFLOPS28nm HPM

전작 T700 라인업의 동일한 하이엔드급 GPU인 Mali-T760과 동일한 IPC를 가진다. 그러니깐 동일한 코어수와 동일한 클럭수면 동일한 픽셀 필레이트와 동일한 FP32 연산능력을 가진다는 것이다.
다만 전력효율을 전작대비 20% 끌어올렸고 GPU 자체의 효율증가로 동일 클럭에 GFX 3.0 맨해튼 기준 +20%의 성능향상을 보여주었다.
T760이 경쟁작 Adreno나 PowerVR의 GPU보다 전성비가 상대적으로 낮은 문제를 해소한걸로 보인다.

3.5.4 Mail-T880

파일:OVSzhxm.jpg

16코어 기준
클럭성능공정
850 MHz1700 Mtri/s, 13.6 Gpix/s, 693.6 GFLOPS16nm (16 FinFET)

최종보스 등장
점점 GPU의 연산성능을 중요시하는 현세대의 트렌드를 반영하여 드디어 각 코어당 연산 모듈의 수가 3개로 늘어났다.그 효과로 Mali-T860대비 연산능력이 1.5배 상승했다.픽셀,텍셀 필라이트는 동일하다.

2015년 11월 12일 삼성전자에서 공식발표한 엑시노스 8890에 12코어 구성으로 들어가고 하이실리콘 Kirin 950와 955에는 4코어 구성으로 돌아간다.
Kirin 950의 Mali-T880 4코어 구성에 900mhz의 클럭으로 엑시노스 7 Octa (5433)의 Mali-T760 6코어와 Adreno 420과 동일한 성능을 보여준다.

3.6 Bifrost 아키텍처 기반

3.6.1 Mali-G51

ARM Mali-G71

3.6.2 Mali-G71

Mali-G71-chip-diagram-LG.jpg
ARM Mali-G71

1 ~ 32코어 구성이 가능한 유연한 구조이며, Mali-T880 대비 20%의 전력효율 증가, 40%의 성능집적도 증가, 20%의 외부 메모리 대역폭 절약.
차세대 10nm 공정으로 먼저 적용된다. 본격적인 AR/VR, Vulkan 지원 등을 염두에 두었다.

Mali-G71 GPU
아키텍처Bifrost
코어 수1~32
클럭(16nm FinFET 기준) 850 MHz
처리량(16nm FinFET 기준) 850Mtri/s, 27.2Gpix/s
APIOpenGL ES 1.1/1.2/2.0/3.0/3.1/3.2
Vulkan 1.0
DirectX 12 (Feature Level 확인바람)
OpenCL 1.1/1.2/2.0
RenderScript™

4 GPU외 제품 라인업

원래는 GPU가 담당할 비디오의 인/디코딩이나 디스플레이 출력을 위한 Mali 라입업들이 있다. 이는 기존의 GPU가 고사양을 필요로 하는 3D연산을 하는것은 물론, 4K해상도 비디오의 인/디코딩 및 디스플레이 출력 등에 많은 리소스가 필요해짐에 따라서 본래 GPU의 목적인 GPU의 3D연산을 발목 잡거나 리소스의 처리에 GPU를 활용하는것이 전력 효용성이 떨어지는 부분을 보충하기 위한 보조 코어로써 단독이 아닌 Mali T62x/7xx 번대 GPU와 같이 사용되는 것을 전제로 설계되었다.

4.1 Mali Video

4.1.1 Mali-V500

파일:EHVrHmB.jpg

Mali-V500은 최대 8코어 구성의 비디오 인/디코딩 전용 칩이다. 최대 600mhz로 동작하며, 1개의 코어로 1080p 60f의 인/디코딩을, 8개의 모든 코어를 사용하다면, 2160p 120f을 처리 가능하다.

H265를 제외한 대부분의 API를 지원하며, ARM의 대역폭 압축 기술인 ARM Frame Buffer Compression (AFBC)기술로 기존의 50%의 대역폭만 사용하여 영상을 처리할 수 있다.

4.1.2 Mali-V550

파일:6nQ09y8.jpg

4.2 Mali Display

4.2.1 Mali-DP500

파일:UdLyXLb.jpg

2014년 2월 Cortex A17과 같이 공개된 Mali-DP500은 디스플레이 출력전용 칩이다.

비디오의 합성,색채,회전 및 3D효과를 처리하며, 4K 12bit를 VESA, CEA, HDMI and MIPI DPI등의 규격으로 출력이 가능하다.
Mali-V500과 같이 ARM의 대역폭 압축 기술인 ARM Frame Buffer Compression (AFBC)기술로 기존대비 대역폭의 사용이 50%감소.

4.2.2 Mali-DP550

파일:ZldssTN.jpg

4.2.3 Mali-DP650

6794e992d421b9c3c4491eb43dbe323b.png
2.5K 해상도에 최적화 되었고, 최대 4K 60fps까지 출력 가능하다.

5 문제점

Mail 400의 경우 버텍스 성능이 떨어진다는 지적을 받았다.
엑시노스 4412를 예시로 들면 픽셀 필레이트는 2GPix/s 이지만 FP32 연산능력은 19.2 GFLOPS이다.
부동소숫점 연산능력은 버텍스 성능에 영향을 준다.
그리고 Midgard 구조로 오면서 이 문제는 해결되었지만 타사 그래픽에 비해서 전성비가 떨어진다는 지적이 있다.

[1]

저 자료에 없는 Mali-T604가 저 문제가 가장 심각한 것으로 알려져 있고 저 자료를 보면 맨해튼 벤치마크의 전성비 항목에서 Mali-T628 같은 경우는 꽤 양호하지만[16] Mali-T760의 경우 낮은 전성비의 문제가 꽤 심한것이 보여진다. 물론 Adreno 430도 420보다 더 정밀한 공정인 TSMC 20SoC를 사용하지만 420 대비 전성비가 오히려 급락하고 문제가 되는 T760은 14LPE 공정으로 전성비가 2배정도 급등한거 보면 GPU 설계를 직접 이용하는 AP 제작 회사(팹리스/파운드리 둘다)의 능력이 중요한걸 알수있다.

6 관련 문서

  1. 이후 이 회사는 ARM 노르웨이 지사로 개편되었다.
  2. Mali-400의 최대 구성 가능 개수
  3. 최대 지원 개수
  4. 최대 지원 개수
  5. Midgard 아키텍쳐는 1ALU당 FP32 성능이 17 ops/cycle이고 Mali-T604에는 4코어 기준 8ALUs가 들어간다.
  6. Midgard 아키텍쳐는 1ALU당 FP32 성능이 17 ops/cycle이다.
  7. Midgard 아키텍쳐는 1ALU당 FP32 성능이 17 ops/cycle이고 Mali-T678에는 T658과 마찬가지로 8코어 기준 32ALUs가 들어간다.
  8. T700 시리즈로 넘버링이 올라가면서 3세대 미드가르드로 바뀌었을 가능성을 배제할 수 없으니, 세대가 밝혀지면 추후에 수정 바람.
  9. 전력효율은 150%, 성능은 50% 상승이라고 하는데, 기준이 Utgard 라고 하면 너무 높고 Midgard 라고 한다면 낮다.
  10. 특히 중요한 점은, 동일 공정에서 다이 사이즈도 30% 줄었다는 것.
  11. 1코어가 동 공정의 Cortex A57 1코어와 거의 같은 크기
  12. 이것이 어느정도 영향이 있었는지, 미디어텍 같은 경우 자사의 ARM v8 라인업에서 1세대 제품을 재빨리 단종 시키고, GPU를 T760에서 T720으로 다운그레이드 시킨 2세대 모델을 시장에 일찍 출시하였다.
  13. 다만 순수 아키텍쳐 개선이 아닌 공정밀도 미세화까지 반영된 전력효율이다.
  14. 28nm HPM 기준, 853MHz에서 1600MTri/s, 13Gpix/s
  15. 시장에 출시된 제품으로 비교해 보자면 단순 코어 수 조절 만으로, MP2 = 퀄컴 Adreno 320 / MP4 = 퀄컴 Adreno 330 / MP6 = 퀄컴 Adreno 420 / MP8 = 퀄컴 Adreno 430 과 비슷한 성능을 낼 수 있다.
  16. 갤럭시 알파 자료를 보면 4W대의 전력소모로 전성비가 하위권이지만 메이주 탑재 T628을 보면 3W대의 소비전력을 보여주고 이 자료를 보면 3W대의 소비전력을 가지는거 보면 3W정도의 전력소모를 보여줄거라는게 중론.