벤치마크

  • 이 글은 전자기기의 테스트에 관해 설명하고 있습니다. 경영학에서의 용어는 벤치마킹을 참고해 주세요.

1 사전적 의미

일반적으로 컴퓨터, 스마트폰 등 전자기기의 연산성능을 시험하여 수치화하는 것을 말하는 단어.

본디 벤치마크의 사전적 의미는 '토지 측량에서 사용되는 수준 기표'를 의미한다. 즉 어떤 것이 높고 낮음을 나타내는 기준점을 의미하는데, 현대용어 사전에서는 이를 '명백한 판정으로 결정 지을 수 있는 표준'이라고 확대 해석하고 있다. 즉 벤치마크가 담고 있는 의미는 조사대상을 여러 가지 방법으로 측정하여 누구라도 인정할 수 있도록 표준화시키는 과정이라고 할 수 있다. 특히 전산용어로써 벤치마크는 여러 가지 전자기기의 성능을 비교 평가하는 의미의 동사로 쓰이고 있으며 주로 소프트웨어보다는 하드웨어 부분에 많이 적용되고 있다.

2 점수의 사용도

벤치마크 점수는 매니아들의 심도 있는 구매가이드와 같은 역할을 하고 있으나, 테스트 기준과 방법에 따라 의도적으로 잘못된 결과를 만들 수 있는 것 또한 가능한 일이기 때문에 일반 소비자들을 현혹시키는데 악용될 수도 있다.

때문에 일반적으로 구매평이라는 것과 상호보완될 때 벤치마크 점수는 제 역할을 할 수 있다고 보면 되겠다. 또한 단순히 점수를 합산하는 것보다 세부적인 항목에서 어떤 결과를 나타내는가 또한 더욱 중요해지고 있다.

벤치마크 시 중요한 점은 테스트 툴과 환경, 그리고 기기 상태에 따라 점수가 왔다갔다할 수 있다는 점이다. 이를 잘 고려하여 시행한 결과는 일반적으로 높은 신뢰도를 얻는다.

PC의 그래픽카드에서는 크라이시스가 등장이후 필수요소화 되었다. 그 이후에는 메트로 2033이 있다. TV 업계에서는 자체적으로 테스트용 영상샘플이 주어지는데 Demonstration Disc 이라는 이름으로 제조사(삼성전자,LG전자,소니,파나소닉)등이 자체적으로 벤치마킹 전용 디스크를 배포한다. 또는 대표적으로 아바타,살아있는 지구 등이 자주 사용되는 편.

3 의미가 없다?

OS가 다른 경우 벤치마크 테스트 결과 비교 분석이 의미가 없다는.. 주장도 있다. 특히 모바일 쪽에서 iOS와 안드로이드, 윈도우 기기간 벤치마크 테스트를 한다음 비교 리뷰하는게 무의미하다고 생각하는 이들이 있다. 이런 주장의 근거로 제시되는 것들로, 긱벤치의 경우 I/O에 큰 점수를 주는데 안드로이드의 경우 달빅 위에서 도는지라 I/O가 조금 느려 점수가 깎인다고 한다(긱벤치만 달빅위에서 돌고 다른앱들은 모두 네이티브로 돌아가고 하지도 않는데 불공정하다고 할수 있을까?). 선스파이더나 산드라 역시 xcode쪽으로 최적화가 되어 있다고 알려져 있어[1] 안드로이드의 점수가 iOS보다 비교적 안좋게 나온다는 것. 그래서 구글은 Octane(옥테인)이란 벤치마크를 만들기도 했었다.

다만 위 주장은 과장이 있는 것이, 일부 벤치마크 소프트웨어가 한쪽에 최적화되어 있을 수는 있지만 그로 인해 생기는 오차는 생각보다 크지 않다. 참고로 말하자면 아이패드 에어아이패드 미니 레티나 모델은 구글이 내세운 옥테인에서도 높은 벤치마크 스코어를 찍었다. 게다가 안드로이드가 달빅 위에서 구동한다는 건 누구나 인정하는 안드로이드의 한계이자 성능을 깎아먹는 문제가 맞으며 벤치마크 테스트에서 이게 드러나야 하는건 당연한 것이다.[2] 애초에 벤치마크 테스트 결과가 사용자들이 느끼는 "체감 성능"을 수치로 설명하는데 널리 사용된다는 것을 보면 저런걸 수치화하는게 문제라고 볼 수는 없다. 안드로이드 기기의 이러한 한계는 단순 하드웨어 스펙 수치에서 나타나지 않는 소프트웨어 관련 부분이다.

당장 저 주장이 말이 되다면 iOS, 안드로이드, 윈도우 모바일 기기를 벤치마크 테스트로 지금도 열심히 비교분석하고 있는 대다수의 전문 IT 리뷰어들은 헛짓을 하고 있다는 말이 된다. 이들도 벤치마크 테스트의 한계를 모르는게 아니기 때문에 벤치마크 테스트를 한개만 돌리는게 아니라 5-10가지를 돌리면서 OS간 성능 비교분석을 하므로, 일반 사용자 입장에선 충분히 지표로 활용할 수 있다. 그게 싫으면 그냥 하드웨어 수치놀음에 낚이며 살든지.

벤치마크 테스트에 여러가지 이유로 오차가 존재할 수 있다는 주장이 틀린건 아니며 그건 수많은 IT 기기를 테스트하는걸 업으로 삼는 전문가들도 모르는게 아니다. 하지만 거기서 더 나아가 iOS와 안드로이드, 윈도우의 벤치마크 분석이 아예 무의미하다고 단정짓는건 침소봉대급 주장이라고 봐도 무방하다.

한편, 같은 안드로이드끼리도 벤치마크 점수가 의미가 없다고 하기도 한다. 첫 번째로 서로 다른 기기의 경우 최적화 정도가 다를 때, 예를 들어 넥서스 5는 G2나 갤럭시 S4같은 폰에 비해 스펙상으로나 벤치마크 점수상으로나 모두 밀리지만 최적화가 잘 되어 오히려 반응성이 좋다고 평가된다. 두 번째로 같은 기기에서 서로 다른 커스텀롬을 올리는 경우. 이 경우는 스펙도 같고 최적화 정도도 비슷하지만 롬이나 커널 상에서 추가한 패치나 트윅이 체감에 비해 벤치마크 점수에 더 큰 영향을 미치는 경우다. XDA에서는 개발자들이 나서서 커스텀롬을 점수로 비교하는것은 무의미하다고 열을 올리기도 한다.

4 벤치마크 조작

벤치마크 테스트도 소프트웨어를 돌려서 하는 것이니만큼 조작이 가능할 수 있다. PC쪽도 그런 일이 가끔 크게 한번씩 터졌고, 애플도 2000년도 초기에는 매킨토시에서 의혹이 제기된 바 있다. 최근 모바일 기기 쪽에선 상당수 프리미엄급 안드로이드 기기들이 조작을 하다가 걸렸는데 삼성전자, HTC, LG 같은 아시아쪽 제조사들이 그런 짓을 했다. 2013년에 IT기기 리뷰 사이트인 AnandTech에서 밝혀낸 것으로, 그전부터도 일부에서 의혹은 제기되고 있었던 문제인데 "정말 그런가?"해서 한번 실험을 해보니 사실로 드러났던 것이다(...). 해당 기기들은 특정 벤치마크 앱이 구동되면 이걸 인식하고 평상시와 다르게 비정상적으로 풀가동을 함으로써 벤치마크 수치가 높아지도록 하게끔 코드를 심어놓았다가 걸린 것이었다. 삼성전자는 이 의혹에 대해 극구 부인하고 해명까지 올렸지만, 이 해명이 또 거짓인게 밝혀진 후에는 함구하는 중. 이 때문에 한동안 해당 기기들에 대해 정정 리뷰들이 올라오기도 했다. 한 웹사이트에선 해당된 삼성과 HTC 기기들을 블랙리스트 처리까지 하는 등 여러모로 파장이 컸다. 그 이후로 AnandTech에선 이런 꼼수를 우회하는 방법을 찾아내 적용해왔다고.[3]

그렇게 잠시 논란이 사그라드나 했더니 HTC는 2014년에 출시한 hTC ONE M8에서 좀더 치밀한 방식으로 조작을 했다는게 드러났다. Anandtech은 용케 이것도 잡아냈다(...). 흠좀무 대단한 녀석들

긱벤치 등의 벤치마크 테스트의 경우 지나친 ARM편향성 및 OS편향성이 지적되기도 하며 이에 대해 리누스 토르발즈가 비판하기도 하였다. #, 참조
그러나 이러한 지적은 벤치마크 조작에 대한 비판과는 별 상관이 없는 벤치마크 자체에 대한 비판으로 봐야 한다.
벤치마크 조작이 비난받는 이유는 전자기기 제조사들이 벤치마크 테스트 결과가 기기 구매에 영향을 미친다는 것을 인지하고 그에 따라 결과가 긍정적으로 나오게끔 조작을 한 것이기 때문이다. 여기서 벤치마크 테스트 자체에 대한 비판은 논점 흐리기일 뿐이다.

컴퓨터나 스마트폰 외에서도 비슷한 사례가 발생하였으니 바로 디젤게이트 사건이다. 여러모로 위의 모바일 기기 벤치마크 조작 사건과 비슷한 사건이다.

5 벤치마크 툴 목록

참고기사: 어떤 벤치마크를 써야 하나요

  • Prime95 - AMD, 인텔 가리지 않고 사용하는 벤치마크 툴. 원래는 CPU 성능 테스트나 오버클럭과는 별 연관이 없는 프로그램이었다. 자세한 내용은 항목참조.
  • LinX&인텔번 - 인텔이 개발한 린팩 바이너리에 GUI를 씌워 더 직관적으로 만든 프로그램이다. 링스와 인텔번은 외형상의 차이일 뿐 근본적으론 동일한 프로그램이란 얘기.[4] 원래는 인텔 Only가 아니었으나, AVX 도입 이후로는 주로 인텔 프로세서에서 안정화 확인을 위해 사용된다. 잔차 값과 GFlops 값이 비교적 일정하면 안정화가 된 것으로 보고, 차이가 많이 나거나 잔차값이 일정하지 않으면 불안정한 상태로 본다. 버전에 따라 지원 가능한 명령어의 종류가 차이가 있기 때문에 AVX/AVX2 를 지원하는 CPU들은 버젼을 잘 보고 구동하면 된다. 당연히 최신 명령어를 구동하는 버전일수록 더 빡세다.[5]
  • 3DMark - 이분야의 창시자급 프로그램으로 PC 그래픽의 성능을 측정한다.
  • Cinebench - 그래픽 계열에 3Dmark가 있다면 CPU 성능 측정을 할 때 많이 쓰이는 프로그램이다.
  • CrystalDiskMark - HDD, SSD, USB메모리 등 컴퓨터의 저장장치의 성능을 측정
  • Geekbench - 전자기기의 CPU,메모리 부분 측정을 위한 프로그램.4버전에선 GPU 부분 측정기능도 추가됨
  • GFXBench - 3.0과 3.1이 있으며 모바일 AP의 GPU 부분 측정을 위한 프로그램이다. 다른 벤치마크 프로그램과는 다르게 점수 계산은 일정 시간동안 구동된 화면의 총 프레임수로 계산된다.
  • Antutu
  • BAPCo MobileMark - 노트북 컴퓨터, 컨버터블 PC, 태블릿 PC등의 배터리 사용시간을 재는 벤치마크툴. 대부분의 PC 제조사들이 이툴을 기준으로 배터리 가용시간을 홍보하는데, JEITA와 함께 뻥튀기가 심하다는 평을 듣는다. 그래도 실사용시간의 10배로 나오는 JEITA보다는 낫다 BAPCo는 아래 SYSmark를 만든 회사이기도 하다
  • SYSmark - 현재 벤치마크 사기 문제로 고소당했다. SYSmark 2012에서 사기치다 걸려서 NVIDIAAMD, VIA 등이 여기서 탈퇴했었지만 2014 버전에서도 여전히 문제가 많다.[6]
  • SPEC - 컴퓨터 사용 목적에 맞춰 특화된 벤치마크 도구들을 제공한다. 서버 벤치마크등에 사용되지만 컴덕들 사이에서의 인지도는 조금 낮은 편.
  1. 출처는 정확히 없으나 그렇게 알려져 있다. 발견하면 추가바람
  2. 2014년 공개된 안드로이드 L 발표에서 기존 버전들의 한계를 극복하겠다는 구글의 행보가 보이긴 했다.
  3. 방법은 의외로 간단해서 벤치마크 앱의 이름을 바꾸고 내부 애플리케이션 ID를 바꿈으로써 소프트웨어 인식이 안되도록 했다고 한다.
  4. 다만 버전의 갱신이 링스 쪽이 더 자주 이뤄지는데다, 더 직관적이라 현재는 인텔번은 반쯤 사장되었다.
  5. 당연하지만 CPU도 그 명령어를 지원해야 한다. 하지만 기존 명령어에서도 최적화가 이뤄지므로 구형 CPU라도 최신링스의 영향을 아예 안 받지는 않는다.
  6. AMD에 의하면 다른 벤치마크에서는 6%, 7%밖에 차이가 나지 않는 AMD/인텔 프로세서가 SYSmark 2014에서는 무려 50%가 차이난다고 한다.