슈퍼컴퓨터

~~슈퍼마켓 컴퓨터에 대해서는 POS기 문서를 참조하십시오.~~

관련 문서 : 컴퓨터 관련 정보

1 개요

일반적인 컴퓨터에 비해 월등한 연산 능력을 보유한 컴퓨터를 말한다.

어느정도 연산 능력을 가져야 슈퍼컴퓨터라고 불릴 수 있는지는 논란의 여지가 많다. 연산량의 증가 속도가 매우 빠르기 때문에 10년 전 세계 최고 수준의 컴퓨터라도 현재에는 명함도 못 내밀기 때문이다. 당장 현재 스마트폰의 성능은 70년대 가장 빠른 컴퓨터보다 빠르다. 이를 위해 [1]에서 매년 두 차례씩 LINPACK 밴치마크를 통한 슈퍼컴퓨터 순위를 제공하며, 슈퍼컴퓨터에 대한 가장 주요한 통계 자료로 사용된다. 다만 보안이나 아키텍쳐 문제 등으로 충분한 성능이 있더라도 집계되지 않는 경우가 있다.

2 상세

'슈퍼컴퓨터'란 대규모의 연산을 초고속으로 수행하기 위해 만들어진 컴퓨터로, 요즘의 컴퓨터가 인터넷 단말기 + 게임기에 가까워지고 있는 반면 이건 진짜 계산만을 위해 만들어진 컴퓨터이다. 슈퍼컴퓨터는 사용자와의 상호작용성(User Interaction)이 매우 떨어지며 따라서 이걸로 게임은 못 한다. 과거에는 외부로 나가는 네트워크 대역폭이 없거나 너무 좁은 관계로 게임 서버조차도 돌릴 수 없어서 기술적인 문제로 게임 같은 건 도저히 돌릴 수가 없었고, 지금은 대역폭이 상당히 나오기 때문에^[1]연산결과를 실시간 VR로 뽑아볼 수도 있을 정도가 되어서 적어도 기술적으로는 게임을 돌릴 만하게 되었으나 문제는 괴물 같은 스펙을 지니는 슈퍼컴퓨터에서 돌리는 걸 상정해서 개발한 게임은 하나도 없다는 것.~~워게임, 체스, 바둑, 퀴즈게임~~ 당연한 얘기지만 아무리 하드웨어의 스펙이 좋아도 적절한 소프트웨어가 준비되지 않았으면 말짱 꽝인 법이다. 이건 애초에 어마무지 값비싼 슈퍼컴퓨터로 게임을 돌리는 건 어떻게 보아도 명백한 예산낭비라서 그렇다. 아무튼 그런 것이 하고 싶으면 슈퍼컴퓨터보다는 클라우드 컴퓨팅 쪽을 알아보자. 뭐 당신이 빌 게이츠 급이라면 슈퍼컴퓨터에서 돌릴 수 있는 게임을 만들어달라고 의뢰할 수는 있겠지만, 그렇다고 딱히 일반 게임과 비교해서 특출나게 재미있을 리도 없다.

과거 슈퍼컴퓨터는 계산에 특화된 특수 아키텍처와 통신 매커니즘을 가지고 CPU도 전용 칩을 사용했지만 지금은 대다수가 인텔에서 제조하는 범용 마이크로프로세서를 사용한다.^[2] 다만 계산만 빨리 하면 하드웨어는 뭘 써도 상관이 없기 때문에 PowerPC, AMD 프로세서나 GPGPU로서 엔비디아나 인텔의 가속 카드도 사용한다. 또한 요즘 떠오르고 있는 클라우드 컴퓨팅 분야 중 계산 클라우드도 슈퍼컴퓨터와 유사한 용도로 사용할 수 있다.

다만, 이처럼 다양한 프로세서들을 이용하여 연산을 주로 담당하는 주전산기를 구성하고는 있지만, 연산 이외의 데이터 처리는 여전히 고전 프로세싱 메커니즘을 따르고 있다. 즉, GPGPU 혹은 SoC 병렬 주전산기는 단순히 계산기의 역할을 하고 이 계산기를 통제ㆍ관리하는 것은 일반적인 워크스테이션이나 데스크탑 컴퓨터이다. 실제로 TITAN 슈퍼 컴퓨터 같은 경우는 NVIDIA사의 TESLA GPU를 병렬 연결하여 주전산기를 구성하고, 그것을 IBM POWER 프로세서를 기반으로 하는 워크스테이션이 통제하는 형태이다. 이렇게 대규모 코어 주전산기를 외부 컴퓨터가 관리하는 이유는 운영체제 개발의 난점 때문이다. 현재의 소프트웨어 기술 수준에서는 수 만에서 수 백만에 이르는 프로세서 전부를 직접적으로 관리하는 운영체제를 개발하기가 극도로 어렵다.

한편, 계산 클라우드는 통상 슈퍼컴퓨터라 부르지 않는다. 이는 계산 클라우드가 고전적 슈퍼컴퓨터와는 운영 방식이 다르기 때문이다. 슈퍼컴퓨터는 소수의 사용자가 매우 복잡한 연산을 처리하는 것을 주 목적으로 하고, 계산 클라우드는 많은 인원이 비교적 강도가 낮은 연산을 하는 것을 주 목적으로 한다. 즉, 계산 클라우드의 경우에는 단순한 연산 데이터가 많이 모여 빅 데이터를 이루는 데 반해, 슈퍼컴퓨터의 경우에는 데이터 자체는 크지 않고 계산 부하가 크다.

3 국가 별

[2]에서 국가 별 슈퍼컴퓨터 순위를 확인할 수 있다.

현재 중국이 미쳐날뛰고 있는 분야 중 하나다. 2001년 ‘탑 500’순위에 중국의 슈퍼컴퓨터가 한 대도 포함되지 않았었는데, 2016년에는 수량에서도 미국을 제친데다가 1, 2위조차 모두 중국 것이라는 점을 생각하면 어마어마한 성장 속도다.

2016년 6월 현재 중국의 최신형 슈퍼컴퓨터인 선웨이 타이후라이트는 현존하는 설계 방식이 아닌 전혀 다른 새로운 설계 방식으로 전 1위인 텐허-2를 압도적으로 누르며 1위를 차지하였다.관련기사 이례적인 방식이라 범용성이 좀 떨어지는 단점이 지적되긴 하지만, 그 성능까지 거짓은 아니다.^[3] 텐허-2의 2.8배에 해당하는 93페타플롭스를 기록했다.~~미친 대륙클라스 ㄷㄷ~~ 슈퍼컴퓨터의 사기적인 발전 속도를 고려해도 미국에서도 2018년까지 중국을 과연 추월할 수 있을지 의문이라고 한다. 미국은 텐허-2에 밟힌 자존심을 회복하고자 텐허-2의 20배 성능의 슈퍼컴퓨터를 만들겠다고 계획을 세웠는데, 미국에서도 혁신이 일어나지 않는 이상 쉽게 따라잡기 힘들 것으로 예상되고 있다. 관련기사

다만 미국 최고성능의 슈퍼컴퓨터인 Titan은 코어 약 56만개로 17.59페타플롭스의 성능을 뽑아낸 반면, 선웨이 타이후라이트는 무려 코어 천만개(!)를 박아넣어 93 페타플롭스의 성능을 보이는 것이기 때문에, 무지막지한 코어 갯수에 비해 효율성은 그다지 좋다고 볼 수 없을지도 모른다.

2016년 01월까지의 최고성능의 슈퍼컴퓨터는 중국의 텐허-2로 33.862 페타플롭스의 연산능력을 자랑한다 2위는 2012년까지 1위였던 미국 크레이가 만든 Titan이다. 17.59 페타플롭스^[4]의 연산능력을 자랑한다. 3위는 미국 IBM의 Sequoia로 2012년 6월까지 1위였으며, 16.324 페타플롭스의 연산능력을 가졌다. 간단한 비교를 하자면 여러분 PC에 꼽힌 CPU 한 개가 빨라봐야 300~400 기가플롭스 정도^[5]이고 따라서 Titan은 여러분 PC 8만 대를 모아놓은 것과 똑같다. ~~좌석수 8만 개짜리 PC방~~ 미국은 1위 재탈환을 위해 2025년까지 텐허-2보다 20배 빠른 컴퓨터 개발에 나섰다. #

슈퍼컴퓨터 세계 500위 안에서 가장 많은 수를 보유하고 있는 나라는 슈퍼컴퓨터라는 개념이 탄생한 이래로 미국이었지만 2016년에는 중국이 미국을 추월했다. 2016년 6월 기준 500대 중 연산속도에서 압도적으로 1위인 선웨이를 포함해 167대가 중국에 있다. 2위인 미국은 165대, 일본이 29대로 3위를 기록했다.#

우리나라의 경우 2001년 11월에 16대로 절정을 이뤘고, 2016년에는 기상청이 보유하고 있는 미리(36위)와 누리(37위)를 포함해 총 7대가 Top 500 안에 들고 있다.# 2011년 12월에 국가슈퍼컴퓨팅육성법이 발효되고 2012년에 국가초고성능컴퓨팅 위원회를 발족하여 국산 슈퍼컴퓨터 개발에 착수하고 있지만 4년간 이렇다할 움직임도 없이 사실상 방치되고 있다.# 목표는 2025년까지 연산속도 초당 30페타플롭스의 성능을 가진 슈퍼컴퓨터를 국산화하는 것인데 이 정도의 성능은 2016년 현재 1위인 선웨이의 절반의 절반 수준인 성능이기 때문에 계획대로 달성한다 해도 시기상 매우 늦다고 볼 수 있다.

순수하게 연산속도만을 측정하는 Top 500말고도 1와트 소모 당 성능비(전성비)를 측정하는 Green 500과 슈퍼컴퓨터의 범용성을 파악하는 빅데이터 해석능력을 측정하는 Graph 500 순위가 있는데 두 순위 모두 2016년 6월을 기준으로 일본의 K-컴퓨터가 5년 연속 1위를 차지하고 있다.###

4 역사

슈퍼컴퓨터의 대명사였던 크레이가 슈퍼컴퓨터를 최초로 만든 건 사실이지만 그 당시엔 아직 CDC라는 곳에서 일하고 있던 엔지니어였다. 세계최초의 슈퍼컴퓨터의 성능은 당시 기준으로 3배의 성능이었고, 1964년부터 1969년까지 세계 최고속으로 군림하였다. 그래봤자 10 MHz에 XT보단 빠르고 286도 안 되는 성능이었지만 생산된 50대 대부분이 핵실험에 쓰였다.

1969년에 나온 새로운 슈퍼컴퓨터는 10배 성능이 향상되었으며, 이는 펜티엄 75 MHz 수준의 성능이었다(...). 점점 밀집화되는 내부 구조로 인해 본격적으로 쿨링시스템이 장착되기 시작한 최초의 컴퓨터이기도 하다. 이후로, CDC는 또 다시 10배 성능을 올린 슈퍼컴퓨터를 기획했으나 발전 방향이 다르다고 생각한 크레이는 퇴직하고 후에 슈퍼컴퓨터의 대명사가 된 크레이社를 세운다.

1975년에 나온 Cray-1은 시장에서 대 히트를 칠 수 있었다. 최초로 나온 제품의 성능은 펜티엄3 600MHz 정도였으며, 이때까지만 해도 모든 컴퓨터는 단일 CPU 코어를 사용했지만 1983년에 나온 MP로 최초로 병렬컴퓨팅이 이루어진다. 마지막에 나온 4코어 MP 모델의 성능은 800 MFLOPS로 펜티엄 4 프레스캇 3GHz 급에 달했었다.

하지만, 이후로 나온 Cray-2는 수냉을 도입했다가 고장으로 인해 제대로 팔지도 못했고, 1993년에 나온 Cray-3는 팔 곳이 사라져 버려서 회사가 파산해버리게 된다. 이렇게 된 이유는 주된 수요처였던 미 국방부가 냉전이 끝나면서 예산 감축 및 핵무기 실험을 할 필요가 없어졌기 때문이다. 참고로, 마지막에 나온 Cray-3는 16코어로 돌렸으며 성능은 인텔 샌디브릿지 i7 정도의 성능이었고, 이후에 나올 Cray-4는 64 코어에 세계 최초로 1 GHz를 돌파한 CPU를 채용할 제품이었다. 크레이는 병렬 컴퓨팅을 이용한 슈퍼컴퓨터는 프로그래밍 기술의 미발달로 인해 그가 죽기 전엔 진보할 수 없을 것이라 예측했는데, 아이러니하게도 1996년 그가 교통사고로 사망하자 마자 병렬 구조 슈퍼컴퓨팅이 초고속으로 발전하면서 그의 말을 입증시켰다(...).

현재 Cray 사는 인터코넥트 사업을 인텔에 넘기고 인텔과 파트너십을 강화하는 한편, 인텔의 Xeon Phi이나 NVidia의 GPU를 이용한 가속기를 통해 뽕을 뽑아내려는 추가하는 추세에 적극 발 맞춰나가고 있다. 독자적인 CPU를 생산하던 업체는 다 망하고 지금은 인텔 제온이나 AMD 옵테론 및 GPGPU를 이용해서 만드는 슈퍼컴퓨터가 거의 장악한 상태다. 아직까지 현용 슈퍼컴퓨터 분야에서 버티고 있는 독자 CPU는 IBM의 POWER 아키텍쳐와 오라클의 SPARC 정도이다. 두 회사 모두 기업/정부 시장의 베테랑에 메인프레임급 이상 하드웨어 분야의 끝판왕이라고 할 수 있지만 결국 X86이 이 시장까지 치고 올라오며 이 두 회사의 독자 아키텍쳐도 전망이 밝다고는 하기 힘든 실정이다.

현대 슈퍼컴퓨터는 이미 수백만개 이상의 코어를 탑재하고 있으며 시간이 지날수록 이 숫자는 폭발적으로 증가할 것으로 예상된다.

최근에는 일부 컴퓨터 애호가 중에서는 최신형 하드웨어를 장착한 고가의 PC를 슈퍼컴퓨터라고 지칭하는 경우가 있다. 물론 전문가나 전공자 앞에서 이런 말을 했다간 무식하다고 욕먹기 딱 좋을 것이다. 물론 개인용 컴퓨터가 시간차를 두고 슈퍼컴퓨터를 따라잡기는 한다. 이를테면 1996년 체스 세계챔피언에게 승리한 딥 블루는 나름 슈퍼컴퓨터라고 자칭하던 물건이었지만 현재는 그 정도 ELO의 소프트웨어를 스마트폰에서 작동시키고 있다. 이 경우 슈퍼컴퓨터와 스마트폰의 격차가 10년 안팎 정도 된 셈.

4.1 가장 빠른 슈퍼컴퓨터 연혁

TOP500 사이트에 올라온 정보를 바탕으로 작성.

Cray-2

1985년, 1.9 기가플롭스 ^[6]

ETA-10

1987년, 10 기가플롭스^[7]

CM-5

1993년 미국 로스 앨러모스 연구소에서 1024개의 프로세서를 연결하여 59.7 기가플롭스의 성능을 뽑아냈다.

数値風洞 (Numerical wind tunnel)

1993년 일본 국립항공우주연구소에서 140개의 벡터 프로세서를 채용하여 124.2 기가플롭스의 성능을 내는 컴퓨터를 제작하였다. 1994년 잠시 1위를 내줬다가 벡터프로세서를 167개로 업그레이드하며 170 기가플롭스로 다시 1위로 올라섰다.

Intel XP/S 140 Paragon

1994년 미국 샌디아 국립 연구소에서 3680개의 프로세서를 연결하여 143.40 기가플롭스를 달성하였다. 하지만, 업그레이드된 Numerical wind tunnel에게 다시 1위를 내주었다.

히타치 SR2201

1996년 일본 도쿄대학에서 1024개의 프로세서로 232.4 기가플롭스를 달성하였다.

CP-PACS

1996년 일본 츠쿠바대학에서는 2048개의 프로세서로 368.20 기가플롭스를 기록하였다.^[8]

ASCI RED

1997년 미국 샌디아 국립 연구소에서 7264개의 프로세서로 1.068 테라플롭스^[9]를 기록하며, 최초로 1 테라플롭스의 벽을 넘어 섰다. 그리고 2000년까지 1위를 유지하였다.

ASCI WHITE

2000년 미국 로렌스 리버모어 연구소에서 8192개의 프로세서로 4.9 테라플롭스를 달성하였다. 또한 업그레이드 후 7.2 테라플롭스까지 성능을 향상시켜 2001년까지 왕좌의 자리를 지켰다.^[10]

地球シミュレータ(The Earth Simulator, 어스[지구] 시뮬레이터)

2002년 일본 NEC에서 만든 슈퍼컴퓨터로 당시 2위컴퓨터의 7배의 성능인 35 테라플롭스를 기록하며, 2004년 IBM 블루진에게 1위를 내줄때까지 3년간 왕좌의 자리를 지킨 일본의 자존심이었다. 또한, 마지막 벡터형 슈퍼컴퓨터이기도 하였다. 참고로, 이 이후에 등장하는 모든 슈퍼컴퓨터는 병렬형이다. TOP500정보

블루진(Blue Gene)

블루진은 IBM의 슈퍼컴퓨터 솔루션 이름이자, 슈퍼컴퓨터의 이름이다. 미국 에너지부에서 사용중인 블루진이 2004년 1위의 자리에 오른 뒤 업그레이드 하여 2007년까지 계속 1위 자리를 지켰다.

로드런너(Roadrunner)

2008년 6월 공식적으로 최초의 1 페타플롭스 성능을 인증받은 슈퍼컴퓨터이다. 미국 에너지부에서 1페타플롭스 성능의 슈퍼컴퓨터를 업체들에게 요구하였는데, IBM 이 입찰하여 납품한 제품이 바로 로드런너이다. 당시 CPU로는 원하는 성능을 내기 힘들었기에, 플레이스테이션3에 사용되는 Cell 프로세서와 AMD 옵테론 프로세서를 조합하여 요구조건을 만족하였다. 허나 연산속도 대비 전력 사용량이 다른 슈퍼컴의 2배정도인 안습한 성능비로 결국 2013년 해체되었다.

재규어(Jaguar)

사실 2008년 6월에 1페타플롭스 성능을 기록한 슈퍼컴퓨터는 또 한 대 있었는데, 역시 미국 Cray에서 만든 재규어이다. 하지만, 약간 낮은 성능으로 2위를 기록하였고, 로드런너의 언플에 묻히며 주목받지 못하였다. 하지만, 2009년 11월 대대적인 업그레이드를 단행하며, 1.7 페타플롭스로 1위로 올라섰다.

天河-1A(텐허-1A, Tianhe-1A)

2010년 11월 중국은 '텐허(天河)'^[11]라는 이름의 슈퍼컴퓨터를 선보이고 랭킹 1위에 올리며, 미국의 자존심을 짓밟는다. 186,368개의 코어가 사용되었고, 2.5 페타플롭스의 성능을 기록하였다.

京(K-컴퓨터)

2011년 6월, 일본은 후지쯔와 국립기초과학연구소인 이화학 연구소(RIKEN)의 주도로 개발되어 548,352 코어라는 어마어마한 물량공세를 펼치며 8 페타플롭스라는 성능을 뽑아내는 K-컴퓨터^[12]를 발표한다. 이는 중국 텐허의 거의 3배 성능을 내는 엄청난 성능이었다. 추후 과거 어스시뮬레이터의 영광을 이어가겠다는 강한 의지를 표명하며, 코어수를 705,024개로 업그레이드 시켰고, 최초로 10 페타플롭스 성능을 돌파해버린다. 탄생 직후부터 응용프로그램에 대한 실제 계산 성능을 측정하는 Gordon Bell Award를 수상했고, 미국 에너지부 주최로 슈퍼컴퓨터의 성능 대비 효율성과 에너지 소비율을 겨루는 HPC Challenge에서 2011년부터 14년까지 4번 연속 수상한데다 연산속도가 세계 5위로 밀려난 2016년에도 전성비와 빅데이터 해석능력 부문에서는 1위 자리를 지키고 있다. 이 문서 아래쪽에 사진이 있다.

세쿼이어(Sequoia)

2012년 6월 중국과 일본에 연이어 자존심을 구긴 미국은 ~~쇼미더머니를 쳐갈기며~~ 무려 1,572,864 코어짜리 슈퍼컴퓨터를 뽑아내었다. 성능은 K-컴퓨터를 압도하는 16 페타플롭스.

타이탄(Titan)

2012년 11월 미국은 세쿼이어로는 모자랐는지 17 페타플롭스 성능의 슈퍼컴퓨터를 하나 더 장만한다. 이것은 코어의 성능을 높이는 전략을 사용하여 세쿼이어의 1/3 밖에 안되는 56만 코어로 해당 성능을 기록한다. NVIDIA TESLA^[13]를 병렬 조합하여 주 전산기를 구성하고 256코어의 IBM POWER 프로세서로 주 전산기를 관리하는 방식을 사용한다. 이 문서의 최상단에 사진이 있다.

天河-2(텐허-2, Tianhe-2)

2013년 6월 중국도 쇼미더머니 신공에 동참하며, 3,120,000 코어짜리를 뽑아내면서 33 페타플롭스의 성능을 기록한다. 대략 수치상으로 세쿼이어 2대를 합쳐 놓은 성능으로 보인다. 2016년 3월 기준 계속 1위를 지키는 중이다.

神威太湖之光(Sunway TaihuLight)

2016년 6월, 3년 연속 1위었던 텐허-2를 제치고 새로운 1위로 등극하였다. 자체개발 프로세서인 SW26010^[14]^[15] 을 40,960개를 합쳐 총 10,649,600 코어이며, 이론상 125 PFLOPS, 실성능 93 PFLOPS로 텐허-2의 2.8배의 연산 성능을 기록했다. 게다가 소비 전력은 15,371 KW로 텐허-2보다 2,437 KW가 낮아 효율 면에서 3위를 차지했다.

5 대상

개인용

파일:Attachment/Cray-CX1.jpg

크레이는 정말 개인용 데스크탑 슈퍼컴퓨터라는 것을 만들어 판 적이 있다. Cray CX1이라는 제품이며, 크기도 정말 일반 데스크탑 컴퓨터보다 조금 더 큰 수준이다. 저 작은 크기에도 불구하고, 8개의 블레이드가 장착될 수 있으며, 블레이드당 쿼드코어 제온 CPU를 2개 장착할 수 있으니, 최대 64코어짜리 시스템이 만들어 질 수 있다. 다만 성능에 비해서 가격이 지나치게 비쌌다. 2008년 당시 2천 5백만원(...). 저걸 잘 써먹을 데가 별로 없다 보니 많이 팔리지는 못했기에, 2012년에 단종되었다.

소호용^[16]

사실 HW만 본다면, 그냥 PC 메인보드를 블레이드 형태로 곱게 쌓아 놓은 것에 불과하다. 인터커넥트에 이더넷을 쓰니까 그냥 클러스터 컴퓨팅 정도의 성능만 나온다. 차라리 일반 컴퓨터 몇대 사다가 연결을 하거나, 중고PC 처분하는데 가서 싹 긁어모은 뒤에 케이스만 자작해도 비슷하게 만들 수는 있다. 블레이드 서버 몇 개와 랙, 그리고 자질구레한 것들을 사서 만들어도 된다. ~~전기료는 책임 못진다.~~ 다만, 이런데 사용되는 OS는 일반 리눅스나 윈도우가 아니며, 병렬 컴퓨팅용으로 특화된 HPC 버전^[17]을 구해서 사용해야 한다. 참고로 이정도 규모라면 1000 코어쯤 되는 구성이 가능하다. 16코어 옵테론 듀얼CPU로 블레이드당 32코어이니 블레이드를 32개 박아넣는다면 가능하다. 물론 메인보드는 E-ATX에 서버랙 높이도 냉장고 이상. 쿨링시스템도 만들어야 한다. 집에선 감당 못 한다. 만들 생각은 하지 말자. 월 전기세가 백만 단위를 찍는 기적을 볼 수 있다. 아니면 서버랙이 달궈져서 바베큐 그릴이 되던가.

기업용^[18]

위의 소호용은 1U 블레이드가 10개 장착되는 랙을 사용하지만, 이 수준 부터는 2U 블레이드 22개가 실장되는 풀사이즈 랙을 사용하게 된다. 위 사진의 경우 그런 랙 16개를 묶어 한세트가 된다. 동급의 블레이드를 사용한다고 가정할 때, 단순한 계산으로도 위의 소호용에 비해서 35배의 성능을 가지게 된다. 실제로는 블레이드의 크기가 더 크니깐 집적도가 훨씬 더 높다. 대략 수천~수만 코어급 수준이며, 이것은 구성을 어떻게 하느냐, 랙은 몇개를 쓰느냐, 돈이 얼마나 있느냐에 따라 천차 만별이다.

기관/국가용

기업용과 기관용은 기기의 아키텍처도 같고 만들어주는 기업도 같지만, 규모면에서의 차이만 있다. 실제로, 국가에서 다루는 돈의 규모는 일개 기업 수준에 견줄 바가 아니다. 사진속의 K 컴퓨터는 대충 세어 보아도 랙의 수가 수백 단위이며, 실제로 50만코어 짜리이다. 이 수준에서는 대략 수만 코어 이상부터 수백만 코어까지이며, 그 규모는 해당 국가의 예산에 달려 있다. 참고로 우리나라 기상청에서 쓰는 해담, 해온은 각각 45120코어 짜리이다.

6 용도

대용량 병렬처리를 요구하는 모든 분야라 할 수 있다.

동영상 인코딩^[19]^[20]
3D 렌더링^[21]
시뮬레이션^[22]
워게임
과학 연산
- 지구과학 (대규모 시뮬레이션(우주, 지구) 및 신호 처리(천문))
- 생물학 (단백질, DNA 등 고분자 분석, 세포 시뮬레이션, 생태 시뮬레이션)
- 화학 (고분자 분석, 화학물질 가상 합성)
- 물리학 (대규모 물리연산(대표적으로 전산유체역학(CFD))
- 수학 (대규모 연산, 경우의 수, 암호 해독 등)
날씨 예측

상술한 지구과학 / 물리학 / 수학 등 모든 분야를 망라한 방정식을 10^8 개 이상의 지점에 대해 해를 유도한다. (NS-방정식 등)

주가 예측
~~체스 게임~~ - IBM에서 만든 '딥 블루(Deep blue)'라는 이름의 슈퍼컴퓨터가 체스 세계챔피언에게 도전하여, 3번째 도전만에 승리하였다. 가리 카스파로프 문서 참고. 하지만 딥 블루가 나온지 18년 후 나온 스마트폰인 갤럭시 S6가 더 연산능력이 뛰어나다.(...)
~~퀴즈 풀이~~ - IBM에서 만든 '왓슨(Watson)'이라는 이름의 슈퍼컴퓨터가 퀴즈쇼 프로그램 지오파디!(Jeopardy!)에 출연하여, 기존 우승자 2명을 상대로 승리하였다. 관련기사
바둑 - 구글에서 만든 알파고라는 인공지능 바둑 프로그램이 이세돌 九단과 대결을 펼쳤다. 자세한 내용은 구글 딥마인드 챌린지 매치 참조. ^[23]

그 외에도 여러가지가 있다. 단, 같은 대용량 병렬처리라도 온라인 게임같이 다수의 사용자에게 빠른 응답을 제공할 목적에는 쓰이지 않는다. 이런 용도로 만들어진 건 IDC(인터넷데이터센터)이다. 실제 물리적 구성은 IDC나 슈퍼컴퓨터나 비슷한데 결정적으로 차이나는 게 바로 이 외부 네트워크 대역폭. 슈퍼컴퓨터는 단 하나의 과제를 처리하기 위해 모든 컴퓨터가 협동하는 방식(협업)으로 동작하지만 IDC는 수많은 과제를 수많은 컴퓨터가 나눠하는 방식(분업)으로 동작한다. 단 한사람만을 위한 온라인게임 같은 겜판소스러운 게임이 아닌 한에야 슈퍼컴퓨터로 게임서버를 올리겠다는 발상은 그야말로 정신나간 짓. PC방 전좌석 전세내놓고 딱 한자리만 쓰고 있는 거나 다름없다. 이렇게 슈퍼컴퓨터는 보통 연구, 기상예측 등에 많이 이용되기 때문에 슈퍼컴퓨터의 성능이 곧 국가 자금기술력 수준의 척도로 볼 수 있다.

7 써보고 싶다면

아마존 EC2, 구글 앱 엔진, Microsoft Azure같은 계산 클라우드를 이용하는 방법이 가장 쉽고 저렴하게 슈퍼컴퓨팅을 맛볼 수 있는 방법이다. 다만 슈퍼컴퓨터는 진짜 신나게 빠르기 때문에 PC로는 한달이고 두달이고 돌려도 끝이 안 보이는 과제가 아니면 이용료가 아까울 것이다. 실제로 앞에 열거된 클라우드 서비스의 견적내기에서 CPU 등의 성능을 계속 올려보면 예상 과금이 눈 돌아가게 올라가는걸 볼 수 있다.(...) 논문을 쓰는 학자나 시뮬레이션을 빡세게 해야 하는 산업체 정도나 돼야 써볼 마음이 생길 것이다. 실제로 KISTI의 주 고객은 산업체이다. 하지만 정말 필요할 때엔 이거처럼 유용한 도구도 없다. 일반 슈퍼컴퓨터에 비해 홍보 자료가 많이 올라오는 클라우드 쪽의 사례들을 보면 처리에 몇 년이 걸릴 작업을 이걸로 15분(!)만에 끝났다던가 하는 거짓말같은 이야기들이 전해지기도 한다.^[24] ~~비트코인 채굴하자 하지말자~~^[25] ^[26]

8 단점

당연하겠지만 크고 비싸다. 예를 들어 대한민국 기상청에서 도입한 슈퍼컴퓨터 3호기 해담, 해온의 가격은 500억원이 넘는다. 그리고, 이 슈퍼컴퓨터를 설치하기 위해서 아예 건물을 새로 지어야 했다. 또한, 전기를 무지하게 사용한다. 컴퓨터 수십만대를 구동하는 것이니 당연한데, 거기에다 방진, 항온항습장치 등 공조설비에도 상당한 비용이 투입된다.^[27] 전기를 많이 쓴다는 것은 다시 말해 운용유지비가 비싸다는 말과 동일하다. 또한, 엄청 비싼 몸이니 그만큼 수리 비용도 상당하다.

그리고, 1위 계보를 보면 알겠지만 성능 향상이 상당히 빠르다. 2002년 1위였던 어스 시뮬레이터의 경우 실성능이 36테라플롭 정도였는데 10년이 지난 뒤에 1위는 그보다 천배쯤 빠른 33페타플롭이다. 단일프로세서가 아니고 병렬프로세서 처리가 효율이 높아지자 CPU 수의 증가를 통해서^[28] 지속적인 성능향상이 이루어지고 있고 이 속도는 상용 CPU의 발전속도에 비해서도 훨씬 더 빠르다. 비싼 돈 들여서 구축해놨더니 몇년 지나서 애물단지가 되는 상황이 발생하는 것. 실제로 기상청에서 2004년 500억을 들여서 TOP 16위에 드는 슈퍼컴퓨터를 도입했지만 8년이 지난후에는 고철값을 받고 팔아야 하는 처지가 되기도 한다.#
기상청에서 구입한 슈퍼컴퓨터는 몇 년 지나면 처분에 골치를 썩이고 있다는 기사처럼, 현역으로써 수명이 지나면 단순한 고철 덩어리가 되는 문제가 있다.#

9 가상의 슈퍼컴퓨터

'슈퍼'라는 수식어가 마음에 들었는지 뭔가 말도 안되고 터무니 없이 굉장한 것으로 나오는 경우가 많다. 인공지능에 각성하여 인류를 지배하거나 파괴하려 드는 악당이나 최종보스로 등장하는 경우도 부지기수.(...) 실제로 등장하는 대부분의 슈퍼컴퓨터는 인공지능이다. 하지만, 인공지능이 반드시 슈퍼컴퓨터인 것은 아닌데, 그것이 아무리 고성능이라고 하여도, 규모가 거대하지 않다면 슈퍼컴퓨터라고 부르지는 않는다. 예를 들어 영화 터미네이터에 등장하는 스카이넷은 인공지능이자 동시에 슈퍼컴퓨터이지만, T-800은 인공지능이기는 해도, 슈퍼컴퓨터라 부르지는 않는다.

그리고, 추가로 양자컴퓨터일 가능성도 높다.

↑ 슈퍼컴 단일로 연산하는게 아닌 네트워크로 연결해 클러스터로 묶는 경우가 많아졌다.
↑ 전 세계 슈퍼컴퓨터가 비싸고 고성능의 칩 대신 좀 성능이 떨어지더라도 가격이 훨씬 저렴한 양산형 프로세서를 사용하고 있다. 중요한 건 시간당 처리율(스루풋)이지 처리시간 자체(응답시간)가 아니기 때문. 요즘은 프로세서들이 상향 평준화가 되다보니, 속도는 조금 느려도 전력이나 냉각을 적게 요구하도록 만드는게 더 중요해 졌다. 일명 그린컴퓨팅.
↑ 대략적인 설명은 이곳을 참조. [3]
↑ 페타는 10^15, 즉 1초에 10.51 * 10^15번 계산할 수 있는 것이며, 쉽게 말해 초당 1000조번의 계산을 하는것이다. 위의 텐허-2는 초당 3경3862조번의 연산능력을 가지고있는것.
↑ 그래픽카드인 GeForce GTX 750은 1테라플롭스 정도이고, 이게 곧 하이엔드 데스크탑 CPU인 i7-5960X의 속도다. GTX 750이 10만원 내외의 싼 그래픽카드라는 걸 생각해보라.
↑ 갤럭시 S에 사용된 엑시노스 3110 SoC는 ARM Cortex-A8을 사용하고 있으며 3.5기가플롭스 정도의 성능을 갖는다.
↑ 2만원대의 저렴한 가격을 자랑하는 보급형 그래픽카드 GeForce G210의 연산성능은 최소 36.4기가플롭스.
↑ 보급형 그래픽카드인 GeForce GT710은 366기가플롭스. 이게 5만원대의 싼 그래픽카드다.
↑ 참고로 중급형 그래픽카드인 GeForce GTX 750의 연산능력이 1.2 테라플롭스 정도다.
↑ 참고로 하이엔드 그래픽카드인 GeForce GTX TITAN X의 연산능력은 6.6 테라플롭스. GeForce GTX 1080은 9테라플롭스로 업그레이드 전의 ASCI WHITE의 1.7배 정도. GTX 1070은 7테라플롭스로 업그레이드한 ASCI WHITE와 비슷하다. GPGPU에 긍정적인 반응을 보이는 라데온 PRO DUO는 16테라플롭스를 돌파했다.
↑ 하늘의 강, 즉 은하수를 의미한다.
↑ 숫자 京의 일본어 발음인 '케이'에서 딴 이름이며 경단위의 연산을 한다는 뜻이다.
↑ NVIDIA Geforce 8 시리즈 그래픽카드에 쓰인 것과 같은 계열의 칩셋이다.
↑ 64bit RISC 아키텍처, 260코어, 클럭 1.45GHz, 3TFLOPS, 32GB 메모리
↑ top500.org의 추정#으로는 완전 자체개발이 아니라 DEC 알파 아키텍처에 기반한 프로세서라고 한다. 미국에서 실수요자가 없어서 떨이해버린 알파 아키텍처를 사다가 뚝딱거린 듯.
↑ 사진은 SGI의 개인용 슈퍼컴퓨터.
↑ 사실 그래봐야 결국 리눅스 HPC 버전이나 윈도우 HPC 버전이다.
↑ 사진은 CRAY XK7
↑ 개인이 개인 동영상 인코딩 하는 용도라면 정말 무쓸모한 돈지랄이지만 만약 여러분이 유튜브같이 1초에 몇시간 분량의 동영상이 올라오는 동영상 서비스를 운영한다던가 구글 드라이브 같이 테라바이트급 동영상에 대한 미리보기를 제공하는 클라우드 서비스를 운영한다면 슈퍼컴퓨터급 연산량이 분명히 필요해진다. 그리고 구글은 이미 하고 있기도 하고. 다만 FHD 이상으로 처리하는 프로덕션이나 방송국은 아래 3D 랜더링과 같이 무시하지 못할 부분을 차지할 정도로 연산량이 많아 대개는 GPGPU로 돌아가는 슈퍼컴을 사용해 인코딩한다. 그 외에, Proxy Media를 추출해 따로 저장할 때도 마찬가지. 그래서 대형방송국에는 영상을 자신들의 전산시스템 내부로 들이는 특별한 시설을 갖춘다. 인제스트실이 그것인데, 다양한종류의 영상을 받아 슈퍼컴급의 컴퓨터로 고속 인코딩해 프로덕션 시스템으로 올리는 일만 전문적으로 하는곳.
↑ 참고로 비디오 인코딩에 OpenCL 또는 CUDA 가속을 키면 굉장히 빨라진다.
↑ 렌더팜이라 하여 대형 애니메이션 제작사는 하나씩 갖고있다. 요즘에는 클라우드 기반 렌더팜이 인기있는듯. 대표적인 회사가 뉴질랜드 소재의 웨타 디지털 스튜디오.
↑ 특히 핵물리 시뮬레이션. 미국은 슈퍼컴퓨터가 폭발적으로 발전하는 70년대 이후 실제 핵실험 대신에 가상 핵실험을 했다. 왜나면 실제로 터뜨리기엔 골치아픈게 너무 많으니까. 하지만 냉전이 끝나고 군축(특히 전략무기감축협정(START))으로 인해 핵 시뮬레이션 빈도가 상당히 줄어들었고, 대신에 학술 시뮬레이션과 민간용도가 차지했다.
↑ 딥 블루나 왓슨의 경우는 당시 슈퍼컴퓨터와 견줄만한 상당한 고성능 컴퓨터가 사용되었다. 하지만, 알파고는 2016년의 슈퍼컴퓨터에 비하면 현저하게 낮은 성능이기에 슈퍼컴퓨터라 부르기에는 아주 부족하다. 위에서 서술된 바와 같이 요즘 슈퍼컴퓨터 명함을 달려면 코어가 백만단위에서 놀아야 하지만, 알파고는 CPU 1920개에 GPU 280개이다.
↑ 그리고 아마존 EC2 노드 ex.large 풀옵을 16개 1시간 빌리는덴 2000원 남짓. 머리만 잘 굴리면 얼마든지 싸게 할 수 있다. 언급한 아마존 EC2는 KISTI보다 가성비가 훨씬 좋은 편. Microsoft Azure는 드림스파크 프로그램의 일환으로 학생에게 일부기능을 제외하고 무료로 제공되니 관심이 있다면 각 문서를 참고하자.
↑ 효율이 낮아 애꿎은 Azure 크레딧만 날린다며 30불짜리 USB 장치를 사는게 10만 배 더 빠르다고 한다.
↑ 비트코인은 X86이나 GPU보다 ASIC같은 반칙에 가까운 수단을 쓰는 것이 압도적인 전성비를 달성할 수 있는 것으로 알려져있다. 크립토코인 마이닝이 수익을 얻으려면 투입되는 전기세보다 채굴되는 코인이 많아야 가능한데 이 방면의 선수들이 수도 없이 달라붙은 요즘 같은 때엔 어지간한 전기세 절약으로는 본전도 못 찾는다. X86 기반 일반 클라우드 서비스를 이용해 채굴을 하면 극한의 최적화에도 눈덩이처럼 불어나는 적자 밖엔 볼 것이 없다.
↑ 슈퍼컴퓨터 센터는 온도 관리도 중요하기에 공공기관 실내 온도 제한 같은 건 적용되지 않는다.
↑ 암달의 법칙때문에 단순히 CPU숫자가 늘어난다고 해서 성능증가가 있는 것은 아니다. 즉 제반기술또한 뒷받침이 되어야 하기는 하다.
↑ 이 컴퓨터는 감자 배터리로 동작할 정도로 우수하다! 그렇게 된 순간 슈퍼컴퓨터가 아니게 되지만. 게다가 본체는 마지막 손가락의 손톱 크기 정도로 작으며, 그것만으로도 엄청난 인공지능을 가지는데 보조장치 높이만 km단위로 추정된다.
↑ 60년대에 나온 어쩌면 이게 시초격일지도.

[1] 슈퍼컴 단일로 연산하는게 아닌 네트워크로 연결해 클러스터로 묶는 경우가 많아졌다.

[2] 전 세계 슈퍼컴퓨터가 비싸고 고성능의 칩 대신 좀 성능이 떨어지더라도 가격이 훨씬 저렴한 양산형 프로세서를 사용하고 있다. 중요한 건 시간당 처리율(스루풋)이지 처리시간 자체(응답시간)가 아니기 때문. 요즘은 프로세서들이 상향 평준화가 되다보니, 속도는 조금 느려도 전력이나 냉각을 적게 요구하도록 만드는게 더 중요해 졌다. 일명 그린컴퓨팅.

[3] 대략적인 설명은 이곳을 참조. [3]

[4] 페타는 10^15, 즉 1초에 10.51 * 10^15번 계산할 수 있는 것이며, 쉽게 말해 초당 1000조번의 계산을 하는것이다. 위의 텐허-2는 초당 3경3862조번의 연산능력을 가지고있는것.

[5] 그래픽카드인 GeForce GTX 750은 1테라플롭스 정도이고, 이게 곧 하이엔드 데스크탑 CPU인 i7-5960X의 속도다. GTX 750이 10만원 내외의 싼 그래픽카드라는 걸 생각해보라.

[6] 갤럭시 S에 사용된 엑시노스 3110 SoC는 ARM Cortex-A8을 사용하고 있으며 3.5기가플롭스 정도의 성능을 갖는다.

[7] 2만원대의 저렴한 가격을 자랑하는 보급형 그래픽카드 GeForce G210의 연산성능은 최소 36.4기가플롭스.

[8] 보급형 그래픽카드인 GeForce GT710은 366기가플롭스. 이게 5만원대의 싼 그래픽카드다.

[9] 참고로 중급형 그래픽카드인 GeForce GTX 750의 연산능력이 1.2 테라플롭스 정도다.

[10] 참고로 하이엔드 그래픽카드인 GeForce GTX TITAN X의 연산능력은 6.6 테라플롭스. GeForce GTX 1080은 9테라플롭스로 업그레이드 전의 ASCI WHITE의 1.7배 정도. GTX 1070은 7테라플롭스로 업그레이드한 ASCI WHITE와 비슷하다. GPGPU에 긍정적인 반응을 보이는 라데온 PRO DUO는 16테라플롭스를 돌파했다.

[11] 하늘의 강, 즉 은하수를 의미한다.

[12] 숫자 京의 일본어 발음인 '케이'에서 딴 이름이며 경단위의 연산을 한다는 뜻이다.

[13] NVIDIA Geforce 8 시리즈 그래픽카드에 쓰인 것과 같은 계열의 칩셋이다.

[14] 64bit RISC 아키텍처, 260코어, 클럭 1.45GHz, 3TFLOPS, 32GB 메모리

[15] top500.org의 추정#으로는 완전 자체개발이 아니라 DEC 알파 아키텍처에 기반한 프로세서라고 한다. 미국에서 실수요자가 없어서 떨이해버린 알파 아키텍처를 사다가 뚝딱거린 듯.

[16] 사진은 SGI의 개인용 슈퍼컴퓨터.

[17] 사실 그래봐야 결국 리눅스 HPC 버전이나 윈도우 HPC 버전이다.

[18] 사진은 CRAY XK7

[19] 개인이 개인 동영상 인코딩 하는 용도라면 정말 무쓸모한 돈지랄이지만 만약 여러분이 유튜브같이 1초에 몇시간 분량의 동영상이 올라오는 동영상 서비스를 운영한다던가 구글 드라이브 같이 테라바이트급 동영상에 대한 미리보기를 제공하는 클라우드 서비스를 운영한다면 슈퍼컴퓨터급 연산량이 분명히 필요해진다. 그리고 구글은 이미 하고 있기도 하고. 다만 FHD 이상으로 처리하는 프로덕션이나 방송국은 아래 3D 랜더링과 같이 무시하지 못할 부분을 차지할 정도로 연산량이 많아 대개는 GPGPU로 돌아가는 슈퍼컴을 사용해 인코딩한다. 그 외에, Proxy Media를 추출해 따로 저장할 때도 마찬가지. 그래서 대형방송국에는 영상을 자신들의 전산시스템 내부로 들이는 특별한 시설을 갖춘다. 인제스트실이 그것인데, 다양한종류의 영상을 받아 슈퍼컴급의 컴퓨터로 고속 인코딩해 프로덕션 시스템으로 올리는 일만 전문적으로 하는곳.

[20] 참고로 비디오 인코딩에 OpenCL 또는 CUDA 가속을 키면 굉장히 빨라진다.

[21] 렌더팜이라 하여 대형 애니메이션 제작사는 하나씩 갖고있다. 요즘에는 클라우드 기반 렌더팜이 인기있는듯. 대표적인 회사가 뉴질랜드 소재의 웨타 디지털 스튜디오.

[22] 특히 핵물리 시뮬레이션. 미국은 슈퍼컴퓨터가 폭발적으로 발전하는 70년대 이후 실제 핵실험 대신에 가상 핵실험을 했다. 왜나면 실제로 터뜨리기엔 골치아픈게 너무 많으니까. 하지만 냉전이 끝나고 군축(특히 전략무기감축협정(START))으로 인해 핵 시뮬레이션 빈도가 상당히 줄어들었고, 대신에 학술 시뮬레이션과 민간용도가 차지했다.

[23] 딥 블루나 왓슨의 경우는 당시 슈퍼컴퓨터와 견줄만한 상당한 고성능 컴퓨터가 사용되었다. 하지만, 알파고는 2016년의 슈퍼컴퓨터에 비하면 현저하게 낮은 성능이기에 슈퍼컴퓨터라 부르기에는 아주 부족하다. 위에서 서술된 바와 같이 요즘 슈퍼컴퓨터 명함을 달려면 코어가 백만단위에서 놀아야 하지만, 알파고는 CPU 1920개에 GPU 280개이다.

[24] 그리고 아마존 EC2 노드 ex.large 풀옵을 16개 1시간 빌리는덴 2000원 남짓. 머리만 잘 굴리면 얼마든지 싸게 할 수 있다. 언급한 아마존 EC2는 KISTI보다 가성비가 훨씬 좋은 편. Microsoft Azure는 드림스파크 프로그램의 일환으로 학생에게 일부기능을 제외하고 무료로 제공되니 관심이 있다면 각 문서를 참고하자.

[25] 효율이 낮아 애꿎은 Azure 크레딧만 날린다며 30불짜리 USB 장치를 사는게 10만 배 더 빠르다고 한다.

[26] 비트코인은 X86이나 GPU보다 ASIC같은 반칙에 가까운 수단을 쓰는 것이 압도적인 전성비를 달성할 수 있는 것으로 알려져있다. 크립토코인 마이닝이 수익을 얻으려면 투입되는 전기세보다 채굴되는 코인이 많아야 가능한데 이 방면의 선수들이 수도 없이 달라붙은 요즘 같은 때엔 어지간한 전기세 절약으로는 본전도 못 찾는다. X86 기반 일반 클라우드 서비스를 이용해 채굴을 하면 극한의 최적화에도 눈덩이처럼 불어나는 적자 밖엔 볼 것이 없다.

[27] 슈퍼컴퓨터 센터는 온도 관리도 중요하기에 공공기관 실내 온도 제한 같은 건 적용되지 않는다.

[28] 암달의 법칙때문에 단순히 CPU숫자가 늘어난다고 해서 성능증가가 있는 것은 아니다. 즉 제반기술또한 뒷받침이 되어야 하기는 하다.

[29] 이 컴퓨터는 감자 배터리로 동작할 정도로 우수하다! 그렇게 된 순간 슈퍼컴퓨터가 아니게 되지만. 게다가 본체는 마지막 손가락의 손톱 크기 정도로 작으며, 그것만으로도 엄청난 인공지능을 가지는데 보조장치 높이만 km단위로 추정된다.

[30] 60년대에 나온 어쩌면 이게 시초격일지도.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]