차트 2
클라우드 하이퍼스케일러
최근 몇 년 동안 클라우드 컴퓨팅 시장에서 Arm 기반 프로세서의 채택에 주목할 만한 발전이 있었습니다. Arm Holdings plc(ARM)는 2020년 12월 31일 기준 클라우드 컴퓨팅 시장에서 7.2%에서 10.1%의 점유율을 차지했으며, 이는 주로 아마존의 자체 Arm 칩 사용 증가에 기인한다고 주장합니다. 아마존 웹 서비스(AWS)는 2021년 전체 서버 인스턴스의 15%에 맞춤형 Graviton 칩을 배포하고 있으며, 이는 거대 클라우드 기업 내에서 Arm 아키텍처로의 중요한 전환을 의미합니다.
구글
구글은 클라우드 컴퓨팅 매출이 22% 증가하여 84억 1,000만 달러로 예상치인 86억 4,000만 달러에 미치지 못했다고 보고했습니다. 6월 분기에 구글의 클라우드 컴퓨팅 비즈니스는 28% 성장했습니다.
2023년에 구글은 이전 칩보다 2.1배 향상된 성능을 자랑하는 최신 자체 개발 칩인 TPU V4를 공개했습니다. 4,096개의 칩을 통합함으로써 슈퍼컴퓨팅 성능이 10배나 향상되었습니다.
구글은 비슷한 규모의 시스템에서 TPU V4가 성능 면에서 엔비디아 A100보다 1.7배 더 뛰어나고 에너지 효율도 1.9배 향상되었다고 밝혔습니다. 이전 모델인 TPU V3와 마찬가지로 각 TPU V4는 두 개의 텐서 코어(TC) 유닛으로 구성됩니다. 각 TC 유닛은 4개의 128x128 행렬 곱셈 유닛(MXU), 128개 채널(채널당 16개의 ALU로 구성)을 갖춘 벡터 처리 유닛("VPU"), 16MB의 벡터 메모리("VMEM")로 구성됩니다.
차세대 TPU 외에도 구글은 2023년 말부터 A3 시리즈 가상 머신의 일부로 개발자가 엔비디아의 H100 GPU를 일반적으로 사용할 수 있도록 하기 시작했습니다.
Amazon AWS
아마존의 웹 서비스는 지난 6분기 동안 성장세가 둔화되었지만, 3분기 실적은 전년 동기 대비 12%의 성장률을 기록하며 안정화되는 모습을 보였습니다. 이 부문의 영업이익도 전년 동기 대비 29% 급증하여 약 70억 달러에 달했습니다.
올해 5월, AWS는 엔비디아 H100 GPU를 기반으로 하는 EC2 P5 가상 머신 인스턴스를 출시했습니다. 이 구성에는 각각 640GB의 고대역폭 GPU 메모리가 장착된 8개의 엔비디아 H100 텐서 코어 GPU가 포함됩니다. 또한 3세대 AMD EPYC 프로세서, 2TB의 시스템 메모리, 30TB의 로컬 NVMe 스토리지, 3200Gbps의 인상적인 총 네트워크 대역폭, GPUDirect RDMA 지원 등을 자랑합니다. 후자는 CPU의 개입 없이 노드 간 직접 통신을 가능하게 하여 지연 시간이 짧고 효율적인 수평 확장 성능을 제공합니다.
또한 Amazon EC2 P5 인스턴스는 2세대 초대형 클러스터인 Amazon EC2 UltraClusters 내에서 배포할 수 있습니다. 여기에는 고성능 컴퓨팅, 네트워크 리소스, 클라우드 스토리지가 포함됩니다. 이러한 클러스터는 최대 20,000개의 H100 텐서 코어 GPU를 수용할 수 있으므로 사용자는 수십억 또는 수조 개에 이르는 매개변수를 가진 머신 러닝 모델을 배포할 수 있습니다.
마이크로소프트
마이크로소프트의 클라우드 컴퓨팅 매출은 24% 증가하여 9월 분기에 318억 달러에 달했습니다. 마이크로소프트의 3개 사업부 중 인텔리전트 클라우드가 19% 증가한 243억 달러의 매출을 기록하며 가장 높은 실적을 기록했습니다. 이 사업부에는 서버 제품 및 클라우드 서비스가 포함되며, Azure는 월가의 예상치인 26% 성장을 뛰어넘는 29%의 견고한 성장률을 기록했습니다.
올해 3월, 마이크로소프트는 블로그 게시물을 통해 Azure의 대대적인 개선 계획을 발표했습니다. 이 업그레이드에는 수만 대의 엔비디아의 최첨단 H100 그래픽 카드와 더 빠른 InfiniBand 네트워크 상호 연결 기술이 통합되었습니다.
ND H100 v5 인스턴스는 또한 인텔의 최신 4세대 인텔 제온 스케일러블 중앙 처리 장치와 엔비디아의 퀀텀-2 CX7 인피니밴드 기술을 통한 저지연 네트워킹을 특징으로 합니다. 또한 PCIe Gen5를 통합하여 GPU당 초당 64기가바이트의 대역폭을 제공하며, DDR5 메모리를 탑재하여 데이터 전송 속도가 빨라져 최대 규모의 AI 학습 데이터세트를 처리할 수 있습니다.
성공적인 스타트업의 사례
ChatGPT와 같은 애플리케이션은 AI 업계에서 엔비디아의 입지를 더욱 공고히 했습니다. 엔비디아의 GPU 칩은 다양한 AI 애플리케이션에서 핵심적인 역할을 하고 있습니다. 그 결과, 이 분야에서 엔비디아에 도전하려는 스타트업은 엔비디아 기술의 확고한 지배력과 신뢰성을 고려할 때 상당한 압박에 직면하게 됩니다.
Cerebras
엔비디아의 A100 GPU는 거의 826제곱밀리미터에 달할 정도로 이미 상당한 크기입니다. 이에 비해 Cerebras의 새로운 WSE-2 칩은 8인치 실리콘 웨이퍼의 전체 표면을 덮는 45,225제곱밀리미터의 면적을 차지하는 거대한 칩입니다. 2016년 설립 이래 Cerebras는 7억 3,000만 달러의 자금을 확보했습니다. CB 인사이트 글로벌 유니콘 클럽에 따르면 현재 기업 가치는 40억 달러로 평가되고 있습니다.
Cerebras는 아부다비의 G42와 협력하여 1억 달러가 넘는 비용이 소요되는 9대의 인공지능 슈퍼컴퓨터 중 첫 번째 슈퍼컴퓨터를 구축하는 프로젝트에 참여했습니다. 또한, Cerebras 는 제너레이티브 AI 분야에서도 적극적으로 기회를 모색하고 있습니다. GPT의 맥락에서 CS-2 모델을 통해 인상적인 훈련 속도를 입증했지만, 아직 업계의 주요 제조업체에서 채택하지는 못했습니다.
SambaNova
2017년에 설립된 삼바노바는 AI 칩 업계에서 가장 많은 투자를 받은 회사 중 하나로 부상했습니다. 삼바노바는 소프트뱅크와 인텔과 같은 유명 투자자들로부터 10억 달러의 자금을 성공적으로 조달했습니다. 이로써 삼바노바는 가장 많은 자금을 조달한 AI 칩 스타트업이 되었을 뿐만 아니라 50억 달러의 기업 가치를 인정받으며 엔비디아의 가장 강력한 신흥 경쟁자 중 하나로 자리매김했습니다.
삼바노바는 최근 최신 4세대 SN40L 프로세서를 출시했습니다. 이 최첨단 칩은 1,020억 개 이상의 트랜지스터를 자랑하며 대만 반도체 제조 회사(TSM)의 첨단 5nm 공정으로 제조되어 최대 638테라플롭스의 놀라운 컴퓨팅 속도를 제공합니다. 온칩 메모리, 고대역폭 메모리, 대용량 메모리로 구성된 고유한 3계층 메모리 시스템이 특징이며, 모두 AI 워크로드와 관련된 막대한 데이터 스트림을 효율적으로 처리하도록 설계되었습니다. 삼바노바는 노드에 이러한 칩을 8개만 장착해도 OpenAI의 GPT-4 LLM 보고서의 거의 3배에 달하는 최대 50조 개의 파라미터를 가진 모델을 지원할 수 있다고 주장합니다.
Tenstorrent
텐스토렌트는 2016년에 설립된 AI 칩 업계에서 주목할 만한 또 다른 스타트업입니다. 현재까지 약 3억 3,500만 달러의 자금을 확보했으며, 최근 삼성과 현대와 같은 주요 기업으로부터 투자를 유치하여 현재 기업가치가 약 10억 달러에 달합니다.
텐스토렌트는 RISC-V와 칩렛 기술을 활용한 AI CPU를 개발하여 AI 분야에서 엔비디아의 독주에 도전장을 내밀고 있습니다. 특히 최근 삼성과 생산 협력을 체결하고 칩 제조에 삼성의 첨단 4nm 공정을 활용할 계획입니다. 이 파트너십은 기술 발전과 AI 칩 시장에서의 경쟁을 위한 텐스토렌트의 노력을 강조합니다.
실패한 스타트업의 사례
Graphcore
Graphcore는 유럽 반도체 스타트업 업계, 특히 펀드레이징 분야에서 큰 족적을 남겼습니다. 2016년 나이젤 툰과 사이먼 놀스가 설립한 이 회사는 인공지능 애플리케이션에 사용되는 일반적인 GPU(그래픽 처리 장치)와는 다른 지능형 처리 장치(IPU)를 개발하는 데 주력하고 있습니다. Graphcore는 자사의 IPU 기술이 AI의 특정 요구 사항을 해결하는 데 있어 GPU에 비해 뚜렷한 이점을 제공한다고 주장합니다.
피치북 데이터에 따르면 Graphcore는 6억 달러 이상의 투자를 성공적으로 확보했습니다. 그러나 막대한 투자금에도 불구하고 회사의 매출은 비교적 적은 수준에 머물러 있습니다. 2020년 Microsoft가 클라우드 컴퓨팅 센터에서 Graphcore의 칩 사용을 중단하기로 결정하면서 주요 고객을 잃고 더 큰 도전에 직면하게 되면서 이야기는 크게 바뀌었습니다.
파이낸셜 타임즈에 따르면 Graphcore의 매출은 2022년까지 46% 급감하여 270만 달러에 불과했습니다. 동시에 세전 손실은 11% 증가한 2억 460만 달러로 증가했으며, 현금 잔고는 1억 5,700만 달러로 한 해를 마감했습니다. 그래프코어는 이듬해 5월까지 균형 잡힌 수입과 지출을 달성하기 위해서는 추가 자금 조달이 필요할 것이라고 밝혔습니다. 이 회사는 "불리한 거시 경제 환경"과 "주요 전략적 고객", 특히 중국의 주요 고객으로부터의 하드웨어 조달 지연이 이러한 차질을 초래한 원인이라고 설명했습니다.
현재 그래프코어는 비즈니스 전략을 재조정하여 IPU 칩을 데이터 센터에서 클라우드 컴퓨팅 환경으로 전환하고 있습니다. 이러한 변화는 반도체 산업의 변화하는 시장 역학 및 과제에 적응하기 위한 전략적 대응을 의미합니다.
GSI Technology (GSIT)
GSI Technology는 네트워킹, 통신 및 군사 시장을 위한 AI 및 고성능 병렬 컴퓨팅 솔루션용 Gemini 연관 처리 장치("APU")를 개발한 업체로, 2023년 5월 19일자 Seeking Alpha 기사에서 'GSI Technology'라는 제목으로 소개한 바 있습니다: 밈 그 이상, 엔비디아의 실행 가능한 대안."
표 1에서 볼 수 있듯이 Gemini-I는 다른 유형의 프로세서보다 성능이 뛰어납니다. Gemini-I 칩은 초당 39TB의 메모리 대역폭으로 600MHz 클록 사이클당 200만 x 1비트 연산을 수행할 수 있는 반면, 인텔 제온 8280은 초당 1TB의 메모리 대역폭으로 2.7GHz에서 28 x 2 x 512비트 연산을 수행할 수 있습니다. |