3월 18일, 2025년 엔비디아 GTC Keynote 연설이 있었습니다. 이 자리에서 젠슨 황 사장은 AI 기술이 어떻게 발달하고 있으며, 이로 인하여 AI 혁신이 어떤 과정으로 지금까지 진행되어 왔고, 더 나아가 앞으로 어떤 방향으로 나아갈지에 대해 이야기하고 이를 엔비디아가 어떻게 준비하고 있는지 2시간에 걸쳐서 설명하였습니다. 이번글에서는 GTC Keynote에서 엔비디아가 AI 기술 발달에 따라 어떻게 미래를 준비하고 있는지 데이터 센터 부분에 관련하여 정리해 보려 합니다.
AI 기술 발달
AI 기술은 계속 발전하고 있으며, 다양한 형태의 AI가 등장하고 있습니다.

Perception AI (지각 AI)
Perception AI는 컴퓨터 시스템이 주변 세계를 이해하는 과정을 말합니다. 이는 AI가 인간의 감각 기관과 유사한 기능을 수행하는 형태를 의미합니다.
주요 특징으로는 크게 시각적 지각과 청각적 지각으로 나뉠 수 있는데, 시각적 지각은 물체 인식, 장면 인식, 이미지 인식 등을 포함하고 있으며, 청각적 지각은 소리 듣기, 음성 인식, 음성 이해, 음향 효과 생성, 음성 생성 등을 포함하고 있습니다. 지각 AI를 통해 자율주행 차량의 환경 인식이 가능하고, 로봇공학에서의 주변 환경 이해할 수 있으며, 보안 시스템의 이상 징후 감지 등으로 활용되었습니다.
Generative AI (생성 AI)
Generative AI는 기존 데이터를 학습하여 새로운 콘텐츠를 생성하는 AI 기술입니다.
주요 특징은 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 콘텐츠 생성 가능하고 대규모 데이터셋을 학습하여 패턴과 관계를 파악하며, 사용자의 프롬프트나 요청에 응답하여 새로운 콘텐츠 생성하는 기능을 수행합니다. 이를 통해, 고객 서비스 챗봇, 마케팅 콘텐츠 생성, 코드 자동 생성, 제품 디자인 및 아이디어 제안 등으로 활용하고 있습니다.
Agentic AI (에이전트 AI)
Agentic AI는 특정 목표를 달성하기 위해 제한된 감독하에 독립적으로 작동할 수 있는 AI 시스템입니다.
주요 특징으로는 자율성, 목표 지향적 행동, 적응성을 갖추고 있고, 다중 에이전트 시스템에서 각 에이전트가 특정 하위 작업을 수행하게 되며, 지속적인 학습과 개선을 통해 성능 향상할 수 있습니다.
작동 과정은 (1) 지각: 환경으로부터 정보 수집, (2) 추론: 작업 이해 및 솔루션 개발, (3) 행동: API를 통해 외부 시스템과 연결하여 작업 수행, (4) 학습: 피드백을 통한 지속적인 개선, (5) 협업: 다른 에이전트나 시스템과의 협력 하는 단계로 이루어 집니다.
Physical AI (물리적 AI)
Physical AI는 AI 알고리즘을 물리적 시스템과 통합하여 실제 세계와 상호작용하고 적응할 수 있게 하는 기술입니다.
주요 특징은 로봇, 드론, 자율주행 차량 등 물리적 형태로 구현하며, 센서를 통한 환경 인식하고, AI 알고리즘을 사용한 의사결정이 이루어지고, 액추에이터를 통한 물리적 작업 수행하며, 새로운 상황이나 환경에 적응 가능합니다.
구성 요소로는 (1) 센서: 카메라, LiDAR, 마이크, IMU 등, (2) 액추에이터: 모터, 서보, 유압/공압 시스템, 스피커 등, 그리고 (3) AI 알고리즘: 컴퓨터 비전, 기계 학습, 자연어 처리 등 이 있습니다.
이러한 다양한 형태의 AI 기술들은 서로 연관되어 있으며, 복잡한 문제를 해결하기 위해 종종 함께 사용됩니다. 예를 들어, 자율주행 차량은 Perception AI로 환경을 인식하고, Agentic AI로 의사결정을 하며, Physical AI를 통해 실제 주행을 수행할 수 있습니다.
스케일 법칙 - 100배 이상의 컴퓨팅 파워 요구
AI 기술이 발달하고 있으며, 최근 몇년간은 Agentic AI 세계로 발달을 이루었으며, 이제는 Physical AI 시대로 발전해 나아가고 있습니다. 이렇게 AI 기술이 발전함에 따라 AI 모델의 크기, 데이터 셋 용량, 그리고 컴퓨팅 파워가 증가하게 됩니다.

1. 사전 학습 스케일링 (Pre-training Scaling)
모델 크기, 학습 데이터셋 크기, 컴퓨팅 리소스를 증가시키면 AI 모델의 성능이 향상됩니다. 이 법칙은 OpenAI의 2020년 연구에서 처음 제시되었으며, 성능 향상이 지수적으로 증가하는 (power-law) 관계를 따른다고 밝혔습니다.
2. 사후 학습 스케일링 (Post-training Scaling)
사전 학습된 모델에 강화학습 등의 기술을 적용하여 성능을 향상시키는 방법입니다. 미세 조정, 양자화, 가지치기, 지식 증류, 전이 학습 등의 기술이 포함됩니다. 특정 도메인(예: 법률 분석, 의료 진단)에 대한 모델의 전문성을 높이는 데 효과적입니다.
3. 추론 시간 스케일링 (Test-time Scaling)
추론 단계에서 다단계 추론을 통해 출력 품질을 개선하는 방법입니다. 입력에 따라 동적으로 모델을 조정하거나, 여러 모델의 예측을 결합하는 등의 기술이 포함됩니다. 사용자와의 상호작용마다 반복적인 계산 비용이 발생합니다.
데이터 센터 자본 지출
추론-시간 스케일링의 경우 오래 추론하면 추론할 수록, 다양한 방법으로 추론하면 추론할 수록 보다 더 정확하고 명확하며 타당한 결과를 얻을 수 있습니다. 추론에 필요한 컴퓨팅양은 초기 대규모 언어모델 (LLM) 보다 이미 100배 이상 증가하였으며, 향후 수천, 혹은 수백만 배 더 증가할 수 있습니다. 뿐만 아니라, AI 모델이 AI 모델을 훈련하기 위한 합성데이터를 생성하면서 또한 엄청난 컴퓨팅양을 요구하고 있습니다. 이는 이미 엔비디아의 주요 고객들의 GPU 구입 현황에 잘 나타나고 있습니다. Hopper GPU 구입량 보다 훨씬 더 많은 Blackwell GPU를 2025년에 이미 구입하고 있습니다.

또한 데이터 센터 자본 지출 규모는 계속 우상향 할 것으로 예측되고 있습니다. 특히 이제 데이터센터는 자료를 저장하고 저장된 자료를 불러오는 기능하는 것이 아니라 데이터 센터 자체가 데이터를 생산하는 그러한 방향으로 전환할 것 입니다.
엔비디아의 데이터 센터 Road Map
이렇게 우상향 하는 데이터 센터 요구를 엔비디아는 어떻게 준비하고 있을까요?

현재 생산 중인 72개의 Blackwell GPU가 연결된 Grace Blackwell NVLink 72 시스템은 576 테라바이트/초의 메모리 대역폭, 초당 1exaFLOPS 처리 능력을 가지고 있습니다.
이러한 Blackwell 이 이제 본격적인 양산에 돌입하고 있는데, 엔비디아는 막대한 컴퓨팅 수요를 충족하고자 2025년 하반기, 2026년 하반기, 그리고 2027년 하반기 모델을 모두 공개하였습니다.



Blackwell 에서 Rubin 으로 이어지는 모델은 단순히 성능만 향상되는 것이 아니라, TCO, 가성비 자체가 압도적으로 증가하게 됩니다. Rubin의 경우 성능은 Hopper 모델에 비해 900배가 향상되는데, 가성비 측면으로는 97% 낮아집니다.

이렇게 발전하는 데이터 센터 GPU 인데, 과연 빅테크를 비롯한 많은 기업들이 데이터센터에 자본지출을 더 이상 하지 않을 수 있을까요? 만약 AI 기술이 LLM 단계에서 머무르고 있다면 물론 더 이상의 고성능이 필요없을 수 있습니다. 하지만 Agentic AI 를 넘어 이제 Physical AI 세대로 넘어가게 된다면, 막대한 컴퓨팅양을 요구하게 되기 때문에, 성능 및 가성비를 따지지 않을 수 없을 것이라 생각합니다.
이렇게 엔비디아는 AI 기술발전에 맞추어 미래를 이미 다 계획하고 있다는 것이 투자자로서 흐뭇할 따름입니다.
'투자중인 개별 주식 분석' 카테고리의 다른 글
팔란티어 AIP CON 은 무엇인가? (7) | 2025.03.23 |
---|---|
2025 엔비디아 GTC Keynote 핵심 정리 (2) - AI 혁신이 가져올 미래를 준비하는 엔비디아 - 엔비디아 다이나모 (Dynamo) (7) | 2025.03.22 |
리커전 파마슈티컬스 (RXRX) - 새로운 이사회 맴버 공시 (13) | 2025.03.19 |
AI 패권 전쟁, UAE AI 칩 구매 확대 계획, 엔비디아 매출 영향 분석 (14) | 2025.03.16 |
팔란티어(PLTR)의 Warp Speed 기술과 최근 고객 확장의 시사점 (6) | 2025.03.15 |