DSA, 딥가젯 그리고 텐스토렌트: AI 인프라 최적화의 철학

AI 추론 수요 폭증 속에서 GPU의 한계를 넘어서는 DSA (NPU) 의 부상. 딥가젯과 텐스토렌트가 함께 그리는 AI 인프라 최적화 철학을 소개합니다.
MANYCORESOFT's avatar
Aug 28, 2025
DSA, 딥가젯 그리고 텐스토렌트: AI 인프라 최적화의 철학

멈추지 않는 AI 추론 수요, 그리고 DSA의 부상

대규모 언어 모델(LLM)과 멀티모달 AI 모델이 본격적으로 상용화되면서, AI 추론 수요는 그야말로 끝없이 늘어나고 있습니다. 이에 따라 GPU의 수요도 증가하고 있지만, 이 막대한 연산량을 GPU만으로 처리하기에는 비용 효율성의 벽이 존재합니다.

GPU는 태생적으로 그래픽 영상처리를 위한 VGA(Video Graphics Array)를 기반으로 발전한 범용 아키텍처이기에, 다양한 워크로드를 처리하는 데 유리하지만 AI 추론만을 위한 최적화에는 구조적 한계가 있습니다.

GPU 한계를 넘어서는 새로운 선택지: DSA

이 한계를 뛰어넘는 대안이 바로 Domain Specific Architecture(DSA), 흔히 NPU라고 불리는 전용 추론 가속기입니다.

▲ DSA 설계가 적용된 Tenstorrent의 p150a

DSA는 AI 추론에 최적화된 하드웨어로, GPU 대비 다음과 같은 강점을 제공합니다.

  • 비용 효율성

  • 전력 효율성

  • 통신 및 메모리 최적화

전 세계적으로 대기업부터 스타트업까지 수많은 플레이어들이 이 시장에 뛰어들고 있으며, 최적의 DSA 설계를 향한 경쟁이 치열하게 전개되고 있습니다.

DSA 설계의 고려 요소

그렇다면 DSA를 설계하기 위해 고려해야 할 요소는 무엇일까요?

AI 모델 추론 과정에서 가장 큰 비중을 차지하는 연산은 AttentionFeedforward Network(FFN)입니다.

또한, 추론 과정은 크게 두 단계로 나눌 수 있습니다.

  • Prefill 단계: 처음에 사용자가 입력한 긴 프롬프트를 한번에 처리하며, 이후 빠르게 답변을 생성하기 위한 “메모리 공간(KV Cache)”를 채우는 과정

  • Decode 단계: 채워둔 KV Cache를 이용해 토큰(언어 단위)를 하나씩 순차적으로 생성해 나가는 과정

여기서 성능을 가르는 핵심은 Decode 단계입니다. 이 단계에서 새로운 토큰을 만들 때마다 이미 저장된 KV Cache에 계속 접근해야 하므로, 단순히 연산 속도보다는 메모리에 얼마나 빨리 접근할 수 있느냐가 성능을 좌우하게 됩니다.

A100 운영에 있어 메모리 병목을 보여주는 자료
▲ A100 운영에 있어 메모리 병목을 보여주는 자료

DSA 설계 핵심 원칙

따라서 DSA 설계시, Decode 단계에서의 최적화를 고려해야합니다. HuggingFace 엔지니어 Chris의 글에 따르면 다음과 같은 설계 원칙이 필요합니다.

  • 저정밀 연산 지원: FP32 대신 FP16, FP8, INT8 과 같은 저정밀 연산 활용하여 연산 부하를 감소

  • 비동기 데이터 전송과 연산-통신 중첩: 비동기 데이터 전송과 연산을 병렬 처리

  • 텐서 친화적 메모리 전송 구조: 행렬·텐서 단위 데이터 전송이 가능한 전용 하드웨어 및 메모리 구조 설계

  • 대용량 스크래치패드 메모리: 캐시 중심이 아닌 워킹셋 기반 설계

  • 메모리 대역폭 극대화: 단일 칩 내 최대 대역폭 확보

  • 전용 통신 하드웨어 강화: 집약적 collective 연산 최적화

Tenstorrent Wormhole 카드의 Scratchpad 설계
▲ Tenstorrent Wormhole 카드의 Scratchpad 설계

Scale-out 시대, 연산·메모리·통신의 균형

최신 프론티어 모델은 단일 칩에 담을 수 없을 만큼 거대해졌습니다. 따라서 여러 칩으로 나누어(sharding) 분산 실행하는 Scale-out 방식이 필수가 되었습니다.

칩을 확장하면 연산과 메모리 부담을 분산할 수 있다는 장점이 있지만, 동시에 칩 간 통신 지연(오버헤드)도 고려해야 합니다.

통신량이 늘어나면 연산 자원이 늘어도 성능이 오히려 떨어질 수 있으며, 일정 수준을 넘어서면 성능 향상이 거의 없거나 심지어 효율이 낮아집니다.

결국 중요한 것은 연산·메모리·통신의 균형입니다.

  • 단일 칩에서는 메모리 대역폭 극대화

  • 다중 칩 환경에서는 통신 효율 최적화

DSA의 철학은 단순히 연산 유닛만 늘리는 GPU와 달리, 데이터 이동 최소화와 통신 구조 최적화에 초점을 맞춰, 대규모 Scale-out 환경에서도 안정적인 확장이 가능하도록 설계됩니다.

사례: Tenstorrent의 Blackhole

이러한 DSA 철학을 현실에 구현한 대표적 기업이 Tenstorrent입니다.
2016년 설립된 이 스타트업은 엔비디아와 경쟁할 수 있는 전용 AI 가속기를 새롭게 설계하는 것을 목표로 하고 있으며, 전설적인 반도체 아키텍트 짐 켈러(Jim Keller)의 합류로 더욱 주목받고 있습니다.

Tenstorrent Blackhole 아키텍처
▲ Tenstorrent Blackhole 아키텍처

그들의 대표 제품인 Blackhole은 DSA 설계 원칙이 실제 제품에 어떻게 구현되는지 잘 보여줍니다. 겉보기에는 GPU처럼 여러 개의 코어가 격자 형태로 배치된 구조지만, 내부는 역할이 명확히 구분된 특화 코어들로 구성되어 있다는 점이 다릅니다.

  • 데이터 이동을 담당하는 코어

  • Tensix 코어: 연산 수행. GPU SM과 유사하지만 전용 스크래치패드 메모리(1.5MB), 저정밀 연산 최적화, 행렬 연산 엔진 내장

  • 이더넷 코어: 통신 담당

  • 운영관리용 GPU 코어

또한 모든 코어는 칩 내부의 NoC(Network on Chip)로 연결되어 서로 데이터를 교환할 수 있으며, 외부 이더넷 네트워크를 통해 다른 칩과도 효율적으로 통신할 수 있습니다. 이를 통해 블랙홀은 데이터 이동을 최소화하면서도 대규모 분산 확장(scale-out)에 적합한 구조를 갖추게 되었습니다.

소프트웨어 측면에서도 텐스토렌트는 기존 GPU 프로그래밍 모델과 차별화된 접근을 취합니다. CUDA에서는 커널 실행이 끝나면 L1 메모리가 초기화되지만, Blackhole은 중간 계산 결과를 L1에 그대로 남겨 후속 연산에서 재활용할 수 있습니다. 이를 통해 불필요한 메모리 왕복을 줄이고, 데이터 이동 최소화라는 DSA 철학을 소프트웨어 수준까지 구현하고 있습니다.

매니코어소프트와 텐스토렌트

AI 추론 수요는 앞으로도 멈추지 않고 늘어날 것입니다. GPU만으로는 감당하기 어려운 이 수요를 충족하기 위해, DSA와 같은 전용 아키텍처의 등장은 필연적입니다.

매니코어소프트는 이러한 글로벌 흐름을 주목하며, 글로벌 NPU 업체들과 적극 협력하고 있습니다.

특히, 텐스토렌트와 MOU를 맺고 Tenstorrent Wormhole n300을 탑재한 dg5W-n300 서버를 개발했으며, Blackhole 카드를 탑재한 dg5W-p150 또한 출시 준비 중입니다.

매니코어소프트 서버에 탑재된 텐스토렌트 웜홀 카드
▲ 매니코어소프트 서버에 탑재된 텐스토렌트 웜홀 카드

저희가 개발해온 직접 액체냉각(Direct-to-Chip Liquid Cooling) 서버 역시 같은 철학을 공유합니다. 단순히 냉각을 넘어, 더 적은 전력으로 더 많은 연산을 가능하게 하고, 고성능 칩의 확장성을 안정적으로 뒷받침하는 시스템 최적화 솔루션입니다.

앞으로도 매니코어소프트는 AI 인프라 최적화와 지속 가능성이라는 두 축을 동시에 달성할 수 있도록, 글로벌 파트너와 함께 기술 혁신을 이어가겠습니다.

Share article
Subscribe to our newsletter.

deep gadget