g r @ t i t u d e :: AI 반도체 혁명 (권순우)

AI 반도체 혁명 (권순우)

읽다: 경제 2024. 11. 21. 14:46

책 부제는 '3차 반도체 전쟁, 최후의 승자는 누가 될 것인가'이다.

반도체가 AI의 발전 경로를 바꾼걸까.
아니면 AI가 반도체 산업을 뒤흔들어 놓은걸까.
선후 관계가 명확하지 않다면, 동행하는 모양새로도 볼 수 있다.

반도체를 IT기술의 쌀이라고 예전부터 표현하는데,
이제 반도체 칩 단위가 아닌 컴퓨팅 플랫폼 단위에 대해 업계에서는 이야기한다.

엔비디아 젠슨 황 회장이 좋아하는 표현, computing platform이다.

리디 e북으로 읽으며 내가 메모한 내용은 다음과 같다 (교보문고 홈피 발췌 포함)
>>>

공장과 가장 가까운 거리에 창고를 만들려면 공장 바로 옆에 창고를 만들면 된다. 공장이 코어, 창고가 메모리다. 공장의 제조 역량이 높아져서 더 좁은 공간에서 더 많은 제품을 제조할 수 있게 됐다. 가장자리가 짧아지면 바로 옆에 붙일 수 있는 창고의 넓이도 좁아진다. 창고의 용량이 부족해서 부품 조달이 안되면 공장이 놀게 된다. 공정 기술의 발전으로 연산기는 같은 크기에 혹은 더 작은 크기의 코어에 더 많은 회로를 넣을 수 있게 됐다. 코어 사이즈가 작아지면 가장 자리가 짧아져 메모리 패드를 붙일 공간도 좁아진다. 연산기는 빠른데 메모리 용량이 작아 데이터를 전송 속도가 느려져 연산기가 놀게 되는 상황이 된다. 메모리를 더 많이 붙이기 위해 연산기를 크게 설계해야 하는 비효율이 발생하는 것이다. _p.221

모델이 너무 커서 GPU 1대에 모델이 다 안 담기기에 모델을 쪼개서 학습을 한다는 개념은 이해하기 어렵지 않다. 모델과 데이터를 쪼개서 학습하면 전체 시간은 이론적으로 GPU의 개수가 증가하는 만큼 줄일 수 있다. 문제는 분산 학습을 한 뒤 쪼개진 연산들의 결과를 여러 GPU들로부터 모으고, 갱신된 가중치를 다시 GPU들에게 분배하는 데 많은 시간이 걸린다는 점이다. 지금까지 GPU 8장인 한 노드에서의 분산 학습을 이야기했다. 실제로는 여러 노드끼리도 각종 데이터와 정보들이 넘나들며 통신을 하게 되는 대규모 학습 시스템으로 이루어져 있다. p.281

이에 네이버팀은 반도체에 대한 발상 자체를 바꿨다. AI 반도체는 아직 시작도 제대로 안 한 산업이다. 그래픽 처리에 사용하던 GPU의 연산 처리 방식이 AI 연산에 잘 맞아 GPU가 시장을 독점 하고 있지만 완벽하다고는 할 수 없다. 그래서 네이버팀은 진정한 의미에서 AI 연산에 최적화된 반도체를 만들어야 한다고 생각한 다. 그 말인 즉슨 AI 모델의 미래를 예측하고, AI 모델에 필요한 연 산들에 집중하여 최적화한 하드웨어를 기획해야 한다는 것이다.
인공지능은 막대한 행렬곱으로 이뤄지며, 불필요한 파라미터가 많이 존재하는 특유의 형태 때문에 압축을 해서 얻을 수 있는 연산 이득이 크다. 다만 기존 하드웨어 방식으로는 압축을 했을 때 하드웨어가 압축 방법과 어울리지 않는 경우가 많기 때문에 압축률만큼 이득을 볼 수가 없다. 그래서 경량화 알고리즘에 적합한 하드웨어를 새로 만들어야 한다. _p.332

반면 초거대언어모델의 성능을 평가하는 것은 쉬운 일이 아니기 때문에 모델 압축 결과의 평가가 어려워졌다. 정답이 있는 문제라면 정답률을 계산하면 되지만 생성형 AI는 정답이라는 것이 명확하지 않다. 생성형 AI의 시대가 되면서 성능 평가가 어렵다 보니 모델 압축으로 인해 모델의 정확도가 떨어진 것인지조차 확인하기 쉽지 않고, 얼마나 정확도가 떨어진 것인지 정량적으로 확인하기 어려울 때가 많다.
수학 문제를 얼마나 잘 풀었는지는 쉽게 점수를 매길 수 있지만 그림을 얼마나 잘 그렸는지는 점수를 매기기 힘든 것과 같다. 일반적으로 분류 문제를 푸는 벤치마크 모델(예를 들어 ImageNet Classification)은 1000장의 이미지 중에 몇 장의 정답을 맞췄는지가 확실하다. 하지만 말이나 이미지를 만들어 내는 생성 문제는 평가가 매우 어렵다. 객관식 문제는 OMR 카드로 자동 채점을 할 수 있지만 주관식 문제나 서술형 문제는 선생님이 하나하나 읽어보고 점수를 매겨야 한다. _p.358

온디바이스와 데이터센터 사이의 영역을 노리는 업체도 있다. 바로 퀄컴이다.

컴퓨터의 두뇌인 마이크로프로세서의 발명가가 누구인가에 대한 논란은 지금도 계속되고 있다. (중략) 방향을 잡은 사람은 테드 호프고, 실질적으로 완성한 사람은 페데리코 페긴이었다. 또 해당 프로젝트는 인텔이 주도적으로 시작한 게 아니라 일본 비지컴에서 주문해서 시작되었다. 비지컴에서 마이크로프로세서 설계를 총괄했던 마타토시 시마도 큰 역할을 했다.

인텔 인사이드 마케팅은 컴퓨터 산업의 주도권을 컴퓨터 제조사에서 CPU 제조사로 이동시켰다.

CISC는 명령어 종류가 많고 RISC는 명령어 종류가 많지 않다. (중략) 명령어 숫자가 적으면 하드웨어는 단순해지지만 소프트웨어가 크고 복잡해진다. 값비싼 자원인 메모리 사용에도 차이가 있다. 그래서 RISC 칩은 CISC 칩에 비해 메모리를 30% 더 쓴다. 그래서 전체 반도체 가격도 20% 비싸다.

삼성전자, 퀄컴, 애플은 모두 ARM의 설계도를 기반으로 CPU를 만들지만 칩 성능은 모두 다르다. 묘한 경쟁 구도가 만들어지는 것이다.

퀄컴의 위치는 묘하다. 디바이스 업체들은 퀄컴의 통신 관련 지적재산(IP)을 사용하지 않고는 통신 사업을 할 수 없다.

심리학 용어로 사람들이 기계의 무의식적인 행동에 인격을 부여하는 행위를 '일라이자 효과'라고 부르기도 한다.

지금까지 인공지능의 역사를 돌아봤다. 모든 결론은 트랜스포머로 귀결됐다. 사이즈를 키우기만 하면 언어, 이미지, 추천 등 어떤 서비스든 제공할 수 있다. AI 반도체의 조건도 단순해졌다. 행렬곱, 곱하기 더하기를 대규모로 빨리 할 수 있으면 된다.

무어의 법칙이 지켜졌다는 것은 다른 말로 하면 2년마다 반도체 제조 공정에서 선폭이 30%씩 줄었다는 의미이기도 하다. 반도체의 발전과 공정의 미세화는 사실상 같은 의미로 받아들여졌다. 연산기의 성능은 그렇게 발전해 왔다.

용량과 속도를 모두 높이려면 어떻게 해야 할까? 더 가까운 곳에, 더 많은 D램을 설치하고, 더 많은 통로로 연결해야 한다.

구글 TPU는 세대를 거듭할수록 엔비디아 GPU와 성능 격차가 벌어지고 있다. (중략) 가장 큰 차이는 초고속 데이터를 컨트롤하는 기술이다. 구글은 해당 기술은 직접 개발하지 못하고 브로드컴으로부터 공급받고 있다.

구글이 지목한 AI 반도체의 발목을 잡는 요인은 메모리 병목 현상이다. 구글은 반도체의 속도를 좌우하는 요소를 연산기(ALU), 배선(와이어), 온칩 메모리(S램), 오프칩 메모리(D램) 등 4개 카테고리로 구분했다.

비유하면 벽돌을 쌓을 때 벽돌 한 층에 시멘트를 발라 굳혀가며 만드는 것이 NCF 적층식, 벽돌 층 사이를 임시로 붙여놓고 시멘트를 들이부어 굳히는 방법이 MR-MUF 방식과 비슷하다.

학습은 전체 모델의 정확도를 높일 수 있는 가중치 1번의 값, 가중치 2번의 값을 찾는 과정이다. (중략) 여기서 모델 학습의 특징이 나타난다 (1) 얼마나 틀렸는지 계산한다는 점이고, (2) 가중치를 갱신한다는 점이다.

엔비링크는 GPU와 GPU를 연결하는 통신 기술이고, 인피니밴드는 GPU 뭉치인 노드와 노드를 연결하는 통신 기술이다.

AI 학습이 공부를 하는 과정이라면 AI 추론은 시험을 보는 과정이다. (중략) 즉, 파라미터값은 추론 과정에서 수정되지 않고 항상 고정되어 있다.

흔히 모바일 NPU라고 불리는 작은 AI 가속기에서 이런 연산기술을 채택하고 있는 경우가 많고 최신 GPU에서도 이러한 경량화된 연산기를 많이 채택한다. 예를 들어 엔비디아 A100 GPU를 사용하여 초거대언어모델 추론을 할 때 가중치와 입력값을 모두 8비트로 압축해 INT8 연산을 사용하면 FP16 연산에 비해 최대 1.5배 빠르게 결과를 얻을 수 있다.

필요한 부분을 골라 각각의 파라미터 단위로 잘라내는 압축 방식을 비구조적 가지치기(unstructured pruning) 혹은 세분화된 가지치기라고 부른다. 압축된 모델의 정확도를 필요한 부분만 골라 잘라내는 이런 방식이 좋다.

언젠가 AI 모델을 압축하는 데 상업적으로 가지치기 방법이 적용된다면 그것은 비구조적 가지치기일 가능성이 높다. 특히 모델 사이즈가 점점 커지고 있는 초거대언어모델에서 더욱 그렇다. 이때도 반드시 비구조적인 형태의 희소 모델(sparse model)을 가속할 수 있는 새로운 모델 실행 방법이 필요하다.

>>>

상당히 만족스러운 서적이다.
반도체, AI 산업 전반적으로 꼼꼼하게 다루고 있고, 역학 관계나 역사에 대해서도 충실한 편이다.
이 한 권을 통해 근래 벌어지고 있는 AI 혁신의 상당 부분을 '이해'할 수 있게 된다.

저자는 삼프로TV 취재팀장 겸 유튜브 채널 '압권'의 운영자라고 한다.
머니투데이방송에서 경제 기자 생활을 시작했다고 하니, 역시 글을 쉽게 잘 쓴 이유가 있다.

다소 기술적인 내용도 담겨 있는 점은 만족스럽다.
기술에 대한 언급 없이 AI 산업, 투자, 사람, 기업을 논할 수 없다.

저자는 결국 하드웨어, 소프트웨어, 미들웨어, 개발인력, 사업가 등을 골고루 커버한다.
나도 이런 책을 쓸 수 있을까?!
또는 누군가에게 이렇게 쉽게, 명확하게 설명할 수 있을까.

읽으면서 즐거움과 배움으로 가득한 시간을 보냈다.
근래 스무 권 이상의 AI/반도체 분야 서적을 읽은 듯 한데, 나의 top3 목록에 뽑을 것 같다.

이제 AI 시대의 본격적인 개화라는 점에 흥분되며,
앞으로 얼마나 더 많은 발전, 실패, 도전, 혁신이 있을지 기대된다.

오너라, 2030 AI 시대여!

저작자표시 비영리 변경금지 (새창열림)

Posted by ThyArt

l

블로그 이미지

g r @ t i t u d e
강한 생활력::폭넓은 관심::예능 본능 ThyArt

카테고리

분류 전체보기 (899)

읽다: 투자 (104)

읽다: 건강 (119)

읽다: 예술 (71)

읽다: 수필 (161)

읽다: 철학 (147)

읽다: 경제 (114)

일상다반사 (162)

읽다: 등등 (13)

카더라통신 (2)

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

Total :
Today :
Yesterday :

tistory

티스토리 가입하기!

티스토리툴바