출처: AI Technology Review
딥서치 폭풍 이후 중국 빅모델 스타트업 업계에는 어떤 변화가 일어날까요?
최근 여러 업계 관계자들과 논의한 결과, 현재 국내 빅모델 업계에는 하나가 극단적인 열광이고, 다른 하나는 극단적인 냉담한 분위기입니다.
전자는 딥서치 생태계를 적극적으로 수용한 산술 및 모델 서비스 공급업체와 빅모델 군비 경쟁에 참여할 여력이 없는 오픈소스 수혜 업체로 대표되며, 후자는 다른 중국 빅모델 스타트업(흔히 '식스 타이거'로 알려진)으로 대표됩니다. 후자는 다른 중국 대형 모델 스타트업(흔히 '빅 모델 6'로 알려진)과 지난 2년간 이들에게 투자한 벤처캐피털이 주도하고 있어 '냉탕과 온탕'의 상황이 연출되고 있습니다.
지난 2년간 기업가치가 1티어에 해당하는 대형 모델 기업에 투자한 일부 VC 팀들은 내부적으로 '채찍질'을 받기 시작했거나 받고 있는 것으로 파악되며, 주요 질문의 각도는 다음과 같습니다.
"우리가 수십억 달러를 투자하고 키워온 대형 모델 회사들도 그렇게 하지 못하는데, 딥시크는 왜 이렇게 저렴한 비용으로 강력한 모델을 훈련할 수 있을까요?"
"딥시크는 이번에 충분히 혁신적이고 낙관적인 기술을 가지고 있다는 것이 본질입니다. XXX는 기본적인 빅 모델 기술팀도 없는데 왜 우리가 투자해야 하나요?"
"딥시크가 이번에도 성공할 수 있을까요?" "XXX는 또한 매우 강력한 인재 팀을 보유하고 있으며, 기본 빅모델을 육성한 경험과 추구도 가지고 있는데 왜 딥시크가 되지 않았으며, 무엇에 의존하여 그렇게 높은 밸류에이션을 뒷받침할 수 있을까요?"
"딥시크가 나온 후에도 누가 여전히 빅모델 식스 타이거에 투자할까요? 어떤 기업이 여전히 상장에 대한 희망이 있을까요? 그렇지 않다면 다음에는 다시 매입하거나 엑시트할까요?"
......
"왜 딥시크가 되지 못했나", 그리고 "왜 중국에는 딥시크가 하나뿐인가"는 거의 모든 대형 모델 실무자와 VC가 봄부터 던져온 질문입니다. 이 두 가지 질문은 중국의 빅모델 혁신에 대한 거의 모든 고민을 담고 있으며, 이 두 가지 질문을 진지하게 탐구해야만 또 다른 중요한 질문인 어떻게 딥시크가 될 수 있는가
에 대한 답을 얻을 수 있습니다."
중국과 미국의 AI 혁신 비교라는 관점에서 업계에 메시지를 전달하려고 했는데요, 이 글에서는 중국의 AI는 국가적 자부심을 가져야 한다는 것과 중국에 딥시크가 하나뿐인 이유를 논의해 보려고 합니다. 이 글에서는 지난 4년간 중국의 대형 모델의 역사를 살펴봄으로써 한 걸음 더 나아가고자 합니다.
2020년 GPT-3 발발 이후 큰 흐름을 추적해온 무역 저널로서 이 글은 거시적이고 심오한 질문에 답하기보다는 주제와 관련된 몇 가지 사실이나 의견으로 제3자의 관점을 제시하고자 합니다.
1 체계적 정렬
2023 년 이전에는 중국에서 큰 모델 회사가 4 개에 불과했습니다 : Wisdom Spectrum, Noodle, Deep Speech 및 Listening Heart (나중에 Wisdom Spectrum에 인수 됨), 모두 칭화대 출신; 2023 년 이후 큰 모델 스타트 업의 수가 12 개 이상으로 증가했으며 기술적 관점에서 직접적인 이유는 Llama가 오픈 소스이지만 근본적인 이유는 다음과 같습니다.
빅 모델에 대한 기술적 장벽은 높지만 모방할 수 없는 것은 아닙니다. 기존 오픈소스 빅모델을 기반으로 기술적 난이도를 더욱 낮춰 "기술이 비즈니스 장벽이 되지 않는다"는 주장이 힘을 얻고 있습니다. 이러한 집단적 합의가 '지배적'인 상황에서 2023년 ChatGPT 폭발 이후 중국 내 몇몇 빅모델 스타트업의 권력 역학을 살펴보면 현재 중국 빅모델 창업계의 이상 현상을 쉽게 이해할 수 있습니다.
첫째, 시장 전체가 기술 혁신에 경외감을 느끼면서 중국 시장은 점점 더 무슨 일이 일어나고 있는지 파악하기 어려워지고 있습니다. 첫째, 기술 혁신에 대한 시장 전체의 경외심이 약해지면서 2023년 ChatGPT 화재 이후 중국의 첫 번째 빅모델 기술 경로 탐색기 중 하나인 Chip만이 자본의 사랑을 받았으며
가장 빨리 200억 위안의 가치를 돌파하여 빅모델의 첫 번째 계층에 랭크되었습니다. (다크 사이드 오브 더 문은 2023년 이후에 설립되었으므로 포함되지 않습니다.)
칭화대 자연어처리연구소(THUNLP)의 나머지 두 스타트업인 몐비와 셴인은 후발주자들에 비해 자본 시장에서 인기가 훨씬 떨어집니다.
특히 얼굴 벽 지능(딥시크가 제품에 집중하기로 선택했기 때문에)은 가장 먼저 '민간 버전의 빅 모델'을 제안했고, 딥시크의 기술 비전과 혁신 방향이 가장 유사하며, 심지어 딥시크가 회사를 설립한 2024년 말까지 3억 위안의 투자를 완료할 때까지 가장 일찍 회사를 설립했습니다. 2024년 말 3억 위안의 펀딩 라운드를 마감한 후, 딥시크의 기업 가치는 35억 위안 미만으로 1단계 기준인 200억 위안에 크게 못 미쳤습니다.
레이펑닷컴의 인공지능기술리뷰가 지난 2년간 50여 개 대형 투자사와 교류한 결과, 칭화대 출신으로 기술 선점 우위와 우수한 젊은 기술 인재를 보유한 위즈덤 스펙트럼과 페이스월이 이처럼 큰 차이를 보이는 이유는 주로 몇 가지 이유 때문으로 분석됩니다.
첫째는 칭화대 학자들이 "교수가 창업을 하는 것에 회의를 갖고 있기" 때문에 단일 모델에 베팅을 하고 있다는 점입니다. 두 번째는 지혜 스펙트럼의 비전이 더 잘 이해되고, 초기 외부 자금 조달은 "벤치 마크 OpenAI", VC는 즉시 이해하지만 2023 년에 가장 뜨거운 돈에서 기본 모델 훈련의 효율성 최적화에 대한 강조의 시작이 한때 루센트, 실리콘 기반 "A", "A", "A", "A", "A", "A"와 유사한 회사로 간주되기 때문에 얼굴 벽이 있다는 것입니다.
Facade Intelligence는 2023 년에 많은 돈을 얻지 못했고, 기지에서 큰 모델에 투자 할 수 없었으며, DeepSeek V3와 같은 기지에서 큰 모델의 훈련을 통해 효율적인 훈련의 중요성을 직관적으로 피드백하고 2024 년에 "효율적인 훈련"을지지하는 데 훨씬 덜 효과적인 작은 모델의 끝쪽으로 이동해야했으며, 이는 DeepSeek V3의 작업보다 효과적이지 않습니다. DeepSeek V3는 "효율적인 훈련"을 옹호하는 데 훨씬 덜 효과적입니다.
2022년과 2023년에 펀딩을 받을 때 Facade는 "효율적인 훈련"이라는 기치를 내걸었지만 VC들로부터 거의 대부분 거절당했습니다.
둘째, 기술에 대한 두려움이 없는 환경의 전제이기도 한데, 2023년 대형 모델의 물결 이후 중국의 인공지능 기술 VC는 실제로 인공지능 기술 연구에 마음을 쏟지 않고, 오히려 빨리 테이블에 올라가기 위해 비록 이 팀이 전투에서 이기지 못하더라도 '전쟁에서 승리한 연속적인 성공 기업가'에게 돈을 투자했다. 이 회사의 AI 기술 벤처캐피털은 AGI 기술에 초점을 맞추지 않고, 대규모 모델 개발 경험이 없는 팀이라도 빠르게 테이블에 앉기 위해 '전쟁에서 승리한 연쇄 성공 기업가'에게 돈을 투자했습니다.
가장 대표적인 사례는 왕후이웬의 광년 어웨이와 왕샤오촨의 바이촨 인텔리전스입니다.
현재 기업가치 200억 위안 이상의 빅모델 회사 중 빅모델이 아직 나오지 않은 2020년부터 빅모델에 대한 기술적 탐색을 시작한 사람은 지혜 스펙트럼의 탕지에, 달의 어두운 면의 양실린 등뿐이며, 바이촨 인텔리전스, 미니맥스, 스텝스타의 팀 대부분은 2023년 이후에야 작업을 시작했습니다.
이것이 가장 대표적인 예시라고 할 수 있습니다.
예를 들어 미니맥스의 창립자인 존 얀은 컴퓨터 비전 분야 출신으로, 처음에는 언어 지능(멀티모달리티는 다른 장입니다)을 다루는 대형 모델을 개발했습니다. 하지만 미니맥스는 자본의 호의를 얻기 위해 근본적인 빅 모델 기술보다는 글로우라는 제품에 먼저 의존했기 때문에 이것은 다른 차원이며, 얀 준지에 가까운 사람들은 그에 대해 "매우 기술적인 추구"라고 평가합니다.
딥시크의 R&D 팀도 0부터 시작하여 빅모델 기술을 배우고, 논문을 읽고, 실험을 교착상태에 빠졌기 때문에 이전에 빅모델을 훈련하지 않은 팀이 2023년 이후 열심히 학습하여 기술의 짧은 판을 보충할 수 없다는 징후는 없지만 지난 2년간의 산업 발전에서 업그레이드의 기본 모델에서 바이촨지능은 드물고 무게 중심이 의료산업 빅모델로 이동하고 있다. 의료 산업을 위한 대형 모델로 전환했습니다.
바이촨은 동영상과 같은 대형 모델을 육성하지 않기 때문에 다른 기업보다 R&D 비용이 낮고 현금 흐름이 좋지만 이는 바이촨에만 유리할 뿐 대형 모델 산업 전체의 발전에는 기여하지 못합니다.
자원이 한정된 상황에서 기술력이 없는 팀이 많은 자본 자원을 차지하고 반대로 기술력이 있는 팀은 아주 적은 자본 자원만 확보한다고 가정하면, 돈과 인재의 체계적 불일치는 후회만 남고 미래가 없는 결과를 낳을 수밖에 없습니다.
AGI의 대형 모델 기술이 정말 성장의 여지가 없고 기술 장벽이 점차 평평해진다면, 인터넷 시대의 자본 집약적인 접근 방식도 마지막 한 잔의 차를 얻을 수 있을지도 모릅니다. 그러나 기술 기업가에 대한 두려움은 항상 명확한 머리를 유지하고 교육 및 추론 결함에서 기본 알고리즘 및 아키텍처의 기존 대규모 모델을 여전히 볼 수 있으며 AGI에는 여전히 해결해야 할 구체적이고 어려운 문제가 많다는 것을 알고 있습니다. 즉, 기반 기술의 지속적인 혁신 능력은 여전히 대형 모델 회사의 해자이며, 순전히 자원을 놓고 경쟁하는 인터넷 방법론은 현재 중국 대형 모델의 발전에 적용되지 않습니다.
2023년과 2024년에 대형 모델 투자를 위한 '클럽 딜'도 있기 때문입니다.
.... ...
지난 2년간의 대형 모델 개발 과정에서 기술을 배우지 않으려는 R&D보다 기술을 배우려는 의지가 없는 VC가 더 치명적일 수 있습니다.
버블 시기는 결국 끝날 것입니다. 거품이 사라지면 누가 알몸으로 헤엄치고 있는지 분명해질 것입니다.
2 AGI 군단은 찾기 어려울 수 있다
기술에 대한 시장의 경외심 부족의 또 다른 영향은 시장에 부응하기 위해(물론 대기업의 포위망을 벗어나기 위해) 지난 2년 동안 중국의 대형 모델 스타트업의 눈이 장기적인 AGI에서 단기적인 상업 수익과 제품 다듬기로 돌아섰다는 점입니다.
이러한 접근 방식의 변화는 앞서 언급한 빅 모델에 더 이상 혁신이 없다는 업계의 잘못된 계산 때문이기도 합니다. AGI를 추구하려는 기업가들은 비즈니스와 기술의 균형을 맞춰야 하는 반면, AGI에 회의적이거나 시장의 소음에 완전히 혼란스러워하는 기업가들은 사전 교육을 포기하거나 C지원 애플리케이션으로 전환하거나 오픈소스 모델만을 기반으로 업계의 빅 모델을 미세 조정할 것입니다.
GPT-3에서 ChatGPT가 등장하기까지 2년 반이 걸렸지만, 중국에서는 일반적으로 대형 모델이 기반에서 상용화에 이르는 데 2년밖에 걸리지 않는 '법칙'이 존재합니다. 일부 대형 모델 회사들은 "L2"와 "L4" 단계를 모두 고수할 수 있지만, 딥서치만큼 AGI를 위한 인재와 연구 자원에 대한 투자 측면에서 순수한 회사는 없습니다.
2023년 상반기에 자금 전쟁이 시작되었을 때 업계에서는 중국 VC가 지난 세대의 AI 기업에 '세례'를 받은 후 대형 모델 기업의 상용화에 대한 인내심이 5년 또는 8년에서 3년으로 단축되었다는 분석이 있었습니다.
중국 벤처캐피털은 이전 세대의 AI 기업이 '세례'를 받은 후 대형 모델 기업의 상용화에 대한 인내심을 5년 또는 8년에서 3년으로 단축했습니다.
딥시크가 외부 자금 조달 없이 량원펑의 개인 자금과 팬텀 스퀘어의 자체 준비금에 의존해 AGI 연구에 집중하고 있다는 것은 잘 알려진 사실입니다. "내 돈이 있으니 외부의 눈치를 볼 필요가 없고, 하고 싶은 건 뭐든 할 수 있습니다." -- 많은 대기업들이 딥시크를 부러워하는 이유입니다.
최근에는 원래 AGI를 뿌리던 주샤오후가 마음을 바꿔 딥시크 때문에 AGI 기업에 투자할 의향이 있다고 말했는데요, 딥시크가 뛰어난 기술력으로 VC의 시각을 바꿨다고 할 수 있지만 더 잔인한 현실은 혁신 능력이 우수한 수많은 팀들이 돈을 얻지 못해 시대의 전야에 쓰러진다는 점입니다.
"상업화 사고방식"은 일부 기술 벤처캐피털의 그림자뿐만 아니라 R&D 인재 선발에도 반영되어 있습니다.
헤드헌터들에 따르면 2024년 중국에서 가장 큰 '크립토나이트'는 의심할 여지없이 바이트댄스가 될 것이라고 합니다. 대형 공장과 스타트업 팀 간의 구분이 형성되고, 스타트업 팀에서 대형 공장으로 대형 모델 인재가 유입되는 흐름이 지난 1년간 일반화되었습니다. 예를 들어, AI 테크놀로지 리뷰가 알고 있는 한, 딥시크(DeepSeek)가 AGI를 위한 다수의 NLP, 멀티모달, 강화학습 인재를 찾는 과정에서 딥시크와 바이트댄스 중 바이트댄스를 선택했다.
초기에 딥시크에서 일했던 헤드헌터에 따르면 딥시크도 초창기에는 구글, 메타, 오픈AI 등 해외 팀에서 우수 인재를 포섭하려 했지만 잘 되지 않아 차선책으로 자체 인재를 키우는 데 만족해야 했다고 합니다.
AI에 투자하려면 돈도 필요하지만 사람, 절대적인 기술 이상주의자 그룹, 훌륭한 조직 문화가 필요합니다. 딥시크의 성공은 복제할 수 없지만 V2, V3, R1, R1-Zero에 이르기까지 딥시크의 기술적 성과는 자금, 인재/이상, 조직 문화 측면에서 장점을 반영합니다.
딥시크 이전에도 금융 퀀트 분야에서는 "북9군, 남팬텀 스퀘어"가 잘 알려져 있으며, 퀀트 업계의 기술 인재에 대한 높은 수요는 기본적으로 상위 2 개 대학, 정보학 대회 금메달리스트의 벤치마킹 기준으로 팀이 크지는 않지만 능력이 매우 강하다는 것도 잘 알려져 있습니다. AI 테크놀로지 리뷰에 따르면, 2024년 상반기 딥시크의 팀 규모는 40명에 불과하며, 대부분이 원조 팬텀 톱2 기술 전문가들이라고 합니다.
원조 팬텀과 같은 맥락에서 딥시크의 채용 문턱은 매우 높습니다. 예를 들어, 2024년 중반부터 멀티모달 및 강화학습 전문가를 찾고 있지만, 반년 동안 채용을 진행했음에도 관련 포지션은 여전히 공석이며, 필요 이상의 인재를 채용하는 것을 선호하고 있습니다. "
R1의 후속작인 R1은 성공적이었습니다.
딥시크의 내부 조직 문화도 매우 평탄합니다. AI 테크놀로지 리뷰에 따르면 베이징과 항저우의 상사는 딥시크의 창업자 량원펑 한 명뿐입니다. "량원펑 아래는 기본적으로 모두 청부살인업자들입니다."
또한 량원펑의 개인적 스타일도 매우 뚜렷합니다. 기술에 대한 강한 신념이 있고, AGI에 대한 호기심과 배움에 대한 열망이 가득하며, 매우 근면한 사람입니다. 렁과 가까운 한 소식통은 렁을 "말이 매우 느리고, 한 문장을 표현하기 전에 오랫동안 생각해야 하며, 표현이 매우 간결하다"고 설명했습니다. 간결하지만 종종 핵심을 찌르는 말을 하기도 합니다."
딥시크의 팀 문화는 유슈나 모멘타 같은 회사의 문화와 매우 유사합니다. 팀원 모두가 기술 애호가로서 기술에 대한 존중과 호기심을 자연스럽게 가지고 있으며, 동시에 중앙집권적인 관리 스타일과 평평한 문화를 가지고 있어 기술 탐구에 어려움을 겪을 때 자원을 위에서 아래로 조정하여 정보를 신속하게 업로드하고 전파할 수 있습니다.
동시에 유슈와 딥시크는 시중의 천편일률적인 면접과는 매우 다른 자신들만의 채용 기준을 가지고 있습니다. 관심 있는 독자는 자세한 내용을 확인할 수 있습니다.
딥시크의 량 웬펑은 업계에서 아직 일반적으로 인식하지 못하던 초기에 더 적은 비용으로 더 강력한 모델을 양성하는 방법을 모색하기 시작했습니다. 마찬가지로 유슈의 왕싱싱은 사람들이 아직 로봇 개에 대해 잘 몰랐을 때 4족 보행 로봇 개를 연구하기 시작했고, 모멘타의 차오수동은 자율주행 업계가 아직 두 발로 걷는 L4에 집착하던 시절에 L2와 L4를 동시에 연구하기 시작했습니다.
주류를 거스르는 스타트업 팀에는 강한 반항 정신이 필요합니다. AI 테크놀로지 리뷰가 많은 투자자들과 소통하면서 이런 '반항'을 '젊은이들의 집단'으로 분류하기 쉽지만, 제 생각에는 반항의 밑바탕에는 해결하려는 사회 문제에 대한 팀의 지식과 판단력, 기술적 자신감이 깔려 있다고 생각합니다. 결론은 해결하고자 하는 사회 문제에 대한 팀의 지식, 판단력, 기술적 자신감, 즉 그들이 나아가는 길이 미래이며 큰 가치를 가져올 것이라는 확신에서 비롯된다는 것입니다.
3 혁신에 대한 취향
V2가 가격 전쟁을 촉발한 후, 렁은 더 다크 서지와의 인터뷰에서 이 기술적 성과에 대해 "미국에서 매일 일어나는 방대한 혁신 중 매우 흔한 일"이라고 언급했습니다. "
렁은 V3와 R1 이후 별다른 언급을 하지 않았지만, 딥시크와 렁에게 있어 AGI가 완전히 실현되기 전까지는 V3와 R1의 혁신은 그저 "매우 평범한 것"에 불과할지도 모르겠습니다. --이는 후자의 혁신과 장점을 무시하려는 것이 아니라, 영향력이 큰 팀은 100을 80처럼 보이게 하고 항상 추가 크레딧을 노리는 경향이 있다는 점을 강조하기 위함입니다.
R1이 출시되자 업계의 한 고위 강화학습 학자는 AI 테크놀로지 리뷰에 기고한 분석에서 "RL+SFT 패러다임이 순수 RL 알고리즘으로 대체된 후, 늦어도 3년 안에 AGI가 구현될 것으로 본다"고 말했습니다. "
샘 알트먼은 2025년이면 AI가 인간을 능가할 것이라고 말했고, 머스크는 늦어도 2026년까지는 AGI를 실현할 수 있을 것이라고 말했습니다. --모든 "AGI 시점"에 대한 예측이 있기 때문에 정확히 언제 일어날지 말하기는 어렵지만, 일어나고 있다는 것은 느낄 수 있습니다.
이 같은 추세는 이미 알려져 있으며, 딥시크 이사회는 적어도 두 가지 사실을 모두에게 알렸습니다. 한 가지는 AGI 기술이 천장에 도달하지 않았다는 것이고, 다른 하나는 중국의 기술팀이 AGI 분야에서 세계를 선도할 혁신을 만들어낼 능력을 갖추고 있다는 것입니다. 다음 단계는 딥시크의 승리에 기뻐하는 대신 중국의 AGI 발전을 촉진하는 것입니다.
지난 보름 동안 딥시크의 돌풍은 대형 제조업체, 스타트업, 컴퓨팅 파워 벤더, 투자자 등의 AGI 개발에 대한 인식에 새로운 변화를 가져왔습니다. 과거에는 무시되었던 중요한 이슈들이 다시 전면에 등장했고, 오래된 고정관념도 일부 깨졌습니다. 그러나 만장일치의 변화는 현 단계에서는 여전히 인공지능의 실현에 이상주의가 필요하다는 것을 모두가 깨닫고 있다는 점입니다.
오픈AI나 딥시크가 다음에 무엇을 할 것인지 추측하는 것보다 AGI가 해결해야 할 기술적 문제를 추론하는 것이 더 중요합니다. 즉, 모방보다는 혁신이 더 중요합니다.
실제로 지난 1년간 AI 테크놀로지 리뷰가 진행한 인터뷰에 따르면, 딥서치 외에도 중국에는 뛰어난 문제 해결을 위해 끊임없이 혁신하고 새로운 솔루션을 제시하는 AI 인재들이 많이 있습니다. 몇 가지 예를 들면 다음과 같습니다.
홍콩대학교 컴퓨팅 및 데이터 과학 연구소 학장인 마 이 교수는 지난 2년간 고도의 컴퓨팅 성능 발전을 통해 훈련되고 있는 현재의 빅 모델은 지능이 아닌 지식을 보유하고 있다고 강조해 왔습니다. 마 이 교수팀은 딥러닝의 블랙박스 특성과는 달리 해석과 제어가 가능한 AI 알고리즘과 프레임워크(화이트박스 이론)를 연구해 왔습니다.
CNCC 2024에서 스마트 스펙트럼의 탕 지에는 멀티모달 기술 개발의 다음 단계에 대해 언급했습니다. 2021년부터 스마트 스펙트럼 팀은 멀티모달 매크로 모델을 연구해 왔습니다. 스마트 스펙트럼 팀은 초기 탐색 과정에서 텍스트, 이미지, 음성 및 비디오와 같은 멀티모달 데이터를 동시에 투입하여 빅 모델을 학습시킬 때 한 모달리티의 데이터가 다른 모달리티의 지식/지능을 약화시키는 것 같은 비슷한 문제에 직면했다고 합니다. 멀티 모달리티가 유행하고 있지만, 모달리티 간 데이터 정렬을 최적화하고 고품질 데이터를 수집하며 멀티 모달리티 모델의 상식과 추론 능력을 향상시키는 방법에 대한 연구도 여전히 활발히 진행되고 있습니다.
2024년 3월에 Facade 팀의 몇몇 창립 멤버들과 나눈 대화에 따르면, 현재의 주류 빅 모델 아키텍처는 실제로 몇 가지 주요 문제를 잘 해결하지 못하기 때문에 경험적 학습과 공간 기억 등 AGI에 근접하기 어렵다고 합니다. 예를 들어, 사람들은 어떤 것을 여러 번 학습함으로써 더 능숙해지거나 새로운 환경에 빠르게 익숙해지고 다른 문제에 대한 지식을 새로운 환경으로 효율적으로 이전할 수 있습니다. 이는 현재 트랜스포머가 잘 표현하지 못하는 문제입니다.
구체화된 지능이 발전함에 따라 AGI는 자연스럽게 환경을 감지하고 고차 추론을 할 수 있으며, 그 고차 추론을 바탕으로 복잡한 다단계 의사결정을 내릴 수 있는 모델을 의미하는 클라우드 AGI와 엔드 사이드 AGI로 구분될 것입니다. 최근 인기를 끌고 있는 엠바디드 브레인은 이러한 추세를 따르고 있으며, 아직 해결해야 할 문제들이 많이 남아 있습니다. 이러한 문제를 해결하려면 리소스 외에도 강력한 기술력과 기술적 비전이 있어야 합니다.
o1 출시 이후 빅 모델 분야의 많은 연구가 추론으로 옮겨가기 시작했지만, 최근 구글의 제미니 팀은 차세대 기본 모델을 완성하고 소수의 사용자에게 테스트할 수 있도록 개방했습니다.
2023년 구글의 주가가 OpenAI의 공격을 받으면서 급락했지만, 2020년 6월부터 2022년까지 구글의 빅모델 기술을 살펴보면 구글의 빅모델 접근 방식은 산술의 하위 계층에서 아키텍처, 알고리즘의 상위 계층으로 시스템을 구축하는 것임을 알 수 있습니다. 이는 나중에 구글 제미니가 힘을 발휘할 수 있는 중요한 이유이기도 합니다.
딥시크의 경로도 비슷합니다. 딥시크의 기술 공개에 따르면, 대형 모델에 대한 연구 경로도 완카 클러스터의 아래쪽인 HAI 프레임워크에서 위쪽으로 올라가 연동 기술 시스템을 구축하는 방식입니다.
권위를 경계하고, 항상 문제의 본질에서 거꾸로 생각하고, 확고하게 혁신해야 길을 선도할 수 있습니다. 단기적으로 빠른 자금은 운이 좋은 팀에게 흘러갈 수 있지만, 장기적인 자원은 최선을 다해 이를 적용하는 데 탁월한 팀에게 흘러가야 합니다.
2025년에는 중국에 더 이상 딥시크가 한 곳만 존재하지 않기를 바랍니다.