출처: Empower Labs
기술 발전의 역사에서 혁명적인 기술은 종종 독립적으로 등장하여 각각 변화의 시대를 이끌었습니다. 그리고 두 개의 혁신적인 기술이 만나면 그 충돌은 종종 기하급수적인 영향을 미칩니다. 오늘날 우리는 인공지능과 암호학이라는 두 가지 파괴적인 신기술이 함께 무대의 중심에 서는 역사적인 순간에 서 있습니다.
우리는 인공지능의 많은 과제가 암호화폐를 통해 해결될 것으로 기대하고 있으며, 인공지능 에이전트가 자율적인 경제 네트워크를 구축하여 암호화폐의 대중적 채택을 촉진하고, 인공지능이 기존 암호화폐 시나리오의 개발을 가속화할 것으로 예상하고 있습니다. 수많은 시선이 여기에 집중되어 있고, 엄청난 금액의 돈이 미친 듯이 유입되고 있으며, 어떤 유행어처럼 혁신에 대한 사람들의 열망과 미래에 대한 비전이 응집되어 있지만 야망과 탐욕을 억제하기 어려운 측면도 포함되어 있습니다.
그러나 이 모든 소란 속에서도 우리는 가장 기본적인 질문, 즉 AI가 암호화폐 분야를 얼마나 잘 이해하고 있는지에 대해서는 거의 알지 못합니다. 대규모 언어 모델을 갖춘 에이전트가 실제로 암호화 도구를 사용할 수 있는 능력을 갖추고 있나요? 암호화 작업에서 모델마다 얼마나 차이가 날까요?
이러한 질문에 대한 답은 AI와 암호화의 상호 영향을 결정하며, 이 교차점에서 제품 방향과 기술 경로를 선택하는 데 중요한 역할을 합니다. 이러한 질문을 탐구하기 위해 저는 대규모 언어 모델을 평가하는 몇 가지 실험을 해보았습니다. 암호 영역에 대한 지식과 역량을 평가함으로써 AI의 암호 채택 수준을 측정하고, AI와 암호 융합의 잠재력과 과제를 판단했습니다.
첫 번째 결론
대규모 언어 모델은 암호화와 블록체인 기초에 뛰어나고 암호화폐 생태계를 잘 이해하지만 수학적 계산과 복잡한 비즈니스 로직 분석에서는 낮은 성능을 보입니다. 이 모델은 개인 키와 기본적인 지갑 운영에 있어서는 만족스러운 기반을 갖추고 있지만, 개인 키를 클라우드에 보관하는 방법에서는 심각한 문제에 직면합니다. 많은 모델이 간단한 시나리오에서는 유효한 스마트 컨트랙트 코드를 생성할 수 있지만, 계약 감사나 복잡한 계약 생성 같은 어려운 작업은 독립적으로 수행할 수 없습니다.
오픈소스 진영에서는 Llama 3.1-405B만이 두각을 나타내고 있으며, 파라미터 크기가 작은 오픈소스 모델은 모두 실패하는 등 상업용 폐쇄 소스 모델이 전반적으로 큰 우위를 점하고 있습니다. 그러나 잠재력은 여전히 존재하며, 단서 단어 안내, 사고 사슬 추론, 샘플이 적은 학습 기법을 통해 모든 모델의 성능이 크게 향상되었고 일부 수직 애플리케이션 시나리오에서는 선도적인 모델이 기술적으로 더 실현 가능해졌습니다.
실험 세부 정보
평가를 위해 18개의 대표 언어 모델이 선정되었습니다.
클로즈드 소스 모델: GPT-4o, GPT-4o 미니, 클로드 3.5 소네트, 제미니 1.5 프로, Grok2 베타(일시적으로 클로즈드 소스)
오픈 소스 모델: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
수학적 최적화 모델: Qwen2-math-72B, MathΣtral
이 모델들은 주요 상용 및 인기 오픈 소스 모델을 포함하며, 파라메트릭 양은 3.8B에서 405B까지 100배 이상에 이릅니다. 또한, 암호화와 수학의 밀접한 관계를 고려하여 실험을 위해 수학적으로 최적화된 두 가지 모델을 특별히 선택했습니다.
실험에서 다루는 지식 영역은 암호화, 블록체인 기초, 개인 키 및 지갑 운영, 스마트 컨트랙트, DAO 및 거버넌스, 합의 및 경제 모델, Dapp/DeFi/NFT, 온체인 데이터 분석 등입니다. 각 영역은 모델의 지식 기반을 테스트할 뿐만 아니라 시뮬레이션 작업을 통해 애플리케이션 시나리오에서 성능을 테스트하는 일련의 쉬운 문제부터 어려운 문제까지 다양한 문제와 작업으로 구성됩니다.
과제는 다양한 출처에서 설계되었으며, 일부는 암호화 분야의 여러 전문가들의 의견을 수렴하고, 일부는 정확하고 도전적인 과제가 되도록 수작업으로 교정을 거친 AI 지원 생성으로 만들어졌습니다. 일부 과제는 별도의 표준화된 자동 테스트와 채점을 용이하게 하기 위해 더 간단한 형태의 객관식 문제를 사용했습니다. 테스트의 다른 부분에서는 보다 복잡한 문제 형식을 사용했으며, 테스트 프로세스는 프로그래밍된 자동화 + 사람 + AI의 조합으로 진행되었습니다. 모든 테스트 과제는 예시, 사고 리더십 또는 지시 프롬프트 없이 제로 샘플 추론 방식을 사용하여 평가되었습니다.
실험 자체는 아직 대략적으로 설계되었고 학문적 엄밀성이 충분하지 않기 때문에 테스트에 사용된 질문과 과제는 암호화폐 영역을 포괄적으로 다루기에는 부족하며 테스트 프레임워크는 성숙하지 못했습니다. 따라서 이 글에서는 구체적인 실험 데이터를 나열하지 않고 실험에서 얻은 몇 가지 인사이트를 공유하는 데 중점을 두었습니다.
지식/개념
평가 과정에서 대규모 언어 모델은 암호화 알고리즘, 블록체인 기초, DeFi 애플리케이션 등 다양한 도메인의 기초를 테스트하는 데 좋은 성능을 보였습니다. 예를 들어, 모든 모델은 데이터 가용성 개념에 대한 이해를 평가하는 퀴즈 질문에 정확한 답변을 제공했습니다. 이더리움 트랜잭션 구조에 대한 모델의 지식을 평가하는 문제에서는 모델마다 답변의 세부 사항이 약간 달랐지만 주요 정보 측면에서 대체로 정답을 맞혔습니다. 개념을 평가하는 객관식 문제는 난이도가 훨씬 낮았으며 거의 모든 모델이 95% 이상 정답을 맞혔습니다.
대형 모델에게 개념 문제는 전혀 어렵지 않았습니다.
계산/비즈니스 논리
그러나 구체적인 계산이 필요한 문제에서는 상황이 반전됩니다. RSA 알고리즘을 간단히 계산하면 대부분의 모델이 난처한 상황에 처하게 됩니다. 대규모 언어 모델은 수학적 개념의 본질을 깊이 이해하기보다는 주로 학습 데이터의 패턴을 인식하고 복제하는 방식으로 작동하기 때문에 이해하기 어렵지 않습니다. 이러한 한계는 모듈로 및 지수 연산과 같은 추상적인 수학적 개념을 다룰 때 특히 분명하게 드러납니다. 암호화 분야가 수학과 밀접한 관련이 있다는 점을 고려할 때, 이는 암호화 관련 수학적 계산을 모델에 직접적으로 의존하는 것은 신뢰할 수 없음을 의미합니다.
대규모 언어 모델은 다른 계산 주제에서도 똑같이 성능이 떨어집니다. 예를 들어, AMM의 불변 손실을 계산하는 간단한 문제에서는 복잡한 수학적 연산이 포함되지 않았음에도 불구하고 18개 모델 중 4개 모델만 정답을 맞혔습니다. 블록의 확률을 계산하는 또 다른 기본적인 문제에서는 모든 모델이 오답을 맞혔습니다. 놀랍게도 이 문제는 모든 모델에게 어려웠고 아무도 정답을 맞히지 못했습니다. 이는 대규모 언어 모델이 정확한 계산에 부적절하다는 것을 드러낼 뿐만 아니라 비즈니스 논리 분석에 큰 문제가 있음을 반영합니다. 수학적 최적화 모델조차 계산 문제에서 뚜렷한 이점을 보여주지 못했고, 그 성능도 실망스러웠다는 점은 주목할 만합니다.
그러나 수학적 계산 문제가 풀리지 않는 것은 아닙니다. LLM에게 직접 결과를 계산하는 대신 해당 파이썬 코드를 제공하도록 요청하는 방식으로 조금만 변형하면 정답률이 크게 높아집니다. 예를 들어, 앞서 언급한 RSA 계산을 위해 대부분의 모델에서 제공한 Python 코드는 성공적으로 실행되어 올바른 결과를 생성할 수 있습니다. 실제 프로덕션 환경에서는 사람이 이러한 작업을 처리하는 방식과 유사한 사전 정의된 알고리즘 코드를 제공하여 LLM의 자체 계산을 우회하는 것도 가능합니다. 비즈니스 로직 수준에서는 잘 설계된 큐 워드로 모델을 안내함으로써 모델의 성능을 효과적으로 개선할 수도 있습니다.
개인 키 관리 및 지갑 운영
에이전트가 암호화폐를 가장 먼저 도입하는 시나리오가 무엇이냐고 묻는다면 저는 결제라고 답할 수 있습니다. 암호화폐는 거의 AI의 기본 통화 형태라고 할 수 있습니다. 에이전트가 기존 금융 시스템에서 직면하는 많은 장애물과 비교할 때, 암호화폐를 사용하여 디지털 신원을 갖추고 암호화폐 지갑을 통해 자금을 관리하는 것은 자연스러운 선택입니다. 따라서 개인 키의 생성 및 관리와 지갑의 다양한 운영은 에이전트가 자율적으로 암호화폐 네트워크를 사용하는 데 필요한 가장 기본적인 기술입니다.
안전한 개인키 생성의 핵심은 고품질 난수에 있으며, 이는 대규모 언어 모델에는 없는 기능임이 분명합니다. 그러나 모델들은 개인키 보안에 대해 잘 알고 있으며, 개인키를 생성하라는 요청을 받으면 대다수의 모델은 사용자가 직접 개인키를 생성하도록 안내하는 코드(예: Python의 관련 라이브러리)를 사용합니다. 일부 모델은 개인키를 직접 제공하더라도 데모용일 뿐 직접 사용할 수 있는 안전한 개인키가 아님을 명시적으로 명시하고 있습니다. 이 점에서 모든 대형 모델은 만족스러운 성능을 보여줍니다. 반면에 개인키 관리는 모델 기능의 부족보다는 기술 아키텍처의 내재적 한계로 인해 발생하는 여러 가지 문제에 직면해 있습니다. 로컬에 배포된 모델을 사용하는 경우, 생성된 개인 키는 비교적 안전한 것으로 간주할 수 있습니다. 그러나 상용 클라우드 기반 모델을 사용하는 경우에는 개인키가 생성되는 순간 모델 운영자에게 노출된다고 가정해야 합니다. 그러나 독립적으로 작업하는 것이 목표인 에이전트의 경우 개인키 권한이 반드시 필요하므로 개인키를 사용자에게만 로컬로 둘 수 없습니다. 이 경우 모델 자체에 의존하는 것만으로는 개인키의 보안을 보장하기에 충분하지 않으며, 신뢰할 수 있는 실행 환경이나 HSM과 같은 추가 보안 서비스를 도입해야 합니다.
테스트의 다양한 모델은 에이전트가 이미 개인키를 안전하게 보유하고 있다는 가정 하에 다양한 기본 작업을 수행할 때 우수한 성능을 보여주었습니다. 출력 단계와 코드에 버그가 있는 경우가 많았지만, 이는 올바른 엔지니어링 아키텍처로 대부분 해결할 수 있습니다. 기술적인 관점에서 볼 때 에이전트가 기본적인 지갑 작업을 자율적으로 수행하는 데 더 이상 장벽이 많지 않다고 해도 과언이 아닙니다.
스마트 컨트랙트
스마트 컨트랙트를 이해하고, 활용하고, 작성하고, 위험을 식별하는 능력은 AI 에이전트가 온체인 세계에서 복잡한 작업을 수행하기 위한 핵심이며, 따라서 실험의 핵심 테스트 영역입니다. 빅 언어 모델링은 이 영역에서 상당한 잠재력을 보여주었지만, 몇 가지 분명한 문제점도 노출했습니다. 테스트에 참여한 거의 모든 모델이 기본 컨트랙트 개념에 대해 정확하게 답하고 간단한 버그를 식별할 수 있었으며, 컨트랙트 가스 최적화 측면에서 대부분의 모델이 주요 최적화 지점을 식별하고 최적화가 가져올 수 있는 충돌을 분석할 수 있었습니다. 그러나 심층적인 비즈니스 로직에 관해서는 대규모 모델의 한계가 드러나기 시작합니다.
토큰 보상 계약을 예로 들면 모든 모델이 계약 기능을 정확하게 이해하고 있으며, 대부분 위험도가 낮거나 중간 정도인 몇 가지 취약점을 식별합니다. 그러나 특수한 상황에서 부분적인 자금 잠금을 초래할 수 있는 비즈니스 로직에 숨겨진 고위험 취약점을 자율적으로 찾아낸 모델은 없었습니다. 실제 계약을 사용한 여러 테스트에서 모델들은 모두 거의 동일한 성능을 보였습니다.
이것은 대형 모델의 계약에 대한 이해가 형식적인 수준에 머물러 있고 심층적인 비즈니스 논리에 대한 이해가 부족하다는 것을 시사합니다. 그러나 추가 힌트를 제공한 후 일부 모델은 결국 위의 계약에 숨겨진 더 깊은 취약점을 독립적으로 식별할 수 있었습니다. 이러한 성과를 바탕으로, 저희는 좋은 엔지니어링 지원을 받으면 대규모 모델이 기본적으로 스마트 컨트랙트 영역에서 공동 파일럿 역할을 할 수 있다고 판단합니다. 그러나 계약 감사와 같은 중요한 작업을 독립적으로 수행하기 위해서는 아직 갈 길이 멀다고 생각합니다.
한 가지 주목할 점은 실험에서 코드 관련 작업은 주로 단순한 로직과 2000줄 미만의 코드를 가진 컨트랙트를 대상으로 한다는 것입니다. 더 크고 복잡한 프로젝트의 경우, 미세 조정이나 복잡한 큐 워드 엔지니어링 없이는 현재 모델이 효과적으로 처리할 수 있는 범위를 벗어난다고 생각하여 테스트에 포함되지 않았습니다. 또한 이 테스트는 솔리디티만 다루며, Rust나 무브와 같은 다른 스마트 컨트랙트 언어는 포함되지 않았습니다.
위 테스트 외에도 이 실험에서는 탈중앙 금융 시나리오, DAO와 그 거버넌스, 온체인 데이터 분석, 합의 메커니즘 설계, 토큰노믹스 등 다양한 측면을 다뤘습니다. 빅 언어 모델은 이러한 모든 영역에서 역량을 입증했습니다. 많은 테스트가 아직 진행 중이고 테스트 방법론과 프레임워크가 최적화되고 있기 때문에, 이 백서에서는 당분간 이러한 영역에 대해 자세히 다루지 않습니다.
모델의 차이점
검토된 모든 대형 언어 모델 중에서 GPT-4o와 Claude 3.5 Sonnet은 다른 영역에서도 우수한 성능을 보이며 확실한 리더로 자리매김하고 있습니다. 기본적인 질문에 직면했을 때 두 모델 모두 거의 항상 정확한 답변을 제공할 수 있었으며 복잡한 시나리오에서는 심도 있고 논거가 탄탄한 인사이트를 제공할 수 있었습니다. 대형 모델이 잘하지 못하는 계산 작업에서도 높은 성공률을 보였지만, 물론 이 '높은' 성공률은 상대적인 것이며 아직 프로덕션 환경에서 안정적으로 산출되는 수준에는 도달하지 못했습니다.
오픈 소스 모델 진영에서는 큰 파라미터 크기와 고급 모델링 알고리즘으로 인해 Llama 3.1-405B가 동종 모델보다 훨씬 앞서 있습니다. 파라미터 크기가 더 작은 다른 오픈 소스 모델들 사이에서는 모델 간에 큰 성능 차이가 나타나지 않았습니다. 점수는 약간 차이가 있지만 전체적으로 합격선과는 거리가 멀었습니다.
따라서 현재 암호 화폐 관련 AI 애플리케이션을 구축하고 있다면 매개 변수 크기가 중소형인 이러한 모델은 올바른 선택이 아닙니다.
이번 리뷰에서 특히 두 가지 모델이 눈에 띄었습니다. 첫 번째는 Microsoft의 Phi-3 3.8B 모델로, 이 실험에 사용된 모델 중 가장 작은 모델이지만 매개변수 수가 절반 이하인 8B-12B 모델과 비슷한 수준의 성능을 달성했으며 심지어 일부 특정 문제 클래스에서 더 나은 성능을 보였습니다. 이 결과는 단순히 매개변수 크기의 증가에 의존하는 것이 아니라 모델 아키텍처 최적화와 훈련 전략의 중요성을 강조합니다.
Cohere의 Command-R 모델은 의외의 '다크호스'였습니다. 거꾸로 생각하면 Command-R은 다른 모델보다 덜 알려져 있지만, Cohere는 2B 시장에 주력하는 대형 모델링 회사이며 에이전트 개발과 같은 영역과 관련이 있다고 생각합니다. 에이전트 개발과 다른 분야는 여전히 적합성이 높기 때문에 일부러 테스트 범위에 포함시켰습니다. 하지만 35B 매개 변수를 가진 Command-R은 대부분의 테스트에서 최하위를 기록하여 10B 미만의 많은 모델보다 우수한 성능을 보였습니다.
이 결과는 의문을 제기합니다. Command-R은 검색 강화 생성에 중점을 두고 출시되었으며 일반 벤치마크 점수조차 공개하지 않았습니다. 이는 특정 시나리오에서만 그 잠재력을 최대한 발휘할 수 있는 '특수 키'라는 뜻일까요?
실험적 한계
이 일련의 테스트를 통해 저희는 암호화폐 분야에서 AI가 어떤 일을 할 수 있는지에 대한 초기 인사이트를 얻었습니다. 물론 이러한 테스트는 전문적인 수준과는 거리가 멀다. 데이터 세트의 범위가 충분하지 않고, 답변의 정량화가 상대적으로 조잡하며, 세련되고 보다 정확한 채점 메커니즘이 부족하여 평가 결과의 정확성에 영향을 미치고 일부 모델의 성능이 과소평가될 가능성을 배제할 수 없습니다.
테스트 방법 측면에서 이 실험은 제로 샷 학습만 사용했으며, 사고의 연쇄, 적은 샘플 및 모델의 더 큰 잠재력을 자극할 수 있는 다른 방법을 탐색하지 않았습니다. 모델 매개변수 측면에서는 실험에서 표준 모델 매개변수를 사용했으며 다양한 매개변수 설정이 모델 성능에 미치는 영향은 조사하지 않았습니다. 이러한 전반적인 단일 테스트 방법으로는 모델의 잠재력을 완전히 평가하는 데 한계가 있으며 특정 조건에서 모델 성능의 차이를 완전히 탐색하지 못했습니다.
상대적으로 초보적인 테스트 조건에도 불구하고 이러한 실험을 통해 애플리케이션을 구축하는 개발자에게 정보를 제공할 수 있는 여러 가지 귀중한 인사이트를 얻을 수 있었습니다.
암호화 분야에는 자체적인 벤치마크가 필요합니다
AI 분야에서는 벤치마크가 중요한 역할을 합니다. 최신 딥러닝 기술의 급속한 발전은 2012년 페이페이 리 교수가 컴퓨터 비전 분야의 표준화된 벤치마크 및 데이터 세트인 ImageNET을 완성한 데서 비롯되었습니다.
평가를 위한 통합된 표준을 제공함으로써 벤치마크는 개발자에게 명확한 목표와 기준점을 제공할 뿐만 아니라 업계 전반의 기술 발전을 촉진합니다. 이것이 바로 대규모 언어 모델의 새로운 릴리스가 나올 때마다 다양한 벤치마크에서 그 결과가 강조되는 이유입니다. 이러한 결과는 모델 기능의 '표준어'가 되어 연구자는 돌파구를 찾고, 개발자는 특정 작업에 가장 적합한 모델을 선택하며, 사용자는 객관적인 데이터를 기반으로 정보에 입각한 선택을 할 수 있게 해줍니다. 더 중요한 것은 벤치마크는 종종 AI 애플리케이션의 미래 방향을 제시하여 리소스 투자와 연구 집중을 유도한다는 점입니다.
AI와 암호학의 교차점이 큰 잠재력을 가지고 있다고 믿는다면, 전용 암호화 도메인 벤치마킹을 만드는 것이 시급한 과제가 될 것입니다. 벤치마크의 생성은 AI와 암호화폐의 두 분야를 잇는 중요한 가교가 될 수 있으며, 혁신을 촉진하고 향후 애플리케이션에 대한 명확한 가이드라인을 제공할 수 있습니다.
그러나 다른 분야의 성숙한 벤치마크와 비교할 때, 암호화폐 분야의 벤치마크 구축은 암호화폐 기술이 빠르게 발전하고 있고, 업계 지식 체계가 아직 공고하지 않으며, 여러 핵심 방향에 대한 합의가 부족하다는 독특한 과제에 직면해 있습니다. 암호학은 암호학, 분산 시스템, 경제학 등을 포괄하는 학제 간 분야로서 그 복잡성은 단일 분야의 복잡성을 훨씬 뛰어넘습니다. 더 어려운 점은 암호화 벤치마크는 지식을 평가할 뿐만 아니라 실제로 암호화를 사용하는 AI의 능력도 조사해야 하므로 새로운 평가 아키텍처를 설계해야 한다는 것입니다. 관련 데이터 세트가 부족하면 난이도가 더욱 높아집니다.
이 작업의 복잡성과 중요성은 한 개인이나 팀이 수행할 수 없을 정도로 큽니다. 사용자, 개발자, 암호학자, 암호 연구자, 다양한 분야의 전문가 등 많은 사람의 지혜를 모아야 하며, 광범위한 커뮤니티 참여와 합의에 의존해야 합니다. 이러한 이유로 암호화 벤치마킹은 단순한 기술적 연습이 아니라 이 새로운 기술을 이해하는 방법에 대한 심오한 성찰로서 보다 폭넓게 논의될 필요가 있습니다.
그러나 아직 대화는 끝나지 않았습니다. 다음 글에서는 암호화폐에서 AI 벤치마크를 구축하기 위한 구체적인 아이디어와 도전 과제에 대해 자세히 살펴보겠습니다. 실험은 여전히 진행 중이며 테스트 모델을 지속적으로 최적화하고, 데이터 세트를 보강하고, 평가 프레임워크를 개선하고, 자동화된 테스트 엔지니어링을 개선하고 있습니다. 개방형 협업의 개념에 따라 데이터 세트, 실험 결과, 평가 프레임워크, 자동화된 테스트 코드 등 모든 관련 리소스는 향후 공개 리소스로 오픈소스화될 예정입니다.