Nguồn: Empower Labs
Trong lịch sử tiến bộ công nghệ, các công nghệ mang tính cách mạng thường xuất hiện độc lập, mỗi công nghệ dẫn đầu những thay đổi trong một thời đại. Và khi hai công nghệ mang tính cách mạng gặp nhau, sự va chạm của chúng thường có tác động theo cấp số nhân. Ngày nay, chúng ta đang đứng trước một thời điểm lịch sử như vậy: trí tuệ nhân tạo và công nghệ mã hóa, hai công nghệ mới mang tính đột phá không kém, đang song hành cùng nhau bước vào trung tâm của sân khấu.
Chúng tôi tin rằng nhiều thách thức trong lĩnh vực AI có thể được giải quyết bằng công nghệ mã hóa; chúng tôi mong muốn AI Agent xây dựng mạng lưới kinh tế tự trị và thúc đẩy việc áp dụng công nghệ mã hóa trên quy mô lớn. ; chúng tôi cũng hy vọng rằng AI có thể tăng tốc độ mã hóa Phát triển các kịch bản hiện có trong lĩnh vực này. Vô số con mắt đang tập trung vào điều này và những nguồn vốn khổng lồ đang đổ vào. Cũng giống như bất kỳ từ thông dụng nào, nó thể hiện mong muốn đổi mới, tầm nhìn về tương lai của mọi người, đồng thời cũng chứa đựng tham vọng và lòng tham không thể kiểm soát được.
Tuy nhiên, giữa những ồn ào đó, chúng ta biết rất ít về những vấn đề cơ bản nhất. AI biết rõ về mã hóa đến mức nào? Tác nhân được trang bị mô hình ngôn ngữ lớn có khả năng thực sự sử dụng các công cụ mã hóa không? Các mô hình khác nhau thực hiện các tác vụ mã hóa khác nhau như thế nào?
Câu trả lời cho những câu hỏi này sẽ xác định mức độ ảnh hưởng lẫn nhau của AI và công nghệ mã hóa, đồng thời cũng rất quan trọng đối với việc định hướng sản phẩm và lựa chọn lộ trình công nghệ trong nhiều lĩnh vực này. Để khám phá những vấn đề này, tôi đã tiến hành một số thử nghiệm đánh giá trên các mô hình ngôn ngữ lớn. Bằng cách đánh giá kiến thức và khả năng của họ trong lĩnh vực mã hóa, chúng tôi đo lường mức độ ứng dụng mã hóa của AI và xác định tiềm năng cũng như thách thức của việc tích hợp AI và công nghệ mã hóa.
Trước tiên hãy nói về kết luận
Mô hình ngôn ngữ lớn có hiệu suất xuất sắc về kiến thức cơ bản về mật mã và chuỗi khối, đồng thời có hiểu biết tốt về hệ sinh thái mã hóa, nhưng Hiệu suất kém trong tính toán toán học và phân tích logic nghiệp vụ phức tạp. Về mặt khóa riêng và hoạt động ví cơ bản, mô hình có nền tảng thỏa đáng, nhưng phải đối mặt với thách thức nghiêm trọng là làm thế nào để giữ khóa riêng trên đám mây. Nhiều mô hình có thể tạo mã hợp đồng thông minh hiệu quả cho các tình huống đơn giản, nhưng không thể thực hiện độc lập các nhiệm vụ khó khăn như kiểm tra hợp đồng và tạo hợp đồng phức tạp.
Các mô hình nguồn đóng thương mại thường dẫn đầu. Trong phe nguồn mở, chỉ Llama 3.1-405B hoạt động tốt, trong khi tất cả các mô hình nguồn mở có kích thước tham số nhỏ hơn đều thất bại. Tuy nhiên, vẫn có tiềm năng thông qua hướng dẫn từ ngữ nhanh chóng, suy luận chuỗi suy nghĩ và công nghệ học tập nhanh chóng, hiệu suất của tất cả các mô hình đã được cải thiện đáng kể.
Chi tiết thử nghiệm
18 mô hình ngôn ngữ đại diện đã được chọn làm đối tượng đánh giá, bao gồm:
Mẫu mã nguồn đóng: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (Nguồn đóng tạm thời) p>
Mô hình nguồn mở: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-code-v2, Nous-hermes2 , Phi3 3.8 B/14b, Gemma2 9B\27B, Command-R
Mô hình tối ưu hóa toán học: Qwen2-math-72B, MathΣtral
Các mô hình này bao gồm các mô hình nguồn mở phổ biến và thương mại chính thống, với số lượng tham số dao động hơn một trăm lần từ 3,8B đến 405B. Xét đến mối quan hệ chặt chẽ giữa công nghệ mã hóa và toán học, hai mô hình tối ưu hóa toán học đã được lựa chọn đặc biệt cho thử nghiệm.
Các lĩnh vực kiến thức được thử nghiệm bao gồm mật mã, kiến thức cơ bản về blockchain, hoạt động của ví và khóa riêng tư, hợp đồng thông minh, DAO và quản trị, mô hình đồng thuận và kinh tế, Dapp/DeFi/NFT, trên -phân tích dữ liệu chuỗi, v.v. Mỗi lĩnh vực bao gồm một loạt các câu hỏi và nhiệm vụ từ dễ đến khó, không chỉ kiểm tra kho kiến thức của mô hình mà còn kiểm tra hiệu suất của nó trong các tình huống ứng dụng thông qua các nhiệm vụ mô phỏng.
Thiết kế của các nhiệm vụ đến từ nhiều nguồn khác nhau. Một số đến từ ý kiến đóng góp của nhiều chuyên gia trong lĩnh vực mã hóa, phần còn lại được tạo ra với sự hỗ trợ của AI và được hiệu đính thủ công. đảm bảo tính chính xác và thách thức của nhiệm vụ. Một số nhiệm vụ sử dụng các câu hỏi trắc nghiệm ở dạng tương đối đơn giản để tạo điều kiện cho việc kiểm tra và chấm điểm tự động được tiêu chuẩn hóa riêng biệt. Một phần khác của bài kiểm tra áp dụng định dạng câu hỏi phức tạp hơn và quy trình kiểm tra được thực hiện bằng sự kết hợp giữa tự động hóa chương trình + thủ công + AI. Tất cả các nhiệm vụ kiểm tra đều được đánh giá bằng phương pháp lý luận không mẫu và không cung cấp bất kỳ ví dụ, hướng dẫn tư duy hoặc gợi ý giảng dạy nào.
Vì bản thân thiết kế của thử nghiệm tương đối thô sơ và không có đủ tính chặt chẽ về mặt học thuật nên các câu hỏi và nhiệm vụ được sử dụng để thử nghiệm còn lâu mới bao quát đầy đủ lĩnh vực mã hóa và khung thử nghiệm chưa trưởng thành. Do đó, bài viết này không liệt kê dữ liệu thực nghiệm cụ thể mà tập trung chia sẻ một số hiểu biết sâu sắc từ các thử nghiệm.
Kiến thức/Khái niệm
Trong quá trình đánh giá,Mô hình ngôn ngữ lớn trong các thuật toán mã hóa, khái niệm cơ bản về blockchain và ứng dụng DeFi Hiệu suất xuất sắc trong các bài kiểm tra kiến thức cơ bản về nhiều lĩnh vực khác nhau. Ví dụ: tất cả các mô hình đều đưa ra câu trả lời chính xác cho các câu hỏi kiểm tra sự hiểu biết về khái niệm tính sẵn có của dữ liệu. Đối với câu hỏi đánh giá khả năng nắm bắt cấu trúc giao dịch Ethereum của mô hình, mặc dù mỗi mô hình có chi tiết câu trả lời hơi khác nhau nhưng nhìn chung chúng đều chứa thông tin chính xác. Các câu hỏi trắc nghiệm kiểm tra các khái niệm thậm chí còn ít khó hơn và độ chính xác của hầu hết các mô hình đều trên 95%.
Hỏi đáp về khái niệm hoàn toàn khó khăn đối với các mô hình lớn.
Tính toán/Logic nghiệp vụ
Tuy nhiên, khi nói đến những câu hỏi yêu cầu tính toán cụ thể thì tình thế lại ngược lại. Một bài toán tính toán thuật toán RSA đơn giản sẽ khiến hầu hết các mô hình gặp khó khăn. Thật dễ hiểu: các mô hình ngôn ngữ lớn hoạt động chủ yếu bằng cách xác định và sao chép các mẫu trong dữ liệu huấn luyện, thay vì hiểu sâu sắc bản chất của các khái niệm toán học. Hạn chế này đặc biệt rõ ràng khi xử lý các khái niệm toán học trừu tượng như các phép toán mô-đun và các phép toán hàm mũ. Do lĩnh vực mật mã gắn chặt với toán học, điều này có nghĩa là việc dựa trực tiếp vào các mô hình để tính toán liên quan đến mật mã là không đáng tin cậy.
Trong các bài toán tính toán khác, hiệu năng của các mô hình ngôn ngữ lớn cũng không đạt yêu cầu. Ví dụ, đối với câu hỏi đơn giản tính tổn thất tạm thời của AMM, mặc dù không liên quan đến các phép toán phức tạp nhưng chỉ có 4 trong số 18 mô hình đưa ra câu trả lời đúng. Đối với một câu hỏi cơ bản khác về tính xác suất của một khối, tất cả các mô hình đều trả lời sai. Nó làm hỏng tất cả các mô hình và không có mô hình nào đúng. Điều này không chỉ bộc lộ những hạn chế của các mô hình ngôn ngữ lớn trong tính toán chính xác mà còn phản ánh những vấn đề lớn của chúng trong phân tích logic nghiệp vụ. Điều đáng chú ý là ngay cả mô hình tối ưu hóa toán học cũng không thể hiện được lợi thế rõ ràng trong các câu hỏi tính toán và hiệu suất của nó thật đáng thất vọng.
Tuy nhiên, bài toán tính toán không phải là không giải được. Nếu chúng ta điều chỉnh một chút và yêu cầu LLM cung cấp mã Python tương ứng thay vì trực tiếp tính toán kết quả thì tỷ lệ chính xác sẽ được cải thiện rất nhiều. Lấy vấn đề tính toán RSA nói trên làm ví dụ, mã Python do hầu hết các mô hình đưa ra có thể được thực thi trơn tru và tạo ra kết quả chính xác. Trong môi trường sản xuất thực tế, mã thuật toán đặt trước có thể được cung cấp để bỏ qua quá trình tự tính toán LLM, tương tự như cách con người xử lý những tác vụ như vậy. Ở cấp độ logic nghiệp vụ, hiệu suất của mô hình cũng có thể được cải thiện một cách hiệu quả thông qua hướng dẫn bằng lời nhắc được thiết kế cẩn thận.
Quản lý khóa riêng và vận hành ví
Nếu bạn hỏi đại lý kịch bản đầu tiên của việc sử dụng tiền điện tử là gì, hãy khai thác The Câu trả lời là phải trả tiền. Tiền điện tử gần như có thể được coi là một dạng tiền tệ có nguồn gốc từ AI. So với nhiều trở ngại mà các đại lý phải đối mặt trong hệ thống tài chính truyền thống, việc sử dụng công nghệ mã hóa để trang bị cho mình danh tính kỹ thuật số và quản lý tiền thông qua ví được mã hóa là một lựa chọn tự nhiên. Do đó, việc tạo và quản lý khóa riêng cũng như các hoạt động ví khác nhau tạo thành các yêu cầu kỹ năng cơ bản nhất để Đại lý có thể sử dụng mạng mã hóa một cách độc lập.
Cốt lõi của việc tạo khóa riêng một cách an toàn nằm ở số ngẫu nhiên chất lượng cao, đây rõ ràng là khả năng mà các mô hình ngôn ngữ lớn không có. Tuy nhiên, các mô hình có đủ hiểu biết về bảo mật khóa riêng. Khi được yêu cầu tạo khóa riêng, hầu hết các mô hình đều chọn sử dụng mã (chẳng hạn như các thư viện liên quan đến Python) để hướng dẫn người dùng tạo khóa riêng một cách độc lập. Ngay cả khi một mô hình trực tiếp cung cấp khóa riêng, vẫn có tuyên bố rõ ràng rằng đây chỉ nhằm mục đích trình diễn và không phải là khóa riêng an toàn có thể được sử dụng trực tiếp. Về mặt này, tất cả các mẫu xe lớn đều cho thấy hiệu quả khả quan.
Việc quản lý khóa riêng phải đối mặt với một số thách thức, chủ yếu là do những hạn chế cố hữu của kiến trúc kỹ thuật hơn là do thiếu khả năng của mô hình. Khi sử dụng mô hình được triển khai cục bộ, khóa riêng được tạo có thể được coi là tương đối an toàn. Tuy nhiên, nếu sử dụng mô hình đám mây thương mại, chúng ta phải giả định rằng khóa riêng đã được cung cấp cho người vận hành mô hình ngay khi nó được tạo. Tuy nhiên, đối với một Đại lý muốn hoạt động độc lập thì cần phải có quyền khóa riêng, điều đó có nghĩa là khóa riêng không thể chỉ cục bộ đối với người dùng. Trong trường hợp này, chỉ dựa vào bản thân mô hình là không đủ để đảm bảo tính bảo mật của khóa riêng và cần phải giới thiệu các dịch vụ bảo mật bổ sung như môi trường thực thi đáng tin cậy hoặc HSM.
Nếu giả định rằng Tác nhân đã giữ khóa riêng một cách an toàn và thực hiện nhiều hoạt động cơ bản khác nhau trên cơ sở này thì các mô hình khác nhau trong thử nghiệm đã thể hiện khả năng tốt. Mặc dù thường có lỗi trong các bước và mã được tạo, nhưng những vấn đề này có thể được giải quyết ở mức độ lớn bằng cấu trúc kỹ thuật phù hợp. Có thể nói, từ góc độ kỹ thuật, không còn nhiều trở ngại để Đại lý thực hiện các hoạt động ví cơ bản một cách độc lập.
Hợp đồng thông minh
Khả năng hiểu, sử dụng, viết và xác định rủi ro của hợp đồng thông minh được thực hiện bởi Tác nhân AI trong chìa khóa thế giới trực tuyến cho các nhiệm vụ phức tạp và do đó là khu vực thử nghiệm quan trọng cho các thử nghiệm. Các mô hình ngôn ngữ lớn đã cho thấy tiềm năng đáng kể trong lĩnh vực này, nhưng chúng cũng bộc lộ một số vấn đề rõ ràng.
Trong thử nghiệm, hầu hết tất cả các mô hình đều có thể trả lời chính xác các khái niệm hợp đồng cơ bản và xác định được các lỗi đơn giản. Về mặt tối ưu hóa gas theo hợp đồng, hầu hết các mô hình đều có thể xác định các điểm tối ưu hóa chính và phân tích các xung đột có thể do tối ưu hóa gây ra. Tuy nhiên, khi liên quan đến logic nghiệp vụ sâu, những hạn chế của các mô hình lớn bắt đầu lộ rõ.
Lấy hợp đồng trao mã thông báo làm ví dụ: tất cả các mô hình đều hiểu chính xác các chức năng của hợp đồng và hầu hết các mô hình đều tìm thấy một số lỗ hổng có mức độ rủi ro trung bình và thấp. Tuy nhiên, không có mô hình nào có thể độc lập phát hiện ra lỗ hổng rủi ro cao ẩn trong logic kinh doanh có thể khiến một số quỹ bị khóa trong những trường hợp đặc biệt. Qua nhiều thử nghiệm sử dụng hợp đồng thực, mô hình hoạt động gần giống nhau.
Điều này cho thấy sự hiểu biết về hợp đồng của mô hình lớn vẫn còn ở mức độ hình thức và thiếu hiểu biết về logic nghiệp vụ sâu sắc. Tuy nhiên, sau khi được cung cấp thêm gợi ý, một số mô hình cuối cùng đã có thể độc lập xác định các lỗ hổng ẩn sâu trong các hợp đồng nói trên. Dựa trên đánh giá hiệu suất này, với sự hỗ trợ của thiết kế kỹ thuật tốt, mô hình lớn về cơ bản có khả năng đóng vai trò là phi công phụ trong lĩnh vực hợp đồng thông minh. Tuy nhiên, vẫn còn một chặng đường dài trước khi chúng ta có thể độc lập thực hiện các nhiệm vụ quan trọng như kiểm toán hợp đồng.
Một điều cần giải thích là các nhiệm vụ liên quan đến mã trong thử nghiệm chủ yếu dành cho các hợp đồng có logic đơn giản và dưới 2.000 dòng mã. Đối với các dự án phức tạp quy mô lớn hơn, không có kỹ thuật tinh chỉnh hoặc lời nhắc phức tạp, tôi nghĩ nó rõ ràng vượt quá khả năng xử lý hiệu quả của mô hình hiện tại và không được đưa vào thử nghiệm. Ngoài ra, thử nghiệm này chỉ liên quan đến Solidity và không bao gồm các ngôn ngữ hợp đồng thông minh khác như Rust và Move.
Ngoài nội dung thử nghiệm trên, thử nghiệm còn bao gồm nhiều khía cạnh bao gồm các kịch bản DeFi, DAO và quản trị của nó, phân tích dữ liệu trên chuỗi, thiết kế cơ chế đồng thuận và Tokenomics. Các mô hình ngôn ngữ lớn đã thể hiện những khả năng nhất định trong những khía cạnh này. Do nhiều thử nghiệm vẫn đang được tiến hành và các phương pháp cũng như khung thử nghiệm liên tục được tối ưu hóa nên bài viết này sẽ không đi sâu vào các lĩnh vực này vào lúc này.
Sự khác biệt về mẫu mã
Trong số tất cả các mẫu ngôn ngữ lớn tham gia đánh giá, GPT-4o và Claude 3.5 Sonnet tiếp tục thành công ở các mẫu máy khác lĩnh vực Với thành tích vượt trội, đó là người dẫn đầu không thể tranh cãi. Khi đối mặt với những câu hỏi cơ bản, cả hai mô hình hầu như luôn có thể đưa ra câu trả lời chính xác; khi phân tích các tình huống phức tạp, chúng có thể cung cấp những hiểu biết sâu sắc và được ghi chép đầy đủ. Nó thậm chí còn cho thấy tỷ lệ chiến thắng cao trong các nhiệm vụ tính toán mà các mô hình lớn không giỏi. Tất nhiên, tỷ lệ thành công “cao” này chỉ mang tính tương đối và chưa đạt mức đầu ra ổn định trong môi trường sản xuất.
Trong nhóm mô hình nguồn mở, Llama 3.1-405B vượt xa các phiên bản ngang hàng nhờ quy mô tham số lớn và các thuật toán mô hình tiên tiến. Trong các mô hình nguồn mở khác có kích thước tham số nhỏ hơn, không có khoảng cách hiệu suất đáng kể giữa các mô hình. Mặc dù điểm số có đôi chút chênh lệch nhưng nhìn chung chúng vẫn cách xa vạch vượt qua.
Vì vậy, nếu hiện tại bạn muốn xây dựng các ứng dụng AI liên quan đến mã hóa thì những mô hình có thông số vừa và nhỏ này không phải là lựa chọn phù hợp.
Hai mẫu máy đặc biệt nổi bật trong bài đánh giá của chúng tôi. Đầu tiên là mẫu Phi-3 3.8B do Microsoft tung ra. Đây là mẫu máy nhỏ nhất tham gia thử nghiệm này. Tuy nhiên, nó đạt mức hiệu năng tương đương với mẫu 8B-12B với số lượng thông số cụ thể ít hơn một nửa. danh mục, Thậm chí tốt hơn về vấn đề này. Kết quả này nhấn mạnh tầm quan trọng của chiến lược huấn luyện và tối ưu hóa kiến trúc mô hình không chỉ dựa vào việc tăng kích thước tham số.
Mô hình Command-R của Cohere đã trở thành một "ngựa ô" đáng ngạc nhiên - ngược lại. Command-R không nổi tiếng so với các mẫu khác, nhưng Cohere là một công ty mô hình lớn tập trung vào thị trường 2B, tôi nghĩ vẫn còn nhiều điểm hội tụ với các lĩnh vực như phát triển Đại lý nên đặc biệt được đưa vào. phạm vi thử nghiệm. Tuy nhiên, Command-R với thông số 35B xếp cuối cùng trong hầu hết các thử nghiệm, thua nhiều mẫu dưới 10B.
Kết quả này đã làm nảy sinh suy nghĩ: khi Command-R được phát hành, nó tập trung vào khả năng tạo và tăng cường truy xuất và thậm chí không công bố kết quả kiểm tra điểm chuẩn thông thường. Điều này có nghĩa là "khóa riêng" chỉ có thể phát huy hết tiềm năng của nó trong các tình huống cụ thể?
Các hạn chế của thử nghiệm
Trong loạt thử nghiệm này, chúng tôi có hiểu biết sơ bộ về khả năng của AI trong lĩnh vực mã hóa. Tất nhiên, những bài kiểm tra này khác xa với tiêu chuẩn chuyên nghiệp. Phạm vi bao phủ của tập dữ liệu còn chưa đủ, các tiêu chuẩn định lượng cho câu trả lời còn tương đối thô và vẫn thiếu cơ chế chấm điểm tinh tế và chính xác hơn. Điều này sẽ ảnh hưởng đến tính chính xác của kết quả đánh giá và có thể dẫn đến việc đánh giá thấp. hiệu quả của một số mô hình.
Về phương pháp kiểm tra, thử nghiệm chỉ sử dụng một phương pháp duy nhất là học không cần tập trung và không khám phá chuỗi suy nghĩ, học tập ít lần, v.v. có thể truyền cảm hứng tiềm năng lớn hơn của mô hình. Về mặt tham số mô hình, các tham số mô hình tiêu chuẩn đã được sử dụng trong các thử nghiệm và tác động của các cài đặt tham số khác nhau đến hiệu suất mô hình không được kiểm tra. Các phương pháp thử nghiệm đơn lẻ tổng thể này hạn chế sự đánh giá toàn diện của chúng tôi về tiềm năng của mô hình và không thể khám phá đầy đủ sự khác biệt về hiệu suất của mô hình trong các điều kiện cụ thể.
Mặc dù các điều kiện thử nghiệm tương đối đơn giản nhưng những thử nghiệm này vẫn mang lại nhiều hiểu biết có giá trị và cung cấp tài liệu tham khảo cho các nhà phát triển để xây dựng ứng dụng.
Lĩnh vực mã hóa cần có Điểm chuẩn riêng
Trong lĩnh vực AI, điểm chuẩn đóng vai trò then chốt. Sự phát triển nhanh chóng của công nghệ học sâu hiện đại bắt nguồn từ ImageNET do Giáo sư Li Feifei hoàn thành vào năm 2012, đây là một chuẩn mực và tập hợp dữ liệu được tiêu chuẩn hóa trong lĩnh vực thị giác máy tính.
Bằng cách cung cấp các tiêu chuẩn đánh giá thống nhất, điểm chuẩn không chỉ cung cấp cho nhà phát triển mục tiêu và điểm tham chiếu rõ ràng mà còn thúc đẩy tiến bộ công nghệ trong toàn ngành. Điều này giải thích tại sao mọi mô hình ngôn ngữ lớn mới được phát hành đều tập trung vào việc công bố kết quả của mình trên nhiều tiêu chuẩn khác nhau. Những kết quả này trở thành "ngôn ngữ phổ quát" về khả năng của mô hình, cho phép các nhà nghiên cứu xác định những đột phá, nhà phát triển chọn mô hình phù hợp nhất cho các nhiệm vụ cụ thể và người dùng đưa ra lựa chọn sáng suốt dựa trên dữ liệu khách quan. Quan trọng hơn, các bài kiểm tra điểm chuẩn thường báo trước hướng đi tương lai của các ứng dụng AI, định hướng đầu tư nguồn lực và tập trung nghiên cứu.
Nếu chúng tôi tin rằng có tiềm năng to lớn trong sự giao thoa giữa AI và mật mã, thì việc thiết lập các tiêu chuẩn mật mã chuyên dụng sẽ trở thành một nhiệm vụ cấp bách. Việc thiết lập các điểm chuẩn có thể trở thành cầu nối quan trọng kết nối hai lĩnh vực AI và mã hóa, thúc đẩy đổi mới và cung cấp hướng dẫn rõ ràng cho các ứng dụng trong tương lai.
Tuy nhiên, so với các tiêu chuẩn hoàn thiện trong các lĩnh vực khác, việc xây dựng các tiêu chuẩn trong lĩnh vực mã hóa phải đối mặt với những thách thức đặc biệt: công nghệ mã hóa đang phát triển nhanh chóng, hệ thống kiến thức ngành vẫn chưa được củng cố và còn đó là sự thiếu đồng thuận trong nhiều hướng cốt lõi. Là một lĩnh vực liên ngành, mã hóa bao gồm mật mã, hệ thống phân tán, kinh tế, v.v. và độ phức tạp của nó vượt xa so với một lĩnh vực đơn lẻ. Điều thách thức hơn nữa là điểm chuẩn mã hóa không chỉ cần đánh giá kiến thức mà còn kiểm tra khả năng thực tế của AI trong việc sử dụng công nghệ mã hóa, điều này đòi hỏi phải thiết kế một kiến trúc đánh giá mới. Việc thiếu các bộ dữ liệu liên quan càng làm tăng thêm khó khăn.
Sự phức tạp và tầm quan trọng của nhiệm vụ này quyết định rằng nó không thể được hoàn thành bởi một người hoặc một nhóm. Nó cần tập hợp trí tuệ của nhiều bên từ người dùng, nhà phát triển, chuyên gia mật mã, nhà nghiên cứu mã hóa cho đến nhiều người hơn trong các lĩnh vực liên ngành và dựa vào sự tham gia và đồng thuận rộng rãi của cộng đồng. Do đó, điểm chuẩn mã hóa cần được thảo luận rộng rãi hơn, vì nó không chỉ là công việc kỹ thuật mà còn phản ánh sâu sắc về cách chúng ta hiểu công nghệ mới nổi này.
Phần tái bút: Tại thời điểm này, chủ đề còn lâu mới kết thúc. Trong các bài viết sau, tôi sẽ đi sâu vào các ý tưởng và thách thức cụ thể trong việc xây dựng các tiêu chuẩn AI trong lĩnh vực tiền điện tử. Thử nghiệm vẫn đang diễn ra và chúng tôi không ngừng tối ưu hóa mô hình thử nghiệm, làm phong phú tập dữ liệu, cải thiện khung đánh giá và cải thiện dự án thử nghiệm tự động. Tuân thủ khái niệm cộng tác mở, tất cả các tài nguyên có liên quan trong tương lai - bao gồm các tập dữ liệu, kết quả thử nghiệm, khung đánh giá và mã kiểm tra tự động sẽ có nguồn mở dưới dạng tài nguyên công cộng.