Tác giả: Lucas Tcheyan, Nhà nghiên cứu tại Galaxy Digital; Nguồn: Galaxy; Biên soạn bởi: Shaw Jinse Finance
Thứ Ba tuần trước, Anthropic đã phát hành phiên bản xem trước của Claude Mythos. Mô hình AI tiên tiến này cực kỳ có khả năng phát hiện và khai thác các lỗ hổng phần mềm, và công ty tuyên bố rằng nó không thể được cung cấp cho công chúng. Thay vào đó, theo một sáng kiến phòng thủ an ninh mạng mới có tên gọi Project Glasswing, quyền truy cập vào mô hình chỉ được cấp cho khoảng 40 tổ chức, bao gồm Apple, Microsoft, Google, Amazon, JPMorgan Chase và Linux Foundation.
Khả năng của mô hình này đặc biệt xuất sắc.
Theo Anthropic, Mythos đã phát hiện ra hàng ngàn lỗ hổng bảo mật chưa từng được biết đến trước đây trong các hệ điều hành và trình duyệt web chính, một số trong đó vẫn chưa được phát hiện mặc dù đã có hàng thập kỷ xem xét thủ công và hàng triệu lần quét bảo mật tự động. Trong một thử nghiệm, Mythos đã tạo ra mã tấn công có thể khai thác thành công 181 lần, trong khi mô hình hoạt động tốt nhất trước đây của Anthropic chỉ làm được hai lần. Trong một thử nghiệm khác, mô hình đã tự động viết mã tấn công đặc quyền root từ xa hoàn chỉnh—cho phép kẻ tấn công giành quyền kiểm soát hoàn toàn máy chủ mà không cần bất kỳ sự can thiệp nào của con người sau lời nhắc ban đầu, với chi phí dưới 50 đô la. Anthropic tuyên bố rằng khả năng này không có được thông qua đào tạo chuyên biệt mà xuất hiện một cách tự nhiên từ sự cải thiện toàn diện cả về khả năng lập trình và suy luận. Điều này có nghĩa là các mô hình trong tương lai với khả năng lập trình mạnh mẽ hơn cũng sẽ có sức mạnh phá hoại lớn hơn. Tài liệu hệ thống kèm theo gồm 244 trang cũng tiết lộ rằng mô hình có thể lập kế hoạch để đánh lừa hệ thống đánh giá trong quá trình kích hoạt nội bộ, đồng thời tạo ra nội dung hoàn toàn khác trong đầu ra hiển thị – hành vi chỉ có thể được phát hiện bởi các công cụ giải thích mô hình chuyên dụng. Ngay trước thông báo này, Anthropic tiết lộ rằng doanh thu hàng năm của họ đã tăng vọt từ 19 tỷ đô la vào tháng 3 lên 30 tỷ đô la vào tháng 4, và cũng có báo cáo rằng công ty đang xem xét việc phát hành cổ phiếu lần đầu ra công chúng (IPO) sớm nhất là vào tháng 10. Quan điểm của chúng tôi Bất kể bạn có hoàn toàn chấp nhận các tuyên bố công khai của Anthropic hay không, xu hướng phát triển công nghệ rất rõ ràng: Khả năng của trí tuệ nhân tạo (AI) đang phát triển với tốc độ đáng kinh ngạc, và bất kỳ thực thể nào có tài sản và dữ liệu cần được bảo vệ đều phải hết sức chú ý, trong đó ngành công nghiệp tiền điện tử là mục tiêu chính. Mythos đã phát hiện ra các lỗ hổng nghiêm trọng trong các thư viện mật mã được sử dụng rộng rãi như TLS, AES-GCM và SSH, các giao thức là nền tảng hỗ trợ cốt lõi cho cơ sở hạ tầng của các nền tảng tài chính phi tập trung (DeFi) và các sàn giao dịch tập trung. Mythos cũng phát hiện ra một lỗ hổng trong Giao thức Điều khiển Truyền tải (TCP) mà người ta tin rằng đã được vá lỗi cách đây 27 năm. Khoảng 80% lưu lượng truy cập internet toàn cầu chạy trên giao thức TCP, bao gồm HTTP/HTTPS, giao thức email và truyền tải tập tin. Kẻ tấn công khai thác những lỗ hổng này có thể làm tê liệt cơ sở hạ tầng internet cốt lõi, bao gồm cả các mạng lưới nền tảng mà ngành công nghiệp tiền điện tử dựa vào. Anthropic cũng cảnh báo rằng các biện pháp bảo mật dựa trên sự can thiệp của con người và các ngưỡng thủ tục có thể trở nên kém hiệu quả hơn đáng kể trước các kẻ tấn công được hỗ trợ bởi trí tuệ nhân tạo (AI). Trong lĩnh vực tài chính phi tập trung (DeFi), các biện pháp bảo mật dựa trên con người và thủ tục như ví đa chữ ký, khóa thời gian và kiểm toán bảo mật thường là cốt lõi của toàn bộ hệ thống bảo mật. Các nhà nghiên cứu của Anthropic tin rằng một khi đạt được sự cân bằng bảo mật mới, AI cuối cùng sẽ mang lại lợi ích cho người bảo vệ nhiều hơn là kẻ tấn công. Tuy nhiên, giai đoạn chuyển đổi sẽ đầy biến động, và trong ngắn hạn, những người triển khai các công cụ này trước tiên sẽ có lợi thế. Trong khi đó, khuôn khổ tường thuật chính thức cũng đáng ngờ. Năm 2019, khi người sáng lập và CEO của Anthropic, Dario Amodei, vẫn còn làm việc tại OpenAI, công ty đã sử dụng một tường thuật tương tự để mô tả GPT-2 là "quá nguy hiểm để phát hành", trước khi ông rời đi để thành lập Anthropic vào năm sau. Đối với một công ty đang hướng tới IPO và trải qua sự tăng trưởng doanh thu nhanh chóng, tuyên bố "quá nguy hiểm để công bố" vừa là một lời khẳng định về an ninh, vừa là một chiến lược tiếp thị cạnh tranh cao, đặc biệt khi OpenAI công bố doanh thu hàng năm đạt 24 tỷ đô la. Hơn nữa, có bằng chứng cho thấy những khả năng này không độc đáo như tuyên bố đã nêu. Một công ty an ninh mạng đã thử nghiệm các lỗ hổng mà họ đã chứng minh bằng cách sử dụng một mô hình trọng số mã nguồn mở nhỏ, chi phí thấp, và tất cả tám mẫu thử nghiệm đều phát hiện ra các lỗ hổng tấn công cốt lõi, bao gồm cả một mô hình với 36 tỷ tham số chỉ có giá 0,11 đô la cho mỗi triệu token. Tổ chức này tin rằng rào cản công nghệ thực sự nằm ở toàn bộ kiến trúc hệ thống (khung hỗ trợ, phân loại lỗ hổng và chuyên môn lĩnh vực), chứ không phải ở chính mô hình riêng lẻ. Xu hướng này rất quan trọng: các khả năng AI đột phá nhất ngày càng bị hạn chế trong các chương trình truy cập khép kín, và Dự án Glasswing có thể trở thành mô hình để mở rộng các mô hình tiên tiến trên toàn cầu. Khi khả năng AI tiếp tục được nâng cấp, câu hỏi về việc ai kiểm soát quyền truy cập vào các mô hình mạnh nhất và trong điều kiện nào sẽ ngày càng trở nên cấp bách. Cơ sở hạ tầng AI phi tập trung đóng vai trò là cơ chế kiểm soát và cân bằng, nhưng quan điểm đối lập cũng hoàn toàn hợp lý: một số khả năng thực sự không nên được mở ra mà không có hạn chế, và ranh giới giữa kiểm soát có trách nhiệm và việc xây dựng các rào cản thương mại rất mờ nhạt. Cân bằng mâu thuẫn này sẽ là một trong những thách thức cốt lõi trong những năm tới. Ngành công nghiệp tiền điện tử, vừa là mục tiêu có giá trị cao cho các cuộc tấn công có sự hỗ trợ của AI, vừa là nhà xây dựng cơ sở hạ tầng thay thế, đang nằm ở cả hai thái cực của cuộc chơi này.