Không lâu sau khi Sora được phát hành, Stable AI đã phát hành Stable Diffusion 3. Đối với những người sử dụng trí tuệ nhân tạo để thiết kế sáng tạo, chắc chắn đây là một năm mới. Vì vậy, bài viết này được chuẩn bị đặc biệt cho những người dùng này, nó sẽ mô tả hai tính năng chính của Stable Diffusion 3 bằng những thuật ngữ đơn giản hơn: "mô hình máy biến áp khuếch tán" và "khớp dòng chảy", để giúp bạn sử dụng nó tốt hơn cho việc sáng tạo sau khi mô hình được phát hành .
Mô hình máy biến áp khuếch tán (máy biến áp khuếch tán), chúng ta sẽ gọi nó là DiTs bên dưới. Như bạn có thể thấy từ cái tên, đây là mô hình khuếch tán biến tiềm ẩn hình ảnh dựa trên kiến trúc máy biến áp. Nếu bạn đã đọc bài viết “Khám phá Sora: Sử dụng mô hình ngôn ngữ lớn để hiểu video và nhận ra sự “xuất hiện” của thế giới vật lý của Silicon Star Pro, thì bạn đã được coi là “đại diện đẳng cấp” cho nội dung sau. Giống như Sora, DiTs cũng sử dụng khái niệm "miếng vá", nhưng vì DiTs được sử dụng để tạo ra các bức ảnh nên nó không cần duy trì sự liên kết logic giữa các khung hình khác nhau như Sora nên không phải tạo ra thời gian và Không-thời gian. khối không gian.
Đối với DiTs, nó tương tự như Vision Transformer (ViT) từng gây bão máu trong lĩnh vực thị giác máy tính cách đây 4, 5 năm. Hình ảnh sẽ được DiTs chia thành nhiều mảng và nhúng vào In không gian vectơ liên tục, đầu vào chuỗi được hình thành để máy biến áp xử lý. Tuy nhiên, cần lưu ý ở đây rằng vì DiTs có một công việc kinh doanh nên đối với các tác vụ tạo hình ảnh có điều kiện, DiTs cần nhận và hợp nhất thông tin điều kiện bên ngoài, chẳng hạn như nhãn danh mục hoặc mô tả văn bản. Điều này thường đạt được bằng cách cung cấp thêm các dấu hiệu đầu vào hoặc cơ chế chú ý chéo, cho phép mô hình hướng dẫn quá trình tạo dựa trên thông tin có điều kiện nhất định.
Vì vậy, khi khối DiT bên trong DiTs, nó có thể được xử lý thành nội dung được yêu cầu bởi khối DiT bên trong DiTs. Khối DiT là phần cốt lõi của DiTs, là cấu trúc biến áp đặc biệt được thiết kế cho mô hình khuếch tán và có thể xử lý thông tin hình ảnh và điều kiện. Nói chung, bản thân khối được dịch là khối, nhưng để phân biệt với các bản vá, tôi sử dụng khối trực tiếp ở đây.
Khối DiT được chia thành ba khối nhỏ: chú ý chéo, adaLN, adaLN-Zero. Chú ý chéo đề cập đến việc thêm một lớp chú ý chéo nhiều đầu bổ sung sau lớp tự chú ý nhiều đầu. Chức năng của nó là sử dụng thông tin điều kiện để hướng dẫn việc tạo hình ảnh để các hình ảnh được tạo ra phù hợp hơn với các từ gợi ý, nhưng với chi phí tăng lên Khoảng 15% nỗ lực tính toán.
LN trong adaLN đề cập đến việc chuẩn hóa đầu ra của các đơn vị bên trong của mỗi lớp mạng nơ-ron nhằm giảm bớt vấn đề dịch chuyển đồng biến bên trong (covariate shift), từ đó cải thiện tốc độ hội tụ và hiệu suất trong quá trình đào tạo mô hình. adaLN là phần mở rộng của chuẩn hóa lớp tiêu chuẩn, cho phép điều chỉnh linh hoạt các tham số chuẩn hóa lớp dựa trên dữ liệu đầu vào hoặc thông tin điều kiện bổ sung. Nó giống như hệ thống treo của ô tô, dùng để tăng độ ổn định và khả năng thích ứng của mô hình.
Tiếp theo, AI ổn định thực hiện cải tiến dựa trên khối DiT adaLN. Ngoài việc hồi quy γ và β, nó còn hồi quy tham số tỷ lệ cấp thứ nguyên α và bất kỳ phần dư nào trong khối DiT. Các tham số này được áp dụng ngay trước khi kết nối. Khối này là adaLN-0. Mục đích của việc này là bắt chước chiến lược khởi tạo có lợi trong mạng dư để thúc đẩy việc đào tạo và tối ưu hóa mô hình hiệu quả.
Sau khi đi qua khối DiT, chuỗi mã thông báo sẽ được giải mã thành dự đoán nhiễu đầu ra và dự đoán hiệp phương sai đường chéo đầu ra. Với bộ giải mã tuyến tính tiêu chuẩn, hai dự đoán có cùng kích thước với kích thước không gian của hình ảnh đầu vào. Cuối cùng, các mã thông báo được giải mã này được sắp xếp lại theo bố cục không gian ban đầu của chúng để thu được các giá trị nhiễu và giá trị hiệp phương sai dự đoán.
Chương 2, Khớp luồng (sau đây gọi là FM). Theo Stable AI, đây là một phương pháp đào tạo mô hình CNF hiệu quả, không cần mô phỏng, cho phép sử dụng các đường dẫn xác suất phổ quát để giám sát quá trình đào tạo CNF. Điều đặc biệt quan trọng là FM phá vỡ rào cản đào tạo có thể mở rộng của CNF ngoài mô hình khuếch tán và có thể trực tiếp vận hành con đường xác suất mà không cần hiểu sâu về quá trình khuếch tán, do đó vượt qua những khó khăn trong đào tạo truyền thống.
Cái gọi là CNF là Luồng chuẩn hóa liên tục, luồng chuẩn hóa liên tục. Đây là một mô hình xác suất và công nghệ mô hình tổng quát trong học sâu. Trong CNF, phân bố xác suất đơn giản được chuyển đổi thành phân bố xác suất của dữ liệu phức tạp, nhiều chiều thông qua một loạt các phép biến đổi liên tục và thuận nghịch. Các phép biến đổi này thường được tham số hóa bởi mạng thần kinh để các biến ngẫu nhiên ban đầu được biến đổi liên tục để mô phỏng phân phối dữ liệu mục tiêu. Được dịch sang tiếng địa phương, CNF tạo ra dữ liệu giống như việc tung xúc xắc.
Tuy nhiên, CNF yêu cầu nhiều tài nguyên tính toán và thời gian trong hoạt động thực tế, vì vậy AI ổn định tự hỏi liệu nó có thể tạo ra kết quả gần giống như CNF hay không, nhưng quy trình phải ổn định và số lượng tính toán phải thấp.phương pháp? Thế là FM ra đời, bản chất của FM là công nghệ huấn luyện các mô hình CNF để thích ứng và mô phỏng quá trình tiến hóa của một phân bố dữ liệu nhất định, ngay cả khi chúng ta không biết biểu thức toán học cụ thể của phân bố này hoặc trường vectơ sinh tương ứng trong đó. nâng cao. Bằng cách tối ưu hóa hàm mục tiêu FM, mô hình cũng có thể dần dần tìm hiểu trường vectơ có thể tạo ra phân bố xác suất gần đúng với phân bố dữ liệu thực.
So với CNF, FM nên được coi là một phương pháp tối ưu hóa. Mục tiêu của nó là huấn luyện trường vectơ do mô hình CNF tạo ra và đường dẫn xác suất mục tiêu lý tưởng. Trường vectơ càng gần càng tốt.
Sau khi đọc hai tính năng kỹ thuật cốt lõi của Stable Diffusion 3, bạn sẽ thấy rằng nó thực sự rất gần với Sora. Cả hai mô hình đều là mô hình máy biến áp (khuếch tán ổn định trước đây đã sử dụng U-Net), cả hai đều sử dụng khối, cả hai đều có độ ổn định và tối ưu hóa mang tính thời đại và ngày sinh của chúng rất gần nhau. Tôi không nghĩ rằng sẽ quá đáng khi nói rằng chúng là như vậy có quan hệ huyết thống.
Tuy nhiên, có một điểm khác biệt cơ bản giữa "hai anh em", đó là Sora là nguồn đóng và Stable Diffusion 3 là nguồn mở. Trên thực tế, dù là Midjourney hay DALL·E thì chúng đều là nguồn đóng, chỉ có Stable Diffusion là nguồn mở. Nếu để ý đến trí tuệ nhân tạo nguồn mở thì chắc hẳn bạn đã phát hiện ra rằng cộng đồng nguồn mở đã gặp khó khăn từ lâu, không có sự đột phá rõ ràng và nhiều người đã mất niềm tin vào nó. Stable Diffusion 2 và Stable Diffusion XL chỉ cải thiện tính thẩm mỹ của hình ảnh được tạo ra, trong khi Stable Diffusion 1.5 đã làm được điều này. Chứng kiến những cải tiến mang tính cách mạng của Stable Diffusion 3 có thể khơi dậy niềm tin của nhiều nhà phát triển trong cộng đồng nguồn mở.
Để nói về một điều thú vị khác, Giám đốc điều hành của Stable AI, Mohammad Amad Mostaq (মোহম্মদ ইমাদ মোশতাক) cho biết trên Twitter rằng mặc dù Stable AI có nhiều tài nguyên trong lĩnh vực trí tuệ nhân tạo hơn những công ty khác nhưng một số công ty đã cắt giảm nó đi rất nhiều là 100 lần, nhưng kiến trúc Stable Diffusion 3 đã có thể chấp nhận nội dung khác ngoài video và hình ảnh, nhưng chưa thể thông báo quá nhiều.
Bạn nói tôi vẫn có thể hiểu được hình ảnh và video, nhưng nội dung "khác" nghĩa là gì? Trên thực tế, điều duy nhất tôi có thể nghĩ đến là âm thanh, thứ tạo ra hình ảnh thông qua một đoạn âm thanh. Thật khó hiểu, nhưng một khi Stable AI công bố kết quả nghiên cứu mới nhất, chúng tôi chắc chắn sẽ giải thích chúng sớm nhất có thể.
Preview
Có được sự hiểu biết rộng hơn về ngành công nghiệp tiền điện tử thông qua các báo cáo thông tin và tham gia vào các cuộc thảo luận chuyên sâu với các tác giả và độc giả cùng chí hướng khác. Chúng tôi hoan nghênh bạn tham gia vào cộng đồng Coinlive đang phát triển của chúng tôi:https://t.me/CoinliveSG