Theo Decrypt, Stability AI đã công bố phát hành Stable Video Diffusion, một công cụ chuyển văn bản thành video được thiết kế để tạo văn bản thành video và hình ảnh thành video có độ phân giải cao. Bài nghiên cứu của công ty nhấn mạnh khả năng thích ứng và công nghệ nguồn mở, cho phép thực hiện nhiều ứng dụng khác nhau trong quảng cáo, giáo dục và giải trí. Khuếch tán video ổn định hiện có sẵn ở dạng xem trước nghiên cứu và tuyên bố sẽ hoạt động tốt hơn các phương pháp dựa trên hình ảnh với một phần ngân sách tính toán của chúng.
AI ổn định đã phát triển hai mô hình trong khuôn khổ Khuếch tán video ổn định: SVD và SVD-XT. Mô hình SVD chuyển đổi hình ảnh tĩnh thành video 576x1024 trong 14 khung hình, trong khi SVD-XT sử dụng kiến trúc tương tự nhưng mở rộng lên 24 khung hình. Cả hai mẫu đều cung cấp khả năng tạo video ở tốc độ khung hình từ 3 đến 30 khung hình mỗi giây, thể hiện tính năng tiên tiến của công nghệ chuyển văn bản thành video nguồn mở. Khuếch tán video ổn định cạnh tranh với các mô hình sáng tạo từ Pika Labs, Runway và Meta trong lĩnh vực tạo video AI đang phát triển nhanh chóng.
Bất chấp những thành tựu về mặt công nghệ, AI ổn định vẫn phải đối mặt với những thách thức, bao gồm cả những cân nhắc về mặt đạo đức xung quanh việc sử dụng dữ liệu có bản quyền trong đào tạo AI. Công ty nhấn mạnh rằng mô hình này không dành cho các ứng dụng thương mại hoặc thế giới thực ở giai đoạn này mà tập trung vào việc tinh chỉnh nó dựa trên phản hồi của cộng đồng và những lo ngại về an toàn.