Tác giả: Josie; Nguồn: NewGeek
Hai ngày trước, truyền thông nước ngoài đã thực hiện một cuộc phỏng vấn độc quyền với nhóm cốt lõi của Sora. Sau khi xem video gốc, nó là xấp xỉ Không có gì được nói ra. Cảnh tượng trông giống như một bài phát biểu của Trưởng phòng Mã của Ủy ban Cải cách và Phát triển Quốc gia.
Theo cách nói của cư dân mạng, giống như có một luật sư chĩa súng vào những người này ở ngoài camera.
Sora đã ra mắt được gần một tháng. Khi mới ra mắt, Sora đã gây sốc và mang đến cho mọi người trí tưởng tượng không giới hạn. Nhiều người thậm chí còn cho rằng AGI sắp ra mắt.
Tuy nhiên, cho đến nay chỉ có một số ít người sử dụng Sora. Sản phẩm dù tốt đến đâu thì mọi người cũng sẽ mất hứng thú theo thời gian.
Ngay khi mọi người đang lật ngược Sora, mọi chuyện đáng nói đã xong, và tưởng chừng như họ đã chết thật, OpenAI đã phái một vài người ra ngoài cho một cuộc phỏng vấn.
Trong cuộc phỏng vấn độc quyền kéo dài 16 phút, các thành viên trong nhóm nòng cốt của Sora đã nói về rất nhiều nội dung, nhưng đó đều là những nội dung đã biết và không có gì mới. Thông tin có vẻ không nhiều như tài liệu kỹ thuật của Sora mạnh>.
Hãy xem người nước ngoài tập Thái Cực Quyền như thế nào.
Ba thành viên cốt lõi của Sora được phỏng vấn trong cuộc phỏng vấn này là Bill Peebles, Tim Brooks và Aditya Ramesh.
Trước hết, câu hỏi mà mọi người quan tâm nhất là khi nào chúng ta có thể sử dụng Sora?
"Đừng lo, người bình thường sẽ không thể sử dụng nó trước mắt ."
Các thành viên Sora cho biết Sora vẫn chưa mở cửa cho công chúng và chưa có lịch trình cụ thể. OpenAI đang trong giai đoạn thu thập phản hồi của người dùng và hy vọng sẽ trò chuyện thêm về cách mọi người sử dụng Sora và những công việc bảo mật cần phải thực hiện.
Vì nó không thể sử dụng được nên hãy cùng khám phá cách triển khai Sora.
Nhóm Sora cho biết: Sora là mô hình tạo video hoạt động bằng cách phân tích một lượng lớn dữ liệu video và học cách tạo video. Phương pháp làm việc cụ thể kết hợp công nghệ của các mô hình khuếch tán (như DALL-E) và các mô hình ngôn ngữ quy mô lớn (như dòng GPT). Về mặt kiến trúc, Sora tương tự như giữa hai loại, phương pháp đào tạo tương tự như DALL-E, nhưng nó giống GPT hơn về cấu trúc.
Việc cấu trúc giống GPT hơn đã được nhiều người phân tích khi Sora mới xuất hiện. Đây cũng là đặc điểm kỹ thuật chính của Sora.
Tiếp theo, điều tò mò không kém là dữ liệu huấn luyện của Sora đến từ đâu?
Trong video chính thức của thế hệ Sora, dù là con tàu cướp biển trong cốc cà phê hay một người phụ nữ đi dạo trên đường phố Tokyo, người ta đều nói rằng Sora có vẻ để hiểu nhiều định luật vật lý của thế giới.
Trước đây đã có nhiều cuộc thảo luận dân gian và rất có thể Sora đã thêm văn bản và video được tạo bằng UE5 làm dữ liệu tổng hợp trong tập dữ liệu.
Đối mặt với câu hỏi như vậy, thành viên Tim Brooks của Sora không trả lời rõ ràng. Anh ấy đã tập Thái Cực Quyền và bày tỏ rằng việc đi sâu vào chi tiết quá là bất tiện. Tuy nhiên, anh ấy tiết lộ rằng nhìn chung anh ấy sử dụng dữ liệu công khai và dữ liệu mà OpenAI là được phép sử dụng và chia sẻ "đổi mới công nghệ".
Trước đây, dù là mô hình tạo hình ảnh hay video, nó thường được huấn luyện với kích thước rất cố định, chẳng hạn như video chỉ có một độ phân giải.
Trong quá trình đào tạo của Sora, họ đã phân đoạn nhiều hình ảnh và video khác nhau, bất kể tỷ lệ khung hình, độ dài, độ phân giải cao hay độ phân giải thấp, thành một phần nhỏ của nó. Các nhà nghiên cứu có thể đào tạo mô hình để nhận ra số lượng bản vá nhỏ khác nhau dựa trên kích thước của video đầu vào, điều này cũng cho phép Sora học hỏi từ nhiều dữ liệu khác nhau một cách linh hoạt hơn và tạo ra nội dung có độ phân giải và kích thước khác nhau.
Công nghệ này cũng được đề cập trong các tài liệu kỹ thuật của Sora, hay còn gọi là bản vá.
Khi lập mô hình mô hình ngôn ngữ lớn, văn bản được chia thành các mã thông báo là đơn vị nhỏ nhất và mã thông báo trong mô hình video lớn là một bản vá.
Công nghệ này không phải do OpenAI tạo ra. Khi OpenAI công bố sử dụng công nghệ này, nó đã gây ra cuộc thảo luận: Tại sao OpenAI có thể tạo ra các sản phẩm AI tốt bằng cách sử dụng công nghệ của người khác.
Người dẫn chương trình hỏi lại: Bạn thấy Sora giỏi về cái gì? Những lĩnh vực nào vẫn còn thiếu? Ví dụ: tôi đã xem một video trong đó một bàn tay thực sự có sáu ngón.
Nhóm Sora lúc đầu khen ngợi rồi sau đó lại chê rằng Sora giỏi làm video chân thực và có thể tạo video dài 1 phút, điều này rất có hiệu quả. Nhưng vẫn còn một số vấn đề, chẳng hạn như quỹ đạo camera của chi tiết bàn tay (ác mộng của mọi AI), những thay đổi về hiện tượng vật lý, v.v.
Ngoài ra, nhóm Sora còn giới thiệu một số tính năng thú vị khác, chẳng hạn như tạo video thông qua tổng hợp video bên cạnh lời nhắc. Điều này cho phép chuyển tiếp liền mạch giữa các video có chủ đề và cảnh hoàn toàn khác nhau.
Trên Tiktok của OpenAI có đoạn video ghi lại cảnh một chiếc máy bay không người lái biến thành một con bướm bay trong rạn san hô do Đấu trường La Mã biến đổi.
Nó hoàn toàn khác với mô hình tạo video gốc về mặt công nghệ và trải nghiệm. Aditya Ramesh thậm chí còn nói rằng những gì họ làm trước tiên là bắt chước thiên nhiên và sau đó vượt qua nó!
Cho đến nay, các video do AI tạo của OpenAI trên Tiktok đều sử dụng lồng tiếng thay vì AI tạo ra âm thanh liền mạch. Nhóm Sora cho biết âm thanh AI không phải là thứ họ đang cân nhắc ở thời điểm hiện tại, ưu tiên hàng đầu vẫn là tạo ra video để đạt được thời gian dài hơn, chất lượng hình ảnh và tần số tốt hơn.
Nhưng tôi không biết liệu việc bổ sung âm thanh cho Sora có sắp diễn ra khi chức năng Pika Sound Effects ra mắt hay không.
Khi được người dẫn chương trình hỏi, hướng phát triển tiếp theo của Sora. Thành viên Sora, Tim Brooks, cho biết Sora vẫn còn hai khía cạnh công việc phải hoàn thành trước khi nó thực sự được phát hành:
Đầu tiên là thu thập phản hồi từ nhiều người dùng hơn và hiểu cách thực hiện. Sora hoạt động mang lại giá trị cho mọi người. Ví dụ: một số người dùng hy vọng có quyền kiểm soát chi tiết và trực tiếp hơn đối với các video được tạo chứ không chỉ các lời nhắc.
Mặt khác, công tác bảo mật của Sora cần được tăng cường và OpenAI sẽ xem xét đầy đủ các tác động khác nhau có thể xảy ra. Hiện tại, trình phân loại truy xuất nguồn gốc áp dụng cho video đang được đào tạo để xác định xem video có được tạo bởi AI hay không và hình mờ được thêm vào mỗi video do Sora tạo ra.
Ngoài ra, nhóm Sora cho biết, các video do AI tạo ra cũng mang lại nhiều cơ hội. Nó có thể giảm đáng kể chi phí từ khâu sáng tạo đến khâu hoàn thiện phim. Việc một người làm phim hoàn toàn có thể.
Điều khiến họ phấn khích hơn nữa là với sự xuất hiện của các công cụ AI mới, ai đó sẽ tạo ra những thứ hoàn toàn mới và tiếp tục vượt qua các ranh giới của sự sáng tạo, điều này sẽ không thể trở thành có thể.
Nhưng thôi đi, đây chỉ là tưởng tượng đẹp đẽ của các nhà khoa học thôi. Rốt cuộc, sẽ phải mất một thời gian dài để người bình thường có thể thực sự sử dụng Sora.
Hơn nữa, các thành viên Sora đã tiết lộ. AI sẽ không chỉ đóng vai trò trong việc tạo video bằng cách học hỏi từ dữ liệu video. Các mô hình như GPT tuy thông minh nhưng lại thiếu một số thông tin nếu chúng không thể “nhìn” thế giới như chúng ta. Những người mẫu như Sora đang giải quyết vấn đề này.
Đây có phải là sự xác nhận rằng AGI sắp ra mắt?
Cuối cùng, người dẫn chương trình đã hỏi một câu thú vị, Sora mất bao lâu để tạo một video?
"Tùy tình hình, nhưng bạn có thể rời đi, đi uống cà phê, quay lại và nó vẫn đang được xử lý, dù sao thì cũng lâu rồi."< /p >
Trên đây là nội dung phỏng vấn của nhóm Sora. Tóm tắt ngắn gọn là:Sora rất mạnh mẽ và có thể nhìn thấy thế giới. Vì điều này, chúng tôi không thể khiến người bình thường sử dụng nó sớm được, vẫn còn rất nhiều công việc an toàn phải làm.
Ừm, không có việc thì cắn bật lửa, không cần phải ép buộc.