Nguồn: Geek Park
Theo suy đoán, vào ngày thứ ba của buổi phát sóng trực tiếp kéo dài 12 ngày, video OpenAI Vincent sản phẩm Sora đã chính thức được phát hành.
Vào lúc 2 giờ sáng ngày 10 tháng 12, giờ Bắc Kinh, Sam Altman và một số nhân viên nội bộ của OpenAI đã trình diễn các chức năng và trường hợp sử dụng thực tế của Sora thông qua chương trình phát sóng trực tiếp. Sau khi tung ra các mẫu video vào tháng 2 năm nay, Sora đã gây ra một cơn sốt trong cộng đồng trí tuệ nhân tạo toàn cầu. Kể từ đó, các công ty trí tuệ nhân tạo trong và ngoài nước đã cho ra mắt các sản phẩm video Vincent. Với tư cách là người tiên phong của đường đua này, hôm nay Sora cuối cùng đã tiết lộ bí ẩn của nó.
Nhìn chung, hàng loạt chức năng sản phẩm được Sora hiển thị cho thấy nó vượt trội so với các sản phẩm video Wensheng hiện tại về chất lượng tạo video, tính độc đáo của chức năng và độ phức tạp của công nghệ.
Ngoài các chức năng cơ bản là video tạo văn bản và hình ảnh, nó còn bổ sung thêm bảng phân cảnh (tương đương với việc tạo câu chuyện của riêng bạn thông qua bảng phân cảnh), sử dụng văn bản để điều chỉnh video gốc và chỉnh sửa của các video có các cảnh khác nhau. Với các chức năng như kết hợp (tương đương với việc thêm các hiệu ứng đặc biệt trực tiếp vào video), toàn bộ thiết kế chức năng của sản phẩm dường như đang làm cho video gần hơn với sự thể hiện bản thân của người sáng tạo và giúp họ hoàn thành một câu chuyện quay lý tưởng.
Sau ngày 9 tháng 12, giờ địa phương, người dùng tại Hoa Kỳ và hầu hết các quốc gia khác có thể truy cập trang web chính thức để trải nghiệm Sora. Nó được bao gồm trong đăng ký thành viên ChatGPT Plus, ChatGPT Pro mà không phải trả thêm phí. Trong số đó, Plus có thể tạo tối đa 50 video cao cấp với độ phân giải video lên tới 720p và thời lượng 5 giây, trong khi Pro có thể tạo tới 500 video cao cấp với độ phân giải lên tới 1080p và thời lượng 20 giây, và cũng có thể loại bỏ hình mờ.
Sam Altman giới thiệu Sora vì ba lý do chính:
Đầu tiên, từ góc độ công cụ, OpenAI thích tạo ra các công cụ cho những người sáng tạo, điều này mang lại lợi ích cho văn hóa của công ty Rất quan trọng;
Thứ hai, từ góc độ tương tác của người dùng, hệ thống trí tuệ nhân tạo không thể chỉ tương tác qua văn bản mà còn phải hiểu và tạo ra các video để giúp con người sử dụng trí tuệ nhân tạo. Điều này tương tự như những gì các công ty mô hình lớn trong nước đã nói: "Mỗi khi mô hình mở rộng một phương thức, tỷ lệ thâm nhập của người dùng sẽ tăng lên".
Điều thứ ba là từ góc độ kỹ thuật, điều này rất quan trọng đối với AGI của OpenAI lộ trình Điều quan trọng là trí tuệ nhân tạo nên tìm hiểu thêm về các quy luật của thế giới. Đây được gọi là "mô hình thế giới" hiểu được các định luật vật lý.
Chúng ta không chỉ phải sử dụng công nghệ để thay đổi thế giới mà còn phải sử dụng các sản phẩm để thúc đẩy sự sáng tạo của con người. Đây là điều Sora đang làm.
01 Ngoài việc tạo video, nó còn có thể tạo bảng phân cảnh, thêm đặc biệt hiệu ứng, Sáng tạo không giới hạn
Cơ bản nhất của Sora là chức năng video Wensheng và video Tusheng.
Mở giao diện chính, nơi người dùng có thể xem và quản lý tất cả nội dung do video tạo ra, chuyển đổi giữa chế độ xem dạng lưới và chế độ xem danh sách, tạo thư mục và mục yêu thích, xem dấu trang, v.v. Các nhà nghiên cứu cho biết thiết kế giao diện chính này nhằm giúp người dùng tạo ra những câu chuyện tốt hơn.
Ở giữa cuối trang chính có chức năng video Wensheng và video Tusheng của Sora.
Ví dụ: Sam Altman lần đầu tiên cung cấp kiểu nhập văn bản, "Những con voi ma mút lông xù đi dạo trong sa mạc, được chụp bằng ống kính góc rộng". Tiếp theo, bạn cần chọn tỷ lệ khung hình, độ phân giải, thời lượng của video (5-20 giây) và số lượng video cuối cùng được tạo (có thể tạo tối đa bốn phân đoạn để chọn), v.v. để có được video được tạo.
Cuối cùng, bạn có thể thấy rằng hiệu ứng video được tạo ra rất chân thực và có kết cấu, về cơ bản tuân theo các hướng dẫn đầu vào. Có lẽ mọi người không ngạc nhiên trước khả năng thể hiện xuất sắc các hiệu ứng tạo video của Sora.

Sau khi nhập dòng chữ "Voi ma mút lông xù đi dạo trên sa mạc, được quay bằng ống kính góc rộng", Sora đã tạo ra bốn video | Nguồn ảnh: OpenAI
Nhưng lần này, Sora cũng cho ra mắt hàng loạt tính năng sản phẩm độc đáo và cao cấp. Theo quan điểm của Geek Park, các chức năng này về cơ bản xoay quanh việc thể hiện video chính xác hơn, tức là thông qua việc viết kịch bản phân cảnh, thêm các hiệu ứng đặc biệt, v.v., cho phép mọi người tạo ra một câu chuyện mà họ muốn thông qua video.
Đầu tiên là kịch bản phân cảnh, thứ mà các nhà nghiên cứu gọi là "công cụ sáng tạo mới".
Từ góc độ thiết kế sản phẩm, nó tương đương với việc cắt một câu chuyện (video) thành nhiều thẻ câu chuyện (khung video) khác nhau theo dòng thời gian. Người dùng chỉ cần thiết kế và điều chỉnh từng thẻ câu chuyện (khung hình video) và Sora sẽ tự động hoàn thiện chúng thành một câu chuyện (video) mượt mà -Điều này giống như các bảng phân cảnh và bản thảo hoạt hình trong phim khi đạo diễn vẽ bằng. kịch bản phân cảnh hay, một bộ phim được quay, một họa sĩ hoạt hình viết bản thảo và một hoạt hình được thiết kế.
Ví dụ, bảng phân cảnh đầu tiên được các nhà nghiên cứu nghĩ ra là "Con sếu trắng xinh đẹp đang đứng trong con lạch, với cái đuôi màu vàng". Bảng phân cảnh thứ hai là "Con sếu sẽ He". thò đầu xuống nước và bắt được một con cá”. Những gì anh ấy làm là tạo ra hai thẻ câu chuyện (khung hình video) tương ứng và đặt khoảng thời gian giữa chúng là khoảng năm giây. Khoảng cách này rất quan trọng đối với Sora, giúp nó có chỗ để kết nối hai bộ chiêu thức.
Cuối cùng anh ấy đã quay được một video hoàn chỉnh: "Con sếu trắng xinh đẹp đứng trong lạch. Nó có cái đuôi màu vàng. Sau đó con sếu thò đầu xuống nước và bắt được một con cá." >


Bằng hai thẻ câu chuyện (khung video), Sora tạo ra một câu chuyện hoàn chỉnh (video) | Nguồn hình ảnh: OpenAI
Điều đáng kinh ngạc hơn nữa là trong bảng phân cảnh này, các yếu tố sáng tạo không chỉ là những tấm thiệp mà còn là hình ảnh và video trực tiếp. Nói cách khác, bạn có thể kéo bất kỳ hình ảnh hoặc video nào vào bảng phân cảnh, kết hợp nó với thẻ câu chuyện và tạo ra nó.
Lấy video làm ví dụ. Các nhà nghiên cứu đã cắt đoạn video nói trên của Bai He và đưa nó vào bảng phân cảnh và cắt nó đi, để lại một khoảng trống để tiếp tục sáng tạo ở mặt trước và mặt sau của video. , có nghĩa là nó có thể Có một sự khởi đầu và kết thúc mới.
Điều này mang lại trí tưởng tượng rằng bảng phân cảnh có thể được tạo ra vô tận. Nói cách khác, video dài 20 giây do Sora tạo ra có thể được tạo, cắt và tạo liên tục... cho đến khi hoàn thành được cảnh quay lý tưởng. Quá trình này giống như một biên tập viên hoặc đạo diễn, người từ từ cắt bỏ bộ phim trong tâm trí mình bằng cách liên tục tạo và chỉnh sửa thiết kế bảng phân cảnh và vật liệu ống kính.
Không giống như trong thế giới thực, tài liệu do Sora cung cấp là không giới hạn. Không giống như các sản phẩm video khác của Vincent, video của Sora có thể được sửa đổi và xử lý. Điều này làm cho các video mà nó tạo ra phù hợp hơn với trí tưởng tượng và sự sáng tạo của người dùng.
Đây dường như là ý tưởng cốt lõi của sản phẩm Sora: làm cho video được tạo ra phù hợp với sự sáng tạo mà người dùng mong muốn nhất có thể.
Bằng cách này, bạn có thể hiểu rõ hơn các chức năng khác của Sora, chẳng hạn như sửa đổi trực tiếp video thông qua văn bản, hợp nhất liền mạch hai video khác nhau, thay đổi phong cách của video, v.v. Điều này tương đương với việc thêm trực tiếp văn bản vào video. Các sản phẩm video chung của Wensheng có thể cần phải liên tục điều chỉnh lời nhắc (lời nhắc) và liên tục tạo lại video.

Bằng cách điều chỉnh văn bản, người dùng có thể điều chỉnh trực tiếp video | Nguồn ảnh: OpenAI

Sora có thể Hợp nhất hai video hai phần thành một clip liền mạch Nguồn hình ảnh: OpenAI
Nhìn chung, Sora Ngoài hiệu suất tạo video xuất sắc không ngờ, nó còn mang đến nhiều chức năng sản phẩm tạo video độc đáo hơn, tương đương với việc thêm bảng phân cảnh, chỉnh sửa và các hiệu ứng đặc biệt cho video. Điều này có nghĩa là mọi người đều có cơ hội tạo ra sự thể hiện mà họ thực sự muốn và tiến gần hơn đến việc trở thành đạo diễn.
“Nếu bạn truy cập Sora với kỳ vọng rằng bạn có thể chỉ cần nhấp vào nút và tạo phim, thì tôi nghĩ kỳ vọng của bạn đã sai,” các nhà nghiên cứu của OpenAI cho biết.
Anh ấy nói rằng Sora là một công cụ cho phép mọi người ở nhiều nơi cùng lúc, thử nhiều ý tưởng và thử những điều mà trước đây hoàn toàn không thể thực hiện được. tiện ích mở rộng đặc biệt dành cho người sáng tạo." 》
02 Dịch vụVolkswagen không tính phí riêng mà vẫn dựa vào khả năng của mẫu xe cơ bản
Là người sáng lập video track Vincent, sự ra mắt của Sora là mới nhất . Về vấn đề này, nhóm nghiên cứu OpenAI nhận định, để triển khai rộng rãi Sora, cần phải tìm cách làm cho mô hình này nhanh hơn và rẻ hơn. Để đạt được mục tiêu này, nhóm nghiên cứu đã thực hiện rất nhiều công việc.
Trong buổi phát trực tiếp, OpenAI đã công bố Sora turbo, phiên bản tăng tốc cao cấp mới của mẫu Sora ban đầu. Nó có tất cả các tính năng mà OpenAI đã đề cập trong báo cáo “Công nghệ mô phỏng thế giới” hồi đầu năm nay, cùng với khả năng tạo video từ văn bản, hình ảnh hoạt hình và video kết hợp. Đây là cơ sở kỹ thuật đằng sau tính năng sản phẩm Sora này.
Có vẻ như lý luận bằng video đắt hơn văn bản, nhưng lần này OpenAI không tính phí riêng Sora. Sora có sẵn với tư cách thành viên ChatGPT Plus $20/tháng và tư cách thành viên ChatGPT Pro $200/tháng.
Lợi ích của cái trước bao gồm tối đa 50 video cao cấp với độ phân giải lên tới 720p và thời lượng 5 giây. Lợi ích của cái sau bao gồm tới 500 video cao cấp và video thông thường không giới hạn có độ phân giải. lên tới 1080p và thời lượng mất 20 giây và tải xuống không có hình mờ.

Hạn ngạch sử dụng Sora của các thành viên khác nhau|Nguồn hình ảnh: OpenAI
Tầm quan trọng của Sora đối với OpenAI còn vượt xa điều đó. Nhóm nhận thấy rằng các mô hình video thể hiện nhiều khả năng mới thú vị khi được đào tạo trên quy mô lớn, cho phép Sora mô phỏng các khía cạnh nhất định của con người, động vật và môi trường trong thế giới thực. "Kết quả của chúng tôi cho thấy rằng việc mở rộng các mô hình tạo video là một con đường đầy hứa hẹn để xây dựng một trình mô phỏng toàn cầu về thế giới vật chất."
Có lẽ vì lý do này mà Sora có thể được công chúng sử dụng càng sớm càng tốt và sử dụng dữ liệu để hiểu rõ hơn về thế giới là rất quan trọng đối với giấc mơ AGI cuối cùng của OpenAI.
Trên con đường công nghệ lặp đi lặp lại, nó còn thúc đẩy sự sáng tạo của con người.
“Phiên bản Sora này sẽ mắc lỗi, nó không hoàn hảo, nhưng nó đã đến mức chúng tôi nghĩ rằng nó sẽ rất hữu ích trong việc nâng cao khả năng sáng tạo của con người. Chúng tôi nóng lòng muốn xem thế giới sẽ ra sao. làm gì với nó. Phải làm gì." OpenAI, công ty đã tạo ra nó, cho biết.