Nguồn: Zeping Macro
Vào ngày 16 tháng 2, OpenAI đã phát hành mô hình tạo video Sora, giúp mở rộng đáng kể khả năng của AI trong việc tạo nội dung video. Sora vượt trội đáng kể so với một số mô hình tạo video trước đây về các chỉ số chính. Nếu bạn sử dụng nó để tạo video, bạn sẽ thấy rằng khả năng mô phỏng không gian của thế giới vật lý của nó thậm chí đã đạt đến mức gần với thực tế.
Tại sao có thể gọi Sora là cột mốc mới trong ngành AI? Làm thế nào nó có thể vượt qua AIGC, giới hạn trên của việc tạo nội dung AI? Khách quan mà nói thì phiên bản Sora hiện tại có hạn chế hay thiếu sót gì không?
Định hướng cập nhật và lặp lại trong tương lai của các mô hình tạo video như Sora là gì? Sự xuất hiện của nó sẽ phá vỡ những ngành nào? Nó có tác động gì đến mỗi chúng ta? Những cơ hội ngành công nghiệp mới nào đằng sau nó?
1. Sora được triển khai như thế nào? Tại sao lại là cột mốc mới trong ngành AI?
Lý do khiến Sora trở thành một cột mốc quan trọng về AI là vì nó một lần nữa vượt qua giới hạn trên trong việc tạo nội dung dựa trên AI của AIGC. Trước đây, mọi người đã bắt đầu sử dụng tính năng tạo nội dung dựa trên văn bản như Chatgpt để hỗ trợ minh họa và tạo màn hình cũng như sử dụng con người ảo để tạo các video ngắn. Sora là một mô hình lớn để tạo video. Video có thể được tạo, kết nối, mở rộng và chỉnh sửa bằng cách nhập văn bản hoặc hình ảnh. Nó thuộc danh mục các mô hình lớn đa phương thức. Loại mô hình này là một phần mở rộng hơn nữa của các mô hình ngôn ngữ lớn như như GPT. , mở rộng. Sora xử lý các "bản vá" video theo cách tương tự như cách GPT-4 hoạt động trên mã thông báo văn bản. Cải tiến quan trọng của mô hình này là xử lý các khung hình video dưới dạng chuỗi các bản vá, tương tự như mã thông báo từ trong mô hình ngôn ngữ, cho phép nó quản lý hiệu quả nhiều loại video. Cách tiếp cận này, kết hợp với việc tạo văn bản có điều kiện, cho phép Sora tạo ra các video có liên quan về mặt ngữ cảnh và mạch lạc về mặt hình ảnh dựa trên các tín hiệu văn bản.
Về nguyên tắc, Sora chủ yếu thực hiện đào tạo qua video qua ba bước. Đầu tiên là mạng nén video, giúp giảm kích thước của video hoặc hình ảnh thành một dạng nhỏ gọn và hiệu quả. Thứ hai là trích xuất bản vá không gian-thời gian, phân tách thông tin chế độ xem thành các đơn vị nhỏ hơn. Mỗi đơn vị chứa một phần thông tin không gian và thời gian trong chế độ xem để Sora có thể thực hiện các tác vụ được nhắm mục tiêu trong các bước tiếp theo . đối phó với. Bước cuối cùng là tạo video. Văn bản hoặc hình ảnh là đầu vào để giải mã và mã hóa. Mô hình Transformer (tức là trình chuyển đổi cơ bản ChatGPT) xác định cách chuyển đổi hoặc kết hợp các đơn vị này để tạo thành nội dung hoàn chỉnh trong văn bản và lời nhắc bằng hình ảnh, video.

Hai chỉ số quan trọng nhất của Sora trong mô hình tạo video—— Nó vượt trội hơn rất nhiều so với các mẫu trước đây về thời lượng và độ phân giải, đồng thời có khả năng hiểu sâu và tạo chi tiết văn bản mạnh mẽ. Có thể nói đây là một sản phẩm quan trọng khác trong ngành công nghiệp AI. Trước khi Sora ra mắt, thời gian tạo của các mẫu chính như Pika1.0, Emu Video và Gen-2 lần lượt là 3~7 giây, 4 giây và 4~16 giây; trong khi Sora có thể tạo thời gian miễn là 60 giây, có thể đạt được độ phân giải 1080p và Sorakhông chỉ có thể tạo video dựa trên lời nhắc văn bản mà còn có khả năng chỉnh sửa và mở rộng video. Sora cũng có hiểu biết sâu sắc về văn bản. Với đào tạo phân tích văn bản chuyên sâu, Sora có thể nắm bắt và hiểu chính xác ý nghĩa cảm xúc đằng sau các hướng dẫn văn bản, đồng thời chuyển đổi các lời nhắc văn bản thành nội dung video chi tiết và phù hợp với cảnh một cách mượt mà và tự nhiên.
Sora có thể mô phỏng tốt hơn các quy luật vật lý của thế giới ảo trong quá trình tạo video, hiểu rõ hơn về thế giới vật lý và tạo ra cảm giác chân thực qua ống kính. Các tính năng kỹ thuật của nó chủ yếu bao gồm hai:
Đầu tiên, nó có thể tạo ra các video chuyển động không gian ba chiều mạch lạc từ nhiều ống kính.
Thứ hai là duy trì tính nhất quán của cùng một đối tượng dưới các góc nhìn khác nhau. Bằng cách này, mô hình có thể duy trì sự mạch lạc và bền bỉ trong chuyển động của các nhân vật, đồ vật và cảnh trong video, đồng thời có thể tác động đến các yếu tố trong thế giới thông qua việc tinh chỉnh và thực hiện các tương tác đơn giản. So với các mô hình trước đây như Pika, video do Sora tạo ra cũng có thể hiểu chính xác các yếu tố như phong cách màu sắc của video và tạo ra nội dung video với nét mặt phong phú và cảm xúc sống động. Nó cũng chú ý đến mối quan hệ giữa chủ thể và nền, giúp cho sự tương tác giữa chủ thể video và nền rất mượt mà và ổn định, đồng thời việc chuyển đổi bảng phân cảnh rất hợp lý.
Trong ví dụ về video được tạo bởi quan chức này: "Một người phụ nữ thời trang đi dạo trên đường phố Tokyo, nơi tràn ngập ánh đèn neon tông màu ấm và biển hiệu thành phố hoạt hình. Cô ấy mặc áo khoác da màu đen , váy dài màu đỏ và đôi bốt đen, tay cầm một chiếc túi da màu đen, cô đeo kính râm và tô son đỏ. Cô bước đi một cách tự tin và thản nhiên. Đường phố ẩm ướt và phản chiếu, tạo hiệu ứng gương với ánh đèn nhiều màu sắc. Nhiều người đi bộ "qua lại ",Sora đạt được mô tả hoàn toàn chi tiết, thậm chí đến mô tả chi tiết da và thực tế trong việc xử lý các chi tiết như chuyển động phản chiếu ánh sáng và bóng tối, chuyển động của ống kính, v.v.

2. Sora đang ở cấp độ nào? Những hạn chế là gì?
Sora tương đương với mô hình ngôn ngữ ChatGPT3.5, là bước đột phá lớn trong ngành và ở trình độ rất dẫn đầu nhưng vẫn có nét riêng những hạn chế.
Sora và ChatGPT có cùng nguồn gốc với kiến trúc Transformer, trước đây xây dựng mô hình khuếch tán dựa trên kiến trúc, có khả năng hiển thị chiều sâu, tính lâu dài của đối tượng và động lực tự nhiên một cách xuất sắc. Các mô phỏng thế giới thực trước đây thường được chạy bằng công cụ trò chơi điều khiển bằng GPU để tạo mô hình vật lý 3D, yêu cầu xây dựng thủ công và các quy trình phức tạp với độ chính xác cao để đạt được mô phỏng môi trường tiêu chuẩn cao và nhiều hành động tương tác khác nhau. Tuy nhiên, mô hình Sora không có công cụ vật lý và lập trình đồ họa dựa trên dữ liệu và độ chính xác của nó thấp trong cấu trúc ba chiều có nhu cầu cao hơn. Do đó, việc đạt được sự tương tác tự nhiên của nhiều nhân vật và mô phỏng thực tế với môi trường vẫn còn khó khăn.
Ví dụ: đây là hai ví dụ về lỗi trong video do Sora tạo:
Khi Sora nhập văn bản "Một chiếc ly bị lật đổ chất lỏng.", chiếc ly được hiển thị đang tan chảy vào bàn, với chất lỏng nhảy qua kính, nhưng không có bất kỳ hiệu ứng làm vỡ kính nào.
Một ví dụ khác, một chiếc ghế bất ngờ được đào lên từ bãi biển và AI cho rằng chiếc ghế đó là vật liệu cực nhẹ có thể nổi trực tiếp.

Có hai lý do chính dẫn đến những "lỗi" như vậy: strong>
Đầu tiên, do mô hình tự động hoàn thiện nội dung được tạo nên nó tự phát sinh ra các đối tượng hoặc thực thể không có trong sơ đồ văn bản. Tình trạng này đặc biệt phổ biến, đặc biệt Đang ở trong một khung cảnh đông đúc hoặc lộn xộn. Trong một số trường hợp, điều này sẽ làm tăng tính chân thực của video, chẳng hạn như trong trường hợp "Đi bộ trên đường phố Nhật Bản vào mùa đông" do OpenAI đưa ra, nhưng trong nhiều môi trường hơn, nó sẽ làm giảm tính hợp lý của các quy luật vật lý trong video, chẳng hạn như như Chiếc bàn được tạo ra từ không khí loãng trong ví dụ đầu tiên được làm bằng nước.
Thứ hai là khi có nhiều hành động xảy ra trong mô phỏng của Sora thì rất dễ nhầm lẫn về thứ tự, bao gồm thứ tự thời gian và thứ tự không gian. Ví dụ: khi gõ "người đang chạy trên máy chạy bộ", nó có khả năng tạo ra một người đang đi bộ trên máy chạy bộ sai hướng. Do đó, Sora mô phỏng chính xác các tương tác vật lý, động lực và mối quan hệ nhân quả phức tạp hơn trong thế giới thực, đồng thời việc mô phỏng các đặc tính vật lý và đối tượng đơn giản vẫn còn là một thách thức.
Bất chấp những vấn đề đang diễn ra này, Sora vẫn chứng tỏ tiềm năng trong tương lai của các mô hình video. Khi có đủ dữ liệu và sức mạnh tính toán, những người chuyển đổi video có thể bắt đầu hiểu biết sâu hơn về vật lý trong thế giới thực. ,Mối quan hệ nhân quả. Điều này có thể cho phép các phương pháp đào tạo hệ thống AI mới dựa trên các video mô phỏng thế giới.
3. Sora gặp phải những thách thức và cơ hội gì trong định hướng phát triển của mình?
Sora đại diện cho AI đi đầu trong thế hệ video nhưng những cải tiến về hiệu suất trong tương lai của nó có thể đến từ ba hướng chính:
đầu tiên là bắt đầu từ thứ nguyên dữ liệu. Với sự gia tăng nhu cầu dữ liệu cho đào tạo, chúng ta sẽ phải đối mặt với vấn đề thiếu mẫu dữ liệu có thể đào tạo trong tương lai. Hiện tại, các mô hình lớn chủ yếu dựa vào văn bản ngôn ngữ, mặc dù Sora cũng có thể thực hiện nhập hình ảnh nhưng độ rộng đào tạo không tốt bằng văn bản. Các loại dữ liệu là dữ liệu đơn lẻ và chất lượng cao bị hạn chế, có thể nhanh chóng cạn kiệt trong bối cảnh khối lượng tham số tăng theo cấp số nhân.
Nghiên cứu của Đại học Cornell cho thấy dữ liệu chất lượng cao dành cho đào tạo mô hình lớn có thể sẽ cạn kiệt trước năm 2026 và dữ liệu văn bản chất lượng thấp sẽ cạn kiệt sau năm 2030. Mở rộng kích thước của nguồn dữ liệu là giải pháp của Sora. Ngoài văn bản và hình ảnh, âm thanh, video, năng lượng nhiệt, thế năng và độ sâu đều có thể trở thành lĩnh vực mở rộng cho việc học Sora. Giúp nó trở thành một mô hình lớn đa phương thức thực sự. Ví dụ: ImageBind mã nguồn mở của Meta có nhiều giác quan, nó không chỉ có khả năng nhận dạng hình ảnh và video của DINOv2 mà còn có bức xạ hồng ngoại và các đơn vị đo quán tính, có thể cảm nhận và tìm hiểu các chế độ khác nhau như độ sâu, năng lượng nhiệt và thế năng. năng lượng. Sau khi Sora mở rộng đầu vào, nó cũng có thể kết hợp tốt hơn các kích thước trên với việc tạo video để đào tạo và mô phỏng một thế giới vật lý thực tế hơn.
Thứ hai là tối ưu hóa từ cấp độ thuật toán, giải quyết các hiện tượng "quá khớp" và "không khớp" tồn tại trong mô hình học tập là chìa khóa. Như đã đề cập trong ví dụ trước, Sora sẽ tự động tạo ra các đối tượng hoặc thực thể không có trong sơ đồ văn bản, giúp cải thiện tính xác thực của hiệu ứng video. Tuy nhiên, trong một số trường hợp, hai yếu tố có mối tương quan cao có thể xuất hiện cùng lúc trong các tình huống không thể áp dụng, tức là thuật toán "phù hợp quá mức" để đạt được kết quả cụ thể. Hiện tượng này tương tự như việc con người luyện tập nhiều lần và chuyên sâu để trả lời đúng một loại câu hỏi trong quá trình luyện thi, nhưng thay vào đó lại dẫn đến một số lượng lớn lỗi ở các câu hỏi tương tự trong kỳ thi.
Trong ví dụ tương tự, chiếc cốc bị đổ nhưng tan chảy mà không vỡ. Điều này là do mô hình "không vừa vặn". Nguyên nhân của hai loại vấn đề này trong mô hình là do các mẫu không được phân loại chính xác sẽ được chọn để huấn luyện và cây quyết định được hình thành không phải là mô hình tối ưu, dẫn đến hiệu suất tổng quát hóa của các ứng dụng thực tế bị suy giảm. Không thể loại bỏ hoàn toàn việc trang bị quá mức và thiếu trang bị, nhưng chúng có thể được giảm bớt bằng một số phương pháp trong tương lai, chẳng hạn như: chính quy hóa, làm sạch dữ liệu, giảm kích thước mẫu huấn luyện, bỏ học, thuật toán cắt tỉa, v.v.

Thứ ba là ngành điện toán. Sora tiếp tục kích nổ làn sóng AI, điều này cũng sẽ dẫn đến nhu cầu về sức mạnh tính toán tiếp tục tăng vào năm 2024 dưới sự phát triển của các mô hình đa phương thức. bố cục thiết kế, thậm chí cả EDA và tấm bán dẫn.
Hiện tại, việc đào tạo mô hình AI chủ yếu dựa vào GPU NVIDIA, nhưng chip điện toán phổ thông hiện đang thiếu hụt và nhu cầu được dự đoán sẽ đạt 1,5-2 triệu vào năm 2024.
Người sáng lập OpenAI, Sam Altman, đã chú ý đến vấn đề cung cầu chip của mình kể từ năm 2018. Ông đã đầu tư vào công ty chip AI Rain Neuromorphics và mua chip của Rain vào năm 2019. Vào tháng 11 năm 2023, Sam bắt đầu làm việc cho một công ty có tên mã là "công ty chip Tigris' đang tìm kiếm nguồn tài trợ hàng tỷ đô la. Với tư cách là công ty dẫn đầu ngành, họ đã sớm lên kế hoạch xây dựng chuỗi ngành điện toán do chính họ dẫn đầu, nhằm định hình lại bối cảnh bán dẫn toàn cầu thông qua cuộc cách mạng công nghiệp AI.
Tesla, công ty đã bước vào con đường AI với ô tô thông minh, cũng đang hướng tới thiết kế chip tiên tiến dựa trên những kiến thức cơ bản về thuật toán lái xe tự động và đang dần tìm kiếm để kiểm soát dòng giữa. .
Có thể dự đoán rằng mặc dù chuỗi công nghiệp bán dẫn AI toàn cầu do ARM, Nvidia và TSMC xây dựng là người hưởng lợi lớn nhất trong ngắn hạn, nhưng nó có thể mở ra sự cạnh tranh lớn hơn trong trung và dài hạn. Việc xây dựng độc lập cơ sở hạ tầng năng lượng điện toán, đặc biệt là chip điện toán, vẫn là hướng đi quan trọng để Trung Quốc bắt kịp thế giới trên đường đua AI.
4. Lĩnh vực ứng dụng của Sora sẽ lật đổ những ngành nào?
Từ việc phát hành thiết bị hiển thị gắn trên đầu Vision Pro của Apple vào đầu năm, đến việc các nhà sản xuất PC lớn liên tiếp phát hành AIPC, cho đến việc phát hành Sora của OpenAI lần này, thế giới ngày càng quan tâm hơn đến trí tuệ nhân tạo, sự đổi mới đang tăng tốc và sự lặp lại ngày càng nhanh hơn.
Trong tương lai, nội dung được tạo tự động bằng AI sẽ ảnh hưởng đến nhiều lĩnh vực công nghiệp. Việc "Đưa tin kịp thời" các chủ đề nóng sẽ chủ yếu là nhiệm vụ của AI và đối thủ cạnh tranh chính sẽ là AIGC Hiệu quả của cuộc thi là khả năng kiểm soát AI của mọi người và cuộc thi là về việc ai có thể kiểm soát một công cụ sản xuất AI mạnh mẽ như Sora. Trong tương lai, việc "ra tiểu thuyết, sản xuất bom tấn" sẽ không phải là điều không thể. Sora có thể tạo ra một video có thời lượng lên tới 1 phút. Video có thể quay đến cuối, chuyển đổi giữa nhiều góc độ, và đối tượng không thay đổi. Video Sora cũng có thể sử dụng ngôn ngữ ống kính như phong cảnh, biểu cảm và màu sắc để thể hiện những màu sắc cảm xúc như sự cô đơn, thịnh vượng và dễ thương. Nói tóm lại, nếu có nhiều Sora hơn xuất hiện trong tương lai hoặc nếu các mô hình tạo video lớn này trải qua nhiều cải tiến hơn và có độ trễ hơn so với các góc nêu trên, thì hiệu ứng video AI trong tương lai có thể sẽ tốt gần như quay thủ công.
Việc áp dụng các mô hình đa phương thức sẽ mở ra bình minh của năm 2024, ảnh hưởng đến một số ngành như điện ảnh và truyền hình, phát sóng trực tiếp, truyền thông, quảng cáo, hoạt hình và thiết kế nghệ thuật. Trong thời đại video ngắn hiện nay, “một người” Sora đảm nhiệm mọi công việc như chụp ảnh, đạo diễn và biên tập các video ngắn. Trong tương lai, các video khác nhau do Sora tạo ra cho các mục đích khác nhau sẽ có tác động sâu sắc đến video ngắn, phát sóng trực tiếp, phim và truyền hình, hoạt hình, quảng cáo và các ngành công nghiệp khác hiện tại.
Ví dụ: trong lĩnh vực tạo video ngắn, Sora được kỳ vọng sẽ giảm đáng kể tổng chi phí sản xuất các vở kịch ngắn và giải quyết vấn đề chung là "chú trọng vào sản xuất nhưng không về sáng tạo". Trọng tâm dự kiến sẽ quay trở lại với việc tạo nội dung kịch bản chất lượng cao trong tương lai, điều này sẽ kiểm tra khả năng sáng tạo của những người sáng tạo xuất sắc. Sora được kỳ vọng sẽ thực sự giảm chi phí và tăng hiệu quả cho các công ty trong các ngành liên quan. Các công ty sản xuất quảng cáo sử dụng mô hình Sora để tạo video quảng cáo phù hợp với thương hiệu, giảm đáng kể chi phí quay phim và hậu kỳ; trò chơi và hoạt hình các công ty sử dụng Sora để trực tiếp tạo hoạt ảnh cảnh và nhân vật trong trò chơi, giảm chi phí sản xuất mô hình 3D và hoạt hình. Chi phí mà doanh nghiệp tiết kiệm được có thể được sử dụng để nâng cao chất lượng sản phẩm, dịch vụ hoặc đổi mới công nghệ để nâng cao hơn nữa năng suất. Nếu năm 2023 là sự bùng nổ của các mô hình lớn AI toàn cầu và là năm đầu tiên của thế hệ hình ảnh và văn bản, thì năm 2024 sẽ là năm ngành công nghiệp bước vào năm đầu tiên của thế hệ video AI và các mô hình lớn đa phương thức. Từ Chatgpt đến Sora, tác động và sự thay đổi thực sự của AI đối với mỗi cá nhân và mọi ngành nghề đang dần diễn ra.