- OpenAI giới thiệu mô hình Sora: Một mô hình AI mới có khả năng tạo ra các đoạn video chuyển động từ các câu lệnh văn bản đơn giản, với nhiều phong cách và chất lượng ấn tượng.
- Các tính năng và thách thức của Sora: Mô hình có thể tạo toàn bộ video cùng một lúc hoặc mở rộng các video có sẵn, duy trì chất lượng hình ảnh và tuân thủ lời nhắc của người dùng. Tuy nhiên, mô hình cũng gặp khó khăn với các chi tiết phức tạp, các trường hợp cụ thể về nguyên nhân và kết quả, và các mô tả chính xác về các sự kiện theo thời gian.
- Cơ sở kỹ thuật của Sora: Mô hình xây dựng dựa trên nghiên cứu trước đây về mô hình DALL·E và GPT2. Nó sử dụng kỹ thuật ghi lại từ DALL·E, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan3. Nó cũng sử dụng kiến trúc phân tích dữ liệu Transformer tương tự các mô hình trước đây của công ty.
- Tình trạng hiện tại và triển vọng của Sora: Hiện tại, công ty chưa chính thức công bố và thương mại sản phẩm này. Chỉ một nhóm nhỏ các nhà nghiên cứu cũng như chuyên gia được giới thiệu dùng thử công cụ để đưa ra các phản hồi giúp cải tiến sản phẩm tốt hơn trong tương lai. Sora được kỳ vọng sẽ mang lại nhiều ứng dụng và tiềm năng cho lĩnh vực AI tạo sinh.
Sau thành công của mô hình phân tích và phản hồi bằng văn bản ChatGPT và chương trình tạo hình ảnh DALL-E, OpenAI mới đây đã tiến thêm một bước quan trọng với việc ra mắt Sora.
Theo giới thiệu của công ty, "Sora có thể tạo video dài tối đa một phút trong khi vẫn duy trì chất lượng hình ảnh và tuân thủ lời nhắc của người dùng". Các đoạn phim minh họa cho thấy chương trình này thực sự là bước tiến rất lớn trong việc phát triển các AI tạo sinh khi nó có thể tạo ra các đoạn phim ngắn với chất lượng vượt ngoài sức tưởng tượng.
Theo giới thiệu, Sora có khả năng tạo toàn bộ video cùng một lúc hoặc mở rộng các video có sẵn để khiến chúng dài hơn. Bằng cách cung cấp cho mô hình khả năng dự đoán nhiều khung hình cùng một lúc, OpenAI tuyên bố có thẻ giải quyết được một vấn đề đầy thách thức là đảm bảo đối tượng vẫn giữ nguyên ngay cả khi nó tạm thời nằm ngoài tầm nhìn.
Các cảnh quay phức tạp được nhìn thấy với các góc máy giả lập phong phú như toàn cảnh, trên cao, chính diện cũng như thay đổi tiêu cự sản phẩm... Sora có khả năng giữ nguyên các tạo hình từ phân cảnh này sang phân cảnh khác với các chi tiết trùng khớp đến ấn tượng. Sora cũng có khả năng tạo ra các đoạn phim hoạt hình ngắn với chi tiết về lông phức tạp, bóng đổ, ánh sáng môi trường tương đối ăn khớp.
Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như các chi tiết chính xác về chủ đề và bối cảnh. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực.
OpenAI giới thiệu về mô hình Sora mới của công ty.
Trong các ví dụ minh họa có thể thấy, dù vẫn giữ được chuyển động đẹp mắt của góc máy tuy nhiên với các cấu trúc và màu sắc có phần phức tạp, tương đồng nhau, Sora bắt đầu cho ra các kết quả thiếu thực tế. Ví dụ trong video mà công ty đăng tải mô hình một con bạch tuộc và cua đang di chuyển dưới đáy biển, các chi tiết ở chân của con cua bắt đầu bị lẫn vào trong cát thậm chí về sau chúng bị biến dạng, mềm mại không chính xác..
Hay trong một ví dụ khác mô tả một phụ nữ đang nằm trên giường và có một chú mèo bên cạnh, các điểm sai xuất hiện nhiều hơn và tạo ra các chi tiết dư thừa có phần khá "đáng sợ".
Tất nhiên, OpenAI cũng đã nhận thấy vấn đề này và đây chắc chắn là thách thức lớn ngay cả với các chương trình tạo hình ảnh khác hiện nay. Các chi tiết sẽ luôn có sai lệch và đòi hỏi kỹ thuật xử lý phức tạp từ máy học. Tuy nhiên, với thời gian tạo sinh ngắn, chắc chắn sẽ không thể không tránh khỏi các điểm yếu này.
Ngoài ra, trong các ví dụ minh họa cũng có thể thấy, các nhân vật (bao gồm cả con người và động vật) chủ yếu thể hiện các chuyển động cơ thể chứ hiếm có cuộc trò chuyện với chuyển động môi hay biểu cảm phức tạp trên gương mặt.
Mô hình hiện tại có điểm yếu. Nó có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp cụ thể về nguyên nhân và kết quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó, chiếc bánh quy có thể không có vết cắn.
Mô hình cũng có thể nhầm lẫn các chi tiết không gian của lời nhắc, chẳng hạn như trộn lẫn trái và phải và có thể gặp khó khăn với các mô tả chính xác về các sự kiện diễn ra theo thời gian, chẳng hạn như đi theo một quỹ đạo camera cụ thể.
OpenAI thừa nhận nhược điểm của Sora hiện tại.
Hiện tại, công ty chưa chính thức công bố và thương mại sản phẩm này. Chỉ một nhóm nhỏ các nhà nghiên cứu cũng như chuyên gia được giới thiệu dùng thử công cụ để đưa ra các phản hồi giúp cải tiến sản phẩm tốt hơn trong tương lai.
Sora xây dựng dựa trên nghiên cứu trước đây về mô hình DALL-E và GPT. Nó sử dụng kỹ thuật ghi lại từ DALL-E 3, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan. Do đó, mô hình có thể làm theo hướng dẫn bằng văn bản của người dùng giúp video được tạo một cách trung thực hơn.
Chương trình này vẫn sử dụng kiến trúc phân tích dữ liệu Transformer tương tự các mô hình trước đây của công ty. Ngoài khả năng tạo ra video hoàn toàn từ câu lệnh, thị giác máy tính có thể phân tích các hình ảnh được cung cấp tĩnh để tạo ra đoạn phim cũng như mở rộng trực tiếp từ một video có sẵn.
Bài viết liên quan
Phát triển bởi Cinematone.info. Vận hành bởi Interfase.info.