OpenAI công bố mô hình AI mới có khả năng tạo video, chuyển động ấn tượng đến khó tin

OpenAI công bố mô hình AI mới có khả năng tạo video, chuyển động ấn tượng đến khó tin

Ảnh: Interfase

Công ty OpenAI đã giới thiệu mô hình mới có tên Sora cho phép người dùng tạo ra các đoạn phim dài tối đa đến 1 phút với nhiều phong cách khác nhau, chỉ bằng các câu lệnh mô tả văn bản đơn giản.

Nội dung tóm tắt

Tạo bởi Bing AI.

OpenAI giới thiệu mô hình Sora: Một mô hình AI mới có khả năng tạo ra các đoạn video chuyển động từ các câu lệnh văn bản đơn giản, với nhiều phong cách và chất lượng ấn tượng.
Các tính năng và thách thức của Sora: Mô hình có thể tạo toàn bộ video cùng một lúc hoặc mở rộng các video có sẵn, duy trì chất lượng hình ảnh và tuân thủ lời nhắc của người dùng. Tuy nhiên, mô hình cũng gặp khó khăn với các chi tiết phức tạp, các trường hợp cụ thể về nguyên nhân và kết quả, và các mô tả chính xác về các sự kiện theo thời gian.
Cơ sở kỹ thuật của Sora: Mô hình xây dựng dựa trên nghiên cứu trước đây về mô hình DALL·E và GPT2. Nó sử dụng kỹ thuật ghi lại từ DALL·E, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan3. Nó cũng sử dụng kiến trúc phân tích dữ liệu Transformer tương tự các mô hình trước đây của công ty.
Tình trạng hiện tại và triển vọng của Sora: Hiện tại, công ty chưa chính thức công bố và thương mại sản phẩm này. Chỉ một nhóm nhỏ các nhà nghiên cứu cũng như chuyên gia được giới thiệu dùng thử công cụ để đưa ra các phản hồi giúp cải tiến sản phẩm tốt hơn trong tương lai. Sora được kỳ vọng sẽ mang lại nhiều ứng dụng và tiềm năng cho lĩnh vực AI tạo sinh.

Sau thành công của mô hình phân tích và phản hồi bằng văn bản ChatGPT và chương trình tạo hình ảnh DALL-E, OpenAI mới đây đã tiến thêm một bước quan trọng với việc ra mắt Sora.

Theo giới thiệu của công ty, "Sora có thể tạo video dài tối đa một phút trong khi vẫn duy trì chất lượng hình ảnh và tuân thủ lời nhắc của người dùng". Các đoạn phim minh họa cho thấy chương trình này thực sự là bước tiến rất lớn trong việc phát triển các AI tạo sinh khi nó có thể tạo ra các đoạn phim ngắn với chất lượng vượt ngoài sức tưởng tượng.

Theo giới thiệu, Sora có khả năng tạo toàn bộ video cùng một lúc hoặc mở rộng các video có sẵn để khiến chúng dài hơn. Bằng cách cung cấp cho mô hình khả năng dự đoán nhiều khung hình cùng một lúc, OpenAI tuyên bố có thẻ giải quyết được một vấn đề đầy thách thức là đảm bảo đối tượng vẫn giữ nguyên ngay cả khi nó tạm thời nằm ngoài tầm nhìn.

Một video được tạo ra bằng Sora. Nguồn: OpenAI

Các cảnh quay phức tạp được nhìn thấy với các góc máy giả lập phong phú như toàn cảnh, trên cao, chính diện cũng như thay đổi tiêu cự sản phẩm... Sora có khả năng giữ nguyên các tạo hình từ phân cảnh này sang phân cảnh khác với các chi tiết trùng khớp đến ấn tượng. Sora cũng có khả năng tạo ra các đoạn phim hoạt hình ngắn với chi tiết về lông phức tạp, bóng đổ, ánh sáng môi trường tương đối ăn khớp.

Được tài trợ

Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như các chi tiết chính xác về chủ đề và bối cảnh. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực.
OpenAI giới thiệu về mô hình Sora mới của công ty.

Các góc quay ấn tượng được nhìn thấy trong video kết quả của Sora. Nguồn: OpenAI

Trong các ví dụ minh họa có thể thấy, dù vẫn giữ được chuyển động đẹp mắt của góc máy tuy nhiên với các cấu trúc và màu sắc có phần phức tạp, tương đồng nhau, Sora bắt đầu cho ra các kết quả thiếu thực tế. Ví dụ trong video mà công ty đăng tải mô hình một con bạch tuộc và cua đang di chuyển dưới đáy biển, các chi tiết ở chân của con cua bắt đầu bị lẫn vào trong cát thậm chí về sau chúng bị biến dạng, mềm mại không chính xác..

Hay trong một ví dụ khác mô tả một phụ nữ đang nằm trên giường và có một chú mèo bên cạnh, các điểm sai xuất hiện nhiều hơn và tạo ra các chi tiết dư thừa có phần khá "đáng sợ".

Được tài trợ

Sora vẫn sẽ gặp vấn đề với các chi tiết phức tạp, tương tự như DALL-E. Nguồn: OpenAI

Tất nhiên, OpenAI cũng đã nhận thấy vấn đề này và đây chắc chắn là thách thức lớn ngay cả với các chương trình tạo hình ảnh khác hiện nay. Các chi tiết sẽ luôn có sai lệch và đòi hỏi kỹ thuật xử lý phức tạp từ máy học. Tuy nhiên, với thời gian tạo sinh ngắn, chắc chắn sẽ không thể không tránh khỏi các điểm yếu này.

Ngoài ra, trong các ví dụ minh họa cũng có thể thấy, các nhân vật (bao gồm cả con người và động vật) chủ yếu thể hiện các chuyển động cơ thể chứ hiếm có cuộc trò chuyện với chuyển động môi hay biểu cảm phức tạp trên gương mặt.

Mô hình hiện tại có điểm yếu. Nó có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp cụ thể về nguyên nhân và kết quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó, chiếc bánh quy có thể không có vết cắn.
Mô hình cũng có thể nhầm lẫn các chi tiết không gian của lời nhắc, chẳng hạn như trộn lẫn trái và phải và có thể gặp khó khăn với các mô tả chính xác về các sự kiện diễn ra theo thời gian, chẳng hạn như đi theo một quỹ đạo camera cụ thể.
OpenAI thừa nhận nhược điểm của Sora hiện tại.

Hiện tại, công ty chưa chính thức công bố và thương mại sản phẩm này. Chỉ một nhóm nhỏ các nhà nghiên cứu cũng như chuyên gia được giới thiệu dùng thử công cụ để đưa ra các phản hồi giúp cải tiến sản phẩm tốt hơn trong tương lai.

Sora xây dựng dựa trên nghiên cứu trước đây về mô hình DALL-E và GPT. Nó sử dụng kỹ thuật ghi lại từ DALL-E 3, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan. Do đó, mô hình có thể làm theo hướng dẫn bằng văn bản của người dùng giúp video được tạo một cách trung thực hơn.

Chương trình này vẫn sử dụng kiến trúc phân tích dữ liệu Transformer tương tự các mô hình trước đây của công ty. Ngoài khả năng tạo ra video hoàn toàn từ câu lệnh, thị giác máy tính có thể phân tích các hình ảnh được cung cấp tĩnh để tạo ra đoạn phim cũng như mở rộng trực tiếp từ một video có sẵn.

OpenAI công bố mô hình AI mới có khả năng tạo video, chuyển động ấn tượng đến khó tin

Bài viết thực hiện bởi Interfase.

Sao chép liên kết

Đọc trên Google News

Khám phá thêm bài viết thuộc thư mục AI • Tech

Bài viết liên quan

AI 22/02

Freepik bổ sung kho 20 triệu ảnh chụp thực tế dù tích cực tăng cường quảng bá AI tạo sinh

Bất chấp việc liên tục cải tiến các công cụ AI của mình, Freepik mới đây lại cho biết đã tiến hành bổ sung một thư viện khổng lồ các hình ảnh do con người chụp ra để mang đến "một góc nhìn hoàn toàn mới mẻ và chân thực".

Brand • AI

Trivago giới thiệu biểu trưng mới và chiến dịch quảng cáo được hỗ trợ bởi AI

24/01

Tech • AI 22/01

Tổng hợp những tính năng AI mới trên dòng Galaxy S24 vừa ra mắt của Samsung

Samsung đã mang những công nghệ trí tuệ nhân tạo tiên tiến hàng đầu từ Google vào bên trong sản phẩm di động cao cấp của hãng, trong đó có những tính năng thú vị như phiên dịch cuộc gọi trong thời gian thực hay tìm kiếm ngay trên màn hình của bất kỳ ứng dụng nào.

Wacom gây tranh cãi khi bị nghi ngờ sử dụng hình ảnh do AI tạo ra để quảng bá sản phẩm

19/01

AI • Tech 16/01

Ứng dụng đọc tin tức do những nhà đồng sáng lập Instagram phát triển, tuyên bố đóng cửa

Ứng dụng cho người dùng yêu thích khám phá tin tức sử dụng AI để tổng hợp dữ liệu Artifact, gần đây được cho biết đang trong quá trình đóng cửa do các nhà sáng lập nhận thấy "cơ hội thị trường" hiện tại với lĩnh vực này là không đủ.

Tech

Adobe không thể hoàn tất thương vụ mua lại Figma và phải bồi thường 1 tỷ USD

20/12

UIUX • AI 12/12

Thông tin rò rỉ về One UI 6.1 mang đến các tính năng AI hấp dẫn cho người dùng Samsung

Phiên bản cải tiến One UI 6.1 được tin rằng sẽ ra mắt cùng với mẫu điện thoại Samsung Galaxy S24 sắp tới trong sự kiện Unpacked thường niên của công ty điện tử đến từ Hàn Quốc.

Tech • AI

Google giới thiệu Duet AI, tích hợp tính năng thông minh cho hàng loạt ứng dụng văn phòng

28/11

[email protected]

Chính sách dữ liệu Chính sách quảng cáo

Phát triển bởi Cinematone.info. Vận hành bởi Interfase.info.

OpenAI công bố mô hình AI mới có khả năng tạo video, chuyển động ấn tượng đến khó tin

Bài viết liên quan

Freepik bổ sung kho 20 triệu ảnh chụp thực tế dù tích cực tăng cường quảng bá AI tạo sinh

Trivago giới thiệu biểu trưng mới và chiến dịch quảng cáo được hỗ trợ bởi AI

Tổng hợp những tính năng AI mới trên dòng Galaxy S24 vừa ra mắt của Samsung

Wacom gây tranh cãi khi bị nghi ngờ sử dụng hình ảnh do AI tạo ra để quảng bá sản phẩm

Ứng dụng đọc tin tức do những nhà đồng sáng lập Instagram phát triển, tuyên bố đóng cửa

Adobe không thể hoàn tất thương vụ mua lại Figma và phải bồi thường 1 tỷ USD

Thông tin rò rỉ về One UI 6.1 mang đến các tính năng AI hấp dẫn cho người dùng Samsung

Google giới thiệu Duet AI, tích hợp tính năng thông minh cho hàng loạt ứng dụng văn phòng

{{title}}