Cách sử dụng Runway Gen-2 để tạo video AI

Đến bây giờ, có lẽ bạn đã sử dụng Stable Diffusion hoặc Midjourney để tạo một số hình ảnh do AI tạo ra hoặc sử dụng ChatGPT để xem tất cả những gì đang diễn ra. Nhưng hãy dành một chút thời gian trên mạng xã hội và bạn sẽ thấy một xu hướng phổ biến không liên quan đến hình ảnh tĩnh hay phản hồi văn bản.

Điều hấp dẫn hiện nay trong thế giới học máy là những bộ phim ngắn, vì vậy hãy chuyển sang thứ gọi là Runway Gen-2 và xem cách phiên bản mới nhất này có thể được sử dụng để tạo những video kỳ lạ và tuyệt vời, v.v.

Runway là một công ty trẻ, được thành lập chỉ ba năm trước bởi Cristobal Valenzuela, Anastocation Germanidis và Alejandro Matamala khi đang làm việc tại Đại học New York. Nhóm tạo ra các công cụ AI để tạo và thao tác phương tiện/nội dung, trong đó Gen-2 là một trong những chương trình mới nhất và thú vị nhất.

Trong đó Gen-1 yêu cầu video nguồn để ngoại suy một đoạn phim mới từ video đó thì Gen-2 thực hiện điều đó hoàn toàn từ lời nhắc văn bản hoặc một hình ảnh tĩnh.

Để sử dụng nó, hãy truy cập trang web chính hoặc tải xuống ứng dụng (chỉ dành cho iOS) và tạo một tài khoản miễn phí. Với điều này, bạn sẽ có khá nhiều hạn chế về những gì bạn có thể làm. Ví dụ: bạn sẽ bắt đầu với 125 tín dụng và cứ mỗi giây của video Thế hệ 2 bạn tạo, bạn sẽ sử dụng tối đa 5 tín dụng trong số đó. Bạn không thể thêm nhiều tín dụng hơn bằng tài khoản Miễn phí nhưng điều đó là quá đủ để bạn biết liệu bạn có muốn trả tiền cho một đăng ký hay không.

Sau khi có tài khoản, bạn sẽ được đưa đến Trang chủ – bố cục rất dễ hiểu, với các hướng dẫn được chỉ định rõ ràng, nhiều công cụ và hai tính năng giới thiệu chính: chuyển văn bản thành video và chuyển hình ảnh thành -băng hình.

svg+xml,%3Csvg%20xmlns= Cách sử dụng Runway Gen-2 để tạo video AI

Cách đầu tiên thực hiện đối với video những gì Midjourney thực hiện đối với hình ảnh tĩnh – diễn giải một chuỗi từ, được gọi là lời nhắc , thành một video clip dài 4 giây. Và cũng giống như với trình tạo hình ảnh, bạn càng mô tả nhiều thì kết quả cuối cùng sẽ càng tốt.

Đọc thêm:  Hướng dẫn hiệu suất bộ nhớ Ryzen 5000

Bạn thậm chí có thể bao gồm một hình ảnh tham chiếu để giúp mạng lưới thần kinh tập trung vào chính xác những gì bạn đang tìm kiếm và trước khi bạn cam kết tạo một video đầy đủ, bạn sẽ được hiển thị một số hình ảnh tĩnh xem trước – chỉ cần nhấp vào hình ảnh bạn thích và hệ thống sẽ bắt đầu tạo ra nó.

Giống như truyền thống bắt máy tính nói ‘Xin chào thế giới!’ trong quá trình viết mã, chúng tôi bắt đầu với AI cũ được yêu thích là ‘ phi hành gia cưỡi ngựa’ . Đó là một lời nhắc rất ngắn và không có nhiều thông tin, vì vậy chúng ta không nên mong đợi sẽ thấy điều gì ngoạn mục.

Để nhập nội dung này, hãy nhấp vào hình ảnh Chuyển văn bản thành video ở đầu Trang chủ và sau đó trình duyệt của bạn sẽ chuyển tiếp bạn đến trường văn bản. Trường lời nhắc có giới hạn 320 ký tự, vì vậy bạn cần tránh mô tả quá dài dòng.

svg+xml,%3Csvg%20xmlns= Cách sử dụng Runway Gen-2 để tạo video AI

Nút xa nhất ở phía dưới bên trái cung cấp các tùy chọn tạo, tùy thuộc vào loại tài khoản bạn có – khả năng nâng cấp video và xóa hình mờ không khả dụng đối với người dùng Miễn phí. Tuy nhiên, bạn có thể chuyển đổi việc sử dụng phép nội suy, giúp làm mượt quá trình chuyển đổi giữa các khung và bạn có thể thay đổi hạt giống thế hệ.

Giá trị cụ thể này kiểm soát những giá trị bắt đầu mà mạng lưới thần kinh sử dụng để tạo ra hình ảnh. Nếu bạn sử dụng cùng một lời nhắc, hạt giống và các cài đặt khác mỗi khi chạy Gen-2 (hoặc bất kỳ trình tạo hình ảnh AI nào), bạn sẽ luôn nhận được kết quả cuối cùng giống nhau. Điều này có nghĩa là ngay cả khi bạn không nghĩ mình có thể đạt được điều gì tốt hơn bằng cách sử dụng một lời nhắc khác, bạn vẫn có vô số biến thể khác để khám phá, chỉ bằng cách sử dụng một hạt giống khác.

Nút Xem trước miễn phí sẽ buộc Gen-2 tạo khung đầu tiên gồm bốn lần lặp lại lời nhắc. Sử dụng lệnh này đã cho chúng ta những bức ảnh sau:

svg+xml,%3Csvg%20xmlns= Cách sử dụng Runway Gen-2 để tạo video AI

Đúng là không ai trong số họ trông giống một phi hành gia, nhưng hình ảnh phía dưới bên trái khá thú vị và có vẻ như nó có tiềm năng tốt nhất để làm hoạt hình, vì vậy chúng tôi đã chọn hình ảnh đó cho thế hệ video. Với tất cả các tài khoản, yêu cầu sẽ nối vào hàng đợi yêu cầu để máy chủ của Runway xử lý, nhưng đăng ký càng đắt thì thời gian chờ đợi càng ngắn.

Đọc thêm:  Bắt tay với Mobile G-Sync của Nvidia, Origin EON-17X

Mặc dù đối với chúng tôi, thời gian này thường ít hơn vài phút nhưng đôi khi có thể mất tới 15 phút. Tùy thuộc vào nơi bạn sống và thời gian trong ngày bạn gửi yêu cầu, việc này có thể mất nhiều thời gian hơn. Nhưng kết quả cuối cùng như thế nào? Xem xét lời nhắc kém đến mức nào thì video clip được tạo ra không quá tệ.

Bạn có thể thấy rằng hoạt ảnh thực tế không chỉ liên quan đến việc di chuyển vị trí của máy ảnh, đây là một đặc điểm khá phổ biến trong cách RunwayML tạo các video clip – con ngựa và phi hành gia hầu như không di chuyển, nhưng điều đó một phần phụ thuộc vào lời nhắc mà chúng tôi đã sử dụng.

Sau mỗi thế hệ, bạn sẽ có tùy chọn xếp hạng kết quả – đây là một phần của hệ thống phản hồi máy học, giúp cải thiện mạng để sử dụng trong tương lai. Và miễn là bạn có đủ tín dụng, bạn luôn có thể chạy lại quá trình tạo nội dung, điều chỉnh lời nhắc nếu cần để có kết quả tốt hơn.

Tất cả nội dung sẽ được lưu trong thư mục Nội dung của bạn nhưng bạn cũng có thể tải xuống bất kỳ nội dung nào bạn tạo. Định dạng video tiêu chuẩn mà RunwayML sử dụng là MP4 và clip 4 giây, 24 khung hình/giây có kích thước khoảng 1,4 MB, với tốc độ bit là một phần dưới 2,8 Mbps. Bạn có thể kéo dài thời gian tạo clip thêm 4 giây nhưng việc này sẽ sử dụng hết 20 tín dụng, vì vậy người dùng tài khoản miễn phí nên tránh làm điều này càng nhiều càng tốt.

Để làm cho nỗ lực đầu tiên của chúng tôi trông giống một phi hành gia thực tế hơn, chúng tôi đã sử dụng lời nhắc chi tiết hơn – lời nhắc hướng mạng lưới thần kinh tập trung vào các khía cạnh cụ thể mà chúng tôi muốn hiển thị trong video. Nỗ lực đầu tiên của chúng tôi trông không giống một phi hành gia, vì vậy chúng tôi đã thử lời nhắc sau: ‘ Một video rất thực tế về một phi hành gia, mặc bộ đồ du hành vũ trụ đầy đủ với mũ bảo hiểm và bình dưỡng khí, cưỡi ngựa phi nước đại. Mặt đất được bao phủ bởi cỏ tươi tốt và có núi rừng ở phía sau. Mặt trời đã xuống thấp ở đường chân trời .’

Đọc thêm:  Cách tìm mật khẩu Wi-Fi của bạn trong Windows

Như bạn có thể thấy, kết quả là cảm giác chạm tốt hơn nhưng vẫn chưa hoàn hảo – người cưỡi ngựa trông không giống hệt một phi hành gia và chân ngựa dường như đến từ một vũ trụ khác. Vì vậy, chúng tôi đã sử dụng lại lời nhắc tương tự, nhưng lần này bao gồm hình ảnh một phi hành gia đang cưỡi ngựa (hình ảnh chúng tôi thực hiện bằng cách sử dụng Khuếch tán ổn định) để xem điều đó sẽ hữu ích như thế nào.

Có một biểu tượng hình ảnh ở bên cạnh trường lời nhắc và nhấp vào đây sẽ cho phép bạn thêm ảnh; hoặc bạn có thể sử dụng tab Hình ảnh, ngay bên phải tab Văn bản. Lưu ý rằng nếu bạn sử dụng hệ thống Hình ảnh thành Video riêng biệt thì không cần phải có lời nhắc cũng như bản xem trước.

Kết quả lần này là một phi hành gia xuất sắc hơn nhiều nhưng lại đặc biệt tệ hơn, về mọi mặt – thật đáng xấu hổ cho con ngựa!

Tại sao kết quả của chúng tôi lại kém đến vậy?

Trước hết, lần cuối cùng bạn nhìn thấy một phi hành gia, mặc bộ đồ du hành vũ trụ đầy đủ, cưỡi ngựa là khi nào? Việc yêu cầu RunwayML tạo ra thứ gì đó thực tế phần nào phụ thuộc vào việc mạng lưới thần kinh được đào tạo trên đủ tài liệu bao gồm chính xác những gì bạn đang tìm kiếm.

Và sau đó là lời nhắc – hãy nhớ rằng bạn đang cố gắng làm một bộ phim rất ngắn một cách hiệu quả, vì vậy điều quan trọng là phải đưa vào các cụm từ có liên quan đến kỹ thuật quay phim. Vì vậy, việc thêm “theo phong cách anime” sẽ làm thay đổi giao diện một cách đáng kể, trong khi các lệnh như “sử dụng tiêu điểm sắc nét” hoặc “độ sâu trường ảnh mạnh” sẽ tạo ra sự thay đổi tinh tế nhưng hữu ích.

Đọc thêm:  Đã thử nghiệm phản xạ Nvidia: Cuộc cách mạng về độ trễ thấp?

Gen-2 đặt trọng tâm vào lời nhắc hơn bất kỳ hình ảnh nào được cung cấp, nhưng hình ảnh sau hoạt động tốt nhất khi bản thân hình ảnh mang tính chân thực, thay vì là một bức tranh hoặc phim hoạt hình. Chúng tôi đã phân phát hình ảnh của phi hành gia và chỉ dành thời gian chỉnh sửa mô tả để đạt được sự tráng lệ của điện ảnh.

Lời nhắc được sử dụng: một phi hành gia mặc bộ đồ du hành vũ trụ và đội mũ bảo hiểm đầy đủ trên một con ngựa trắng, cưỡi ngựa tránh xa máy ảnh, phi nước đại qua một thành phố hiện đại, phong cách phong phú và đậm chất điện ảnh, mô hình chân thực, chủ thể luôn đúng nét, độ sâu trường ảnh mạnh, lia máy ảnh chậm , ống kính góc rộng, màu sắc sống động

Cần nhớ rằng các bản xem trước là miễn phí và sẽ không tiêu tốn tín dụng của bạn, vì vậy hãy tận dụng tốt tính năng này để xử lý các thay đổi đối với lời nhắc của bạn, tinh chỉnh quy trình tạo. Ngoài ra, đừng quên giá trị hạt giống thế hệ – việc điều chỉnh giá trị này chỉ bằng một chữ số có thể mang lại cho bạn kết quả tốt hơn đáng kể.

Vì bạn chỉ có thể sử dụng một hình ảnh duy nhất có lời nhắc nên bạn có thể cần thử thử nghiệm nhiều kiểu ảnh khác nhau để có được hình ảnh như mong muốn. RunwayML có trình tạo chuyển văn bản thành hình ảnh riêng (một hình ảnh có giá 5 tín chỉ), nhưng nó có vẻ không mạnh mẽ hoặc giàu tính năng như Stable Diffusion hoặc Midjourney.

Ngay bên dưới giao diện chuyển văn bản thành video là một tập hợp các clip mà Runway đưa ra làm ví dụ để truyền cảm hứng – một số chỉ sử dụng lời nhắc, trong khi các clip khác bao gồm một hình ảnh cụ thể. Cần lưu ý rằng mỗi khi bạn chạy một lời nhắc trong hệ thống, kết quả sẽ khác nhau, do đó, bạn khó có thể nhận được kết quả giống nhau khi thử chúng.

Nhắc nhở: Tế bào đang phân chia nhìn qua kính hiển vi, điện ảnh, vi mô, chi tiết cao, phóng đại, phơi sáng tốt, chủ thể rõ nét, chuyển động năng động, mê hoặc

Đọc thêm:  Nhật ký xây dựng giàn khoan Windows 11 của Rob's Alder Lake

Lời nhắc: Cảnh quay bằng máy bay không người lái chụp một bãi biển nhiệt đới theo phong cách video điện ảnh, độ sâu trường ảnh nông, đối tượng đúng nét, chuyển động linh hoạt

Gợi ý: một cảnh quan thành phố mang hơi hướng tương lai với thiết kế có ý thức về môi trường, cây xanh tươi tốt, nhiều cây cối, công nghệ giao thoa với thiên nhiên vào năm 2300 theo phong cách điện ảnh, kỹ xảo điện ảnh, độ sâu trường ảnh nông, chủ đề rõ nét, đẹp, đậm chất điện ảnh

Lời nhắc: Một cơn giông ở miền Trung Tây nước Mỹ theo phong cách điện ảnh, bố cục đẹp, chuyển động sống động, độ sâu trường ảnh nông, chủ đề đúng nét, đậm chất phim, 8k

Đây là ví dụ về trình tạo hình ảnh thành video của Runway. Không có lời nhắc văn bản nào được sử dụng, chỉ có một nguồn hình ảnh duy nhất.

Bây giờ, bạn có thể đã xem các clip Runway Gen-2 trên mạng xã hội hoặc các trang phát trực tuyến khác và có thể nghĩ rằng chúng có chất lượng cao hơn nhiều so với những clip được hiển thị ở trên. Cần lưu ý rằng những sáng tạo như vậy thường bao gồm nhiều tác phẩm, được chỉnh sửa cùng nhau và được cải tiến hơn nữa thông qua phần mềm video.

Mặc dù điều này có vẻ giống như một sự so sánh không công bằng, nhưng ví dụ sau (sử dụng nhiều công cụ AI) cho thấy những gì có thể đạt được nhờ thời gian, quyết tâm và trình độ tài năng không hề nhỏ.

Ấn tượng và có phần đáng lo ngại trong từng biện pháp, phạm vi tạo video AI chỉ mới được hiện thực hóa. Ví dụ: xem xét rằng Runway đã hoạt động được một vài năm, việc dự đoán mọi thứ sẽ diễn ra như thế nào sau một thập kỷ trôi qua, chẳng hạn, sẽ giống như cố gắng đoán xem các trò chơi mới nhất trông như thế nào và chơi như thế nào dựa trên một vài vòng Pac-Man .

Nếu bạn là một nhà làm phim hoạt hình sắc sảo hoặc có nhiều kinh nghiệm chỉnh sửa video thì bạn sẽ hài lòng khi thấy Runway cung cấp một loạt công cụ AI để thao tác và mở rộng nội dung cơ bản mà mạng lưới thần kinh tạo ra. Những thứ này có thể được tìm thấy trên Trang chủ và nhấp vào tùy chọn Xem thêm Công cụ sẽ hiển thị tất cả chúng.

Đọc thêm:  Core i7-7800X so với 7700K, 6 hay 4 nhân để chơi game?

svg+xml,%3Csvg%20xmlns= Cách sử dụng Runway Gen-2 để tạo video AI

Đối với tất cả các công cụ này, bạn không phải sử dụng bất kỳ video nào được tạo bởi Gen-1 hoặc Gen-2 vì mọi thứ đều hoạt động trên bất kỳ tài liệu nào bạn có thể tải lên. Tuy nhiên, học máy được thực hiện bằng các quy trình làm mờ khuôn mặt hoặc thêm độ sâu trường ảnh. Vì vậy, nó có thể không mang lại cho bạn kết quả hoàn toàn hoàn hảo, nhưng toàn bộ quy trình sẽ nhanh hơn nhiều so với thực hiện tất cả bằng tay.

Nếu nghiêm túc muốn khám phá thế giới tạo video AI với Runway Gen-2, thì bạn sẽ cần cân nhắc việc chọn gói đăng ký và đây là lúc mọi thứ trở nên khá đắt đỏ. Thật không may, không có cách nào giải quyết vấn đề này, vì chi phí của máy chủ AI và dịch vụ lưu trữ tệp video không hề rẻ chút nào, vì vậy, bạn càng muốn có nhiều tính năng và tùy chọn thì bạn sẽ càng bị tính phí nhiều hơn.

Khi viết, gói rẻ nhất là 15 đô la mỗi tháng, nhưng bạn nhận được số tiền tín dụng ban đầu kha khá, lưu trữ nội dung lớn hơn và khả năng nâng cấp video và xóa hình mờ. Ở cấp độ chuyên nghiệp, giá tăng cao hơn rất nhiều nhưng phí vẫn rẻ hơn so với việc phải tạo mạng thần kinh AI của riêng bạn và mua phần cứng cần thiết để đào tạo chúng và xử lý thuật toán.

svg+xml,%3Csvg%20xmlns= Cách sử dụng Runway Gen-2 để tạo video AI

Dành ít nhất một giờ để chơi với Runway Gen-2 cho thấy lý do tại sao việc tạo nội dung AI lại trở nên phổ biến đến vậy – chỉ trong vài phút, bất kỳ ai cũng có thể tạo ra hình ảnh hoặc video clip có khả năng chống chọi tốt với tài liệu được tạo bằng tay.

Rõ ràng điều này vẫn chưa bị lãng quên trong ngành truyền thông và ngày càng có nhiều lo ngại về tác động của AI đối với công việc và tính xác thực của nội dung, nhưng hiện tại, có lẽ tốt nhất nên coi nó như một điều mới lạ thú vị và cứ thử xem. . Bạn không bao giờ biết được, có thể bạn sẽ khám phá ra tài năng về thế hệ truyền thông AI và thấy mình bị cuốn hút!