Cả triệu giờ video trên YouTube đã được chuyển thành tri thức của AI

Vào cuối năm 2021, bắt đầu gặp vấn đề về nguồn cung dữ liệu. Phòng thí nghiệm trí tuệ nhân tạo của công ty đã cạn kiệt mọi nguồn văn bản tiếng Anh uy tín trên Internet khi phát triển hệ thống AI mới nhất của mình.

Trong lúc khó khăn, các nhà nghiên cứu của OpenAI đã tạo ra một công cụ nhận dạng giọng nói có tên Whisper. Nó có thể phiên âm tiếng nói từ video trên , từ đó tạo ra văn bản đàm thoại nhằm cung cấp dữ liệu cho hệ thống AI.

Một số nhân viên của OpenAI lo ngại rằng hành động này có thể vi phạm chính sách của YouTube khi nền tảng video trực tuyến cấm sử dụng video cho các ứng dụng độc lập với mục đích thương mại.

Sau cùng, một nhóm của OpenAI vẫn quyết định sao chép hơn một triệu giờ phát video trên YouTube, với sự tham gia của Greg Brockman, Chủ tịch OpenAI. Các văn bản sau khi thu được sẽ đưa vào một hệ thống có tên GPT-4, một trong những mô hình trí tuệ nhân tạo mạnh mẽ nhất hiện nay.

Săn lùng dữ liệu

Cuộc đua dẫn đầu trong lĩnh vực AI đã khiến nhiều ông lớn công nghệ phải gấp rút thu thập dữ liệu nhằm đào tạo mô hình AI của riêng mình. Theo một cuộc điều tra của New York Times, các công ty công nghệ bao gồm OpenAI, và Meta đã cắt giảm nhiều chính sách của nền tảng và tìm cách lách luật để thu về dữ liệu.

Tại Meta, công ty sở hữu Facebook và Instagram, các nhà quản lý đã thảo luận về việc mua lại nhà xuất bản Simon & Schuster để sở hữu các tác phẩm văn học đặc biệt. Họ cũng bàn bạc về việc thu thập dữ liệu có bản quyền từ khắp nơi trên Internet, ngay cả khi hành động này sẽ phải đối mặt với các rủi ro pháp lý.

OpenAI đã phát triển một công cụ đọc video trên YouTube để thu thập dữ liệu cho AI. Ảnh: New York Times.

Trong khi đó, Google cũng có hành động tương tự OpenAI khi sao chép các video YouTube nhằm thu thập văn bản cho các mô hình AI. Điều này ẩn chứa khả năng vi phạm bản quyền đối với video thuộc về nhà sáng tạo nội dung.

Trong năm 2023, Google cũng nới rộng nhiều điều khoản dịch vụ của một số ứng dụng, bao gồm Docs và Maps để gia tăng khả năng thu thập dữ liệu. Tuy nhiên, với tốc độ phát triển chóng mặt của các công ty AI, lượng dữ liệu trên Internet có thể không được “sản xuất” đủ nhanh nhằm phục vụ hệ thống.

“Cách duy nhất để những công cụ AI tồn tại là để chúng truy cập vào lượng dữ liệu khổng lồ mà không cần cấp phép. Hiện tại, lượng dữ liệu cần thiết để đào tạo các mô hình trí tuệ nhân tạo đang vượt ngoài sức tưởng tượng”, Sy Damle, luật sư đại diện của quỹ đầu tư Andreessen Horowitz cho biết.

Nhu cầu dữ liệu khổng lồ

Vào tháng 1/2020, Jared Kaplan, một nhà vật lý học tại Đại học Johns Hopkins đã xuất bản bài nghiên cứu chuyên sâu về AI. Trong đó, ông kết luận rằng dữ liệu đào tạo một mô hình ngôn ngữ lớn sẽ quyết định sức mạnh của chúng.

“Mọi người đều rất ngạc nhiên khi thấy những xu hướng này đều có tính logic chính xác như những gì trong thiên văn học hoặc vật lý”, Jared Kaplan nói.

Tác giả Jared Kaplan đã viết một bài báo quan trọng về AI và dữ liệu. Ảnh: Bloomberg.

Khi OpenAI công bố GPT-3 vào tháng 11/2020, công cụ này được đào tạo dựa trên lượng dữ liệu lớn nhất từ trước đến nay, với khoảng 300 tỷ “mã thông báo”. Sau khi học, hệ thống sẽ tạo ra văn bản với độ chính xác cao cùng khả năng viết các bài đăng trên blog, thơ và một số chương trình máy tính của riêng nó.

Đến năm 2022, DeepMind, một phòng thí nghiệm AI thuộc sở hữu của Google, còn đạt được bước tiến xa hơn khi thử nghiệm 400 mô hình AI. Cụ thể, mô hình Chinchilla AI của Deepmind được đào tạo dựa trên 1,4 nghìn tỷ token dữ liệu. Thậm chí, Google còn tiết lộ một hệ thống AI mới với tên gọi PaLM 2 có thể học tới 3,6 nghìn tỷ token.

Hiện tại, OpenAI là một trong những công ty đang rất cần dữ liệu để phát triển mô hình AI thế hệ tiếp theo. Do đó, một số nhân viên của công ty đã thảo luận về việc sao chép podcast, sách nói và video trên YouTube để lọc dữ liệu. Họ cũng cân nhắc mua lại một số công ty khởi nghiệp đã tích trữ lượng dữ liệu kỹ thuật số lớn.

Tương lai của dữ liệu đào tạo AI

CEO Altman của OpenAI cho biết công ty đã có kế hoạch giải quyết tình trạng thiếu dữ liệu trong tương lai gần. Ông cho biết tại hội nghị tháng 5/2023 rằng các công ty trí tuệ nhân tạo nói chung sẽ sử dụng văn bản do chính AI tạo ra để đào tạo ngược lại hệ thống. Đây được gọi là dữ liệu tổng hợp.

Ông Altman và những người khác lập luận rằng một số mô hình AI có thể tạo ra văn bản giống con người nên các hệ thống có thể tự sinh ra dữ liệu mới. Điều này sẽ giúp các nhà phát triển xây dựng công nghệ ngày càng mạnh mẽ và giảm sự phụ thuộc vào dữ liệu có bản quyền.

Logo OpenAI được đặt cùng màn hình phản hồi của ChatGPT. Ảnh: Reuters.

“Miễn là bạn có thể tận dụng dữ liệu tổng hợp, nơi mô hình đủ thông minh để tạo ra nguồn văn bản tốt, mọi thứ sẽ ổn định”, Sam Altman nói.

Trong khi đó, Jeff Clune, cựu nhà nghiên cứu của OpenAI, hiện giảng dạy khoa học máy tính tại Đại học British Columbia, cho biết các mô hình AI lấy chính kết quả đầu ra của chúng để "tái học hỏi và phát triển" có thể bị mắc vào một vòng lặp. Trong đó, các hệ thống sẽ củng cố những quan điểm kỳ quặc, sai lầm và tự hạn chế sự phát triển của chính mình.

“Dữ liệu mà các hệ thống AI cần giống như một con đường đi xuyên rừng. Nếu chúng chỉ được huấn luyện dựa trên dữ liệu tổng hợp, các mô hình có thể bị lạc đường”, ông Jeff Clune nhận định.

Minh Hoàng

Theo New York Times