Giới khoa học đau đầu khi “cạn dữ liệu” huấn luyện AI
Các chuyên gia dự báo đến năm 2028, lượng dữ liệu cần thiết để huấn luyện các mô hình ngôn ngữ lớn (LLM) sẽ ngang bằng với toàn bộ kho dữ liệu văn bản công khai trên Internet.
Theo nghiên cứu của Viện Epoch AI, quy mô tập dữ liệu huấn luyện AI đang tăng gấp đôi mỗi năm, trong khi lượng nội dung Internet chỉ tăng chưa đến 10% hàng năm. Shayne Longpre, nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), cho rằng tình trạng thiếu hụt dữ liệu đã bắt đầu xuất hiện.
Thêm vào đó, các nhà xuất bản và chủ sở hữu nội dung đang siết chặt quyền kiểm soát việc sử dụng dữ liệu của họ. Nhiều vụ kiện đã được đệ trình, trong đó có vụ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023.
Tuy nhiên, các công ty AI lớn như OpenAI và Anthropic đang tìm nhiều giải pháp thay thế. Họ đang khai thác các nguồn dữ liệu phi truyền thống và thậm chí tự tạo ra dữ liệu mới. OpenAI cho biết họ đang tạo ra 100 tỷ từ mỗi ngày, tương đương với khoảng 36 nghìn tỷ từ một năm.
Một hướng đi khác là phát triển các mô hình AI nhỏ hơn, chuyên biệt cho từng nhiệm vụ cụ thể. Các mô hình này cần ít dữ liệu hơn nhưng đòi hỏi kỹ thuật huấn luyện tinh vi hơn. Theo một nghiên cứu năm 2024, nhờ cải tiến thuật toán, sức mạnh tính toán cần thiết để đạt cùng hiệu suất đã giảm một nửa sau mỗi 8 tháng.
Yann LeCun, Giám đốc khoa học AI tại Meta, đề xuất hướng tiếp cận mới: học từ dữ liệu đa dạng hơn như video và hình ảnh. Ông chỉ ra rằng một đứa trẻ 4 tuổi đã tiếp nhận lượng thông tin gấp 50 lần so với dữ liệu huấn luyện của một mô hình LLM hiện đại, chỉ thông qua việc quan sát thế giới xung quanh.
Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon, lạc quan cho rằng các mô hình AI, sau khi đã đọc phần lớn Internet, có thể không cần thêm dữ liệu để trở nên thông minh hơn. Thay vào đó, khả năng tự học và tự suy ngẫm của AI có thể là chìa khóa cho những tiến bộ trong tương lai.
- Từ khóa :
- trí tuệ nhân tạo
- công nghệ ai
- chatgpt
Tin liên quan
-
Ý kiến và Bình luận
"Cha đẻ của AI" cũng lo ngại về những rủi ro từ trí tuệ nhân tạo
13:45' - 08/12/2024
Ngày 7/12, chủ nhân giải Nobel Vật lý Geoffrey Hinton và Nobel Hóa học Demis Hassabis đã kêu gọi quản lý chặt chẽ trí tuệ nhân tạo (AI), công nghệ đóng vai trò quan trọng trong các giải thưởng của họ.
-
Chứng khoán
Nghiên cứu đưa ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào thị trường chứng khoán
20:20' - 06/12/2024
Ngày 6/12, Bộ Tài chính cho biết cơ quan này đang nghiên cứu đưa ứng dụng trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data) vào giám sát giao dịch thị trường chứng khoán.
-
Công nghệ
Ứng dụng trí tuệ nhân tạo trong giảng dạy và quản lý giáo dục
15:13' - 30/11/2024
Cuộc cách mạng công nghiệp lần thứ tư và trí tuệ nhân tạo (AI) đang tác động sâu rộng đến mọi lĩnh vực, trong đó có giáo dục.
Tin cùng chuyên mục
-
Công nghệ
Chiến lược phát triển năng lượng nguyên tử Việt Nam: Chuyển giao công nghệ, mở rộng ứng dụng vào đời sống
11:28' - 24/03/2026
Một trong những mục tiêu tổng quát của Chiến lược phát triển, ứng dụng năng lượng nguyên tử vì mục đích hòa bình là mở rộng ứng dụng bức xạ và đồng vị phóng xạ trong các ngành kinh tế - kỹ thuật.
-
Công nghệ
Việt Nam – Ấn Độ đẩy mạnh liên kết điện tử và công nghệ thông tin
10:21' - 24/03/2026
Chiều 23/3, tại thủ đô New Delhi, Đại sứ quán Việt Nam tại Ấn Độ phối hợp các đối tác liên quan tổ chức thành công “Diễn đàn Doanh nghiệp Điện tử và Công nghệ Thông tin Việt Nam – Ấn Độ” năm 2026.
-
Công nghệ
Foodpanda - bước đi chiến lược của Grab
06:27' - 24/03/2026
Grab đặt mục tiêu hoàn tất việc chuyển đổi toàn bộ người dùng, người bán và đối tác tài xế sang nền tảng của mình vào đầu năm 2027.
-
Công nghệ
Trung Quốc ban hành hướng dẫn sử dụng OpenClaw một cách an toàn
13:40' - 23/03/2026
Gần đây, trợ lý ảo mã nguồn mở có tên OpenClaw đã nhanh chóng trở nên phổ biến trong cộng đồng công nghệ toàn cầu.
-
Công nghệ
Nhật Bản ra mắt dịch vụ lưu trữ tế bào gốc iPS cá nhân
13:00' - 23/03/2026
Tế bào iPS có khả năng biệt hóa thành hầu hết mọi loại tế bào trong cơ thể người và có thể tăng sinh gần như vô hạn.
-
Công nghệ
Nâng cao năng lực chuyển đổi số cho lãnh đạo, quản lý và công chức
06:00' - 23/03/2026
Nếu không lấy người dân làm trung tâm, các nền tảng, giải pháp số rất dễ trở nên hình thức, kém hiệu quả, thậm chí làm gia tăng khoảng cách số giữa người dân và chính quyền.
-
Công nghệ
Mexico ra mắt “chatbot” hỗ trợ du khách trước thềm World Cup 2026
14:27' - 22/03/2026
Người dùng có thể sử dụng “Xoli” thông qua ứng dụng WhatsApp hoặc trên cổng thông tin du lịch chính thức của thành phố, với tính năng tìm kiếm theo ngày, chủ đề hoặc nhu cầu cụ thể.
-
Công nghệ
Khi AI làm cố vấn tài chính cá nhân
06:09' - 22/03/2026
Những năm gần đây, trí tuệ nhân tạo (AI) không còn là một khái niệm xa lạ mà đã trở thành công cụ hiện diện trong mọi ngóc ngách đời sống.
-
Công nghệ
Tạo khóa chứng thư số giúp giao dịch điện tử an toàn
13:00' - 21/03/2026
“Tạo khóa chứng thư số” là bước thiết lập nền tảng bảo mật cốt lõi cho dịch vụ ký số, giúp mỗi giao dịch điện tử được xác thực an toàn, chính xác và có giá trị pháp lý.

Biểu tượng của OpenAI và ChatGPT. Ảnh: AFP/TTXVN