Giới khoa học đau đầu khi “cạn dữ liệu” huấn luyện AI
Các chuyên gia dự báo đến năm 2028, lượng dữ liệu cần thiết để huấn luyện các mô hình ngôn ngữ lớn (LLM) sẽ ngang bằng với toàn bộ kho dữ liệu văn bản công khai trên Internet.
Theo nghiên cứu của Viện Epoch AI, quy mô tập dữ liệu huấn luyện AI đang tăng gấp đôi mỗi năm, trong khi lượng nội dung Internet chỉ tăng chưa đến 10% hàng năm. Shayne Longpre, nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), cho rằng tình trạng thiếu hụt dữ liệu đã bắt đầu xuất hiện.
Thêm vào đó, các nhà xuất bản và chủ sở hữu nội dung đang siết chặt quyền kiểm soát việc sử dụng dữ liệu của họ. Nhiều vụ kiện đã được đệ trình, trong đó có vụ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023.
Tuy nhiên, các công ty AI lớn như OpenAI và Anthropic đang tìm nhiều giải pháp thay thế. Họ đang khai thác các nguồn dữ liệu phi truyền thống và thậm chí tự tạo ra dữ liệu mới. OpenAI cho biết họ đang tạo ra 100 tỷ từ mỗi ngày, tương đương với khoảng 36 nghìn tỷ từ một năm.
Một hướng đi khác là phát triển các mô hình AI nhỏ hơn, chuyên biệt cho từng nhiệm vụ cụ thể. Các mô hình này cần ít dữ liệu hơn nhưng đòi hỏi kỹ thuật huấn luyện tinh vi hơn. Theo một nghiên cứu năm 2024, nhờ cải tiến thuật toán, sức mạnh tính toán cần thiết để đạt cùng hiệu suất đã giảm một nửa sau mỗi 8 tháng.
Yann LeCun, Giám đốc khoa học AI tại Meta, đề xuất hướng tiếp cận mới: học từ dữ liệu đa dạng hơn như video và hình ảnh. Ông chỉ ra rằng một đứa trẻ 4 tuổi đã tiếp nhận lượng thông tin gấp 50 lần so với dữ liệu huấn luyện của một mô hình LLM hiện đại, chỉ thông qua việc quan sát thế giới xung quanh.
Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon, lạc quan cho rằng các mô hình AI, sau khi đã đọc phần lớn Internet, có thể không cần thêm dữ liệu để trở nên thông minh hơn. Thay vào đó, khả năng tự học và tự suy ngẫm của AI có thể là chìa khóa cho những tiến bộ trong tương lai.
- Từ khóa :
- trí tuệ nhân tạo
- công nghệ ai
- chatgpt
Tin liên quan
-
Ý kiến và Bình luận
"Cha đẻ của AI" cũng lo ngại về những rủi ro từ trí tuệ nhân tạo
13:45' - 08/12/2024
Ngày 7/12, chủ nhân giải Nobel Vật lý Geoffrey Hinton và Nobel Hóa học Demis Hassabis đã kêu gọi quản lý chặt chẽ trí tuệ nhân tạo (AI), công nghệ đóng vai trò quan trọng trong các giải thưởng của họ.
-
Chứng khoán
Nghiên cứu đưa ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào thị trường chứng khoán
20:20' - 06/12/2024
Ngày 6/12, Bộ Tài chính cho biết cơ quan này đang nghiên cứu đưa ứng dụng trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data) vào giám sát giao dịch thị trường chứng khoán.
-
Công nghệ
Ứng dụng trí tuệ nhân tạo trong giảng dạy và quản lý giáo dục
15:13' - 30/11/2024
Cuộc cách mạng công nghiệp lần thứ tư và trí tuệ nhân tạo (AI) đang tác động sâu rộng đến mọi lĩnh vực, trong đó có giáo dục.
Tin cùng chuyên mục
-
Công nghệ
Ra mắt công trình số hóa di tích bằng công nghệ thực tế ảo
15:00' - 12/03/2026
Công trình số hóa di tích cho phép tái hiện không gian di tích trực quan, sinh động và chân thực trên nền tảng số, giúp người dân dễ dàng tham quan, tìm hiểu lịch sử, văn hóa của địa phương.
-
Công nghệ
Amazon phủ sóng tính năng giúp khách hàng mua sắm sản phẩm của nhà bán lẻ khác
07:31' - 12/03/2026
Khách hàng sẽ thấy thông tin sản phẩm trên Amazon, nhưng có thể nhấp vào liên kết để truy cập trang web của nhà bán lẻ để tìm hiểu thêm.
-
Công nghệ
Chữa hở van tim ba lá bằng công nghệ TriClip
13:41' - 11/03/2026
Phương pháp TriClip sử dụng một thiết bị nhỏ được đưa vào cơ thể qua tĩnh mạch ở đùi, sau đó dẫn bằng ống đến tim.
-
Công nghệ
EU ra mắt nền tảng AI “TraceMap” quản lý an toàn thực phẩm
06:38' - 11/03/2026
Liên minh châu Âu (EU) vừa giới thiệu một nền tảng AI mới mang tên TraceMap, được kỳ vọng sẽ nâng cao đáng kể năng lực giám sát an toàn thực phẩm và phát hiện các hành vi gian lận trong toàn khối.
-
Công nghệ
Công ty con của Amazon thử nghiệm robotaxi ở Phoenix và Dallas
12:31' - 10/03/2026
Việc mở rộng hoạt động sang Dallas và Phoenix sẽ cho phép Zoox thử nghiệm công nghệ của mình trong điều kiện thời tiết đa dạng và khắc nghiệt.
-
Công nghệ
Sức hút thần tượng ảo AITuber ở Nhật Bản
06:00' - 10/03/2026
Tại Nhật Bản, nhiều doanh nghiệp và cá nhân đang cạnh tranh phát triển “AITuber”, những nhân vật kỹ thuật số được trí tuệ nhân tạo (AI) điều khiển để phát sóng video.
-
Công nghệ
AI - công cụ chống tội phạm mạng tại Mỹ Latinh
13:00' - 09/03/2026
Khu vực Mỹ Latinh đang chứng kiến sự gia tăng mạnh mẽ của các vụ gian lận kỹ thuật số trong bối cảnh thương mại điện tử phát triển nhanh và tội phạm mạng ngày càng tinh vi.
-
Công nghệ
Samsung thúc đẩy thỏa thuận chiến lược với các công ty AI
06:00' - 09/03/2026
Tập đoàn công nghệ Samsung đang nỗ lực thúc đẩy các thỏa thuận chiến lược mới với các công ty trí tuệ nhân tạo nhằm tích hợp đa dạng các mô hình công nghệ vào dòng điện thoại thông minh của hãng.
-
Công nghệ
Oracle và OpenAI hủy dự án mở rộng trung tâm dữ liệu AI
13:00' - 08/03/2026
Tập đoàn Oracle và OpenAI vừa chính thức hủy bỏ kế hoạch mở rộng quy mô một trung tâm dữ liệu trí tuệ nhân tạo (AI) trọng điểm tại thành phố Abilene, bang Texas (Mỹ).

Biểu tượng của OpenAI và ChatGPT. Ảnh: AFP/TTXVN