Giới khoa học đau đầu khi “cạn dữ liệu” huấn luyện AI
Các chuyên gia dự báo đến năm 2028, lượng dữ liệu cần thiết để huấn luyện các mô hình ngôn ngữ lớn (LLM) sẽ ngang bằng với toàn bộ kho dữ liệu văn bản công khai trên Internet.
Theo nghiên cứu của Viện Epoch AI, quy mô tập dữ liệu huấn luyện AI đang tăng gấp đôi mỗi năm, trong khi lượng nội dung Internet chỉ tăng chưa đến 10% hàng năm. Shayne Longpre, nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), cho rằng tình trạng thiếu hụt dữ liệu đã bắt đầu xuất hiện.
Thêm vào đó, các nhà xuất bản và chủ sở hữu nội dung đang siết chặt quyền kiểm soát việc sử dụng dữ liệu của họ. Nhiều vụ kiện đã được đệ trình, trong đó có vụ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023.
Tuy nhiên, các công ty AI lớn như OpenAI và Anthropic đang tìm nhiều giải pháp thay thế. Họ đang khai thác các nguồn dữ liệu phi truyền thống và thậm chí tự tạo ra dữ liệu mới. OpenAI cho biết họ đang tạo ra 100 tỷ từ mỗi ngày, tương đương với khoảng 36 nghìn tỷ từ một năm.
Một hướng đi khác là phát triển các mô hình AI nhỏ hơn, chuyên biệt cho từng nhiệm vụ cụ thể. Các mô hình này cần ít dữ liệu hơn nhưng đòi hỏi kỹ thuật huấn luyện tinh vi hơn. Theo một nghiên cứu năm 2024, nhờ cải tiến thuật toán, sức mạnh tính toán cần thiết để đạt cùng hiệu suất đã giảm một nửa sau mỗi 8 tháng.
Yann LeCun, Giám đốc khoa học AI tại Meta, đề xuất hướng tiếp cận mới: học từ dữ liệu đa dạng hơn như video và hình ảnh. Ông chỉ ra rằng một đứa trẻ 4 tuổi đã tiếp nhận lượng thông tin gấp 50 lần so với dữ liệu huấn luyện của một mô hình LLM hiện đại, chỉ thông qua việc quan sát thế giới xung quanh.
Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon, lạc quan cho rằng các mô hình AI, sau khi đã đọc phần lớn Internet, có thể không cần thêm dữ liệu để trở nên thông minh hơn. Thay vào đó, khả năng tự học và tự suy ngẫm của AI có thể là chìa khóa cho những tiến bộ trong tương lai.
- Từ khóa :
- trí tuệ nhân tạo
- công nghệ ai
- chatgpt
Tin liên quan
-
Ý kiến và Bình luận
"Cha đẻ của AI" cũng lo ngại về những rủi ro từ trí tuệ nhân tạo
13:45' - 08/12/2024
Ngày 7/12, chủ nhân giải Nobel Vật lý Geoffrey Hinton và Nobel Hóa học Demis Hassabis đã kêu gọi quản lý chặt chẽ trí tuệ nhân tạo (AI), công nghệ đóng vai trò quan trọng trong các giải thưởng của họ.
-
Chứng khoán
Nghiên cứu đưa ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào thị trường chứng khoán
20:20' - 06/12/2024
Ngày 6/12, Bộ Tài chính cho biết cơ quan này đang nghiên cứu đưa ứng dụng trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data) vào giám sát giao dịch thị trường chứng khoán.
-
Công nghệ
Ứng dụng trí tuệ nhân tạo trong giảng dạy và quản lý giáo dục
15:13' - 30/11/2024
Cuộc cách mạng công nghiệp lần thứ tư và trí tuệ nhân tạo (AI) đang tác động sâu rộng đến mọi lĩnh vực, trong đó có giáo dục.
Tin cùng chuyên mục
-
Công nghệ
Hỗ trợ doanh nghiệp thích ứng nhanh hơn với xu hướng chuyển đổi số
15:30' - 23/08/2025
Khu vực kinh tế tư nhân hiện đóng góp khoảng 42–45% GDP Việt Nam, trong đó hộ kinh doanh nhỏ và siêu nhỏ chiếm tỷ trọng lớn về số lượng, đóng vai trò thiết yếu trong chuỗi cung ứng và tiêu dùng.
-
Công nghệ
Google: Chỉnh sửa video trên Drive dễ dàng hơn với nút tắt Vids mới
07:30' - 23/08/2025
Tính năng mới này cho phép người dùng Workspace bắt đầu chỉnh sửa video bằng Vids trực tiếp từ giao diện Google Drive.
-
Công nghệ
Mỹ: Chính quyền New York cấp phép thử nghiệm xe tự hành cho Waymo
23:23' - 22/08/2025
Waymo sẽ bắt đầu thử nghiệm tám xe tại Manhattan và Trung tâm Brooklyn cho đến cuối tháng 9/2025, với khả năng mở rộng chương trình này.
-
Công nghệ
Google sẽ cấp miễn phí công cụ liên quan đến trợ lý ảo Gemini cho Chính phủ Mỹ
13:51' - 22/08/2025
Ngày 21/8, Chính phủ Mỹ thông báo công ty Google sẽ cung cấp gần như miễn phí các công cụ trí tuệ nhân tạo (AI) liên quan đến trợ lý ảo Gemini cho các cơ quan liên bang của nước này.
-
Công nghệ
Sâu bột chống ô nhiễm nhựa
20:05' - 21/08/2025
Nhà nghiên cứu Larisa Ilijin tại Viện Sinh học Belgrade cho biết sâu bột có khả năng tiêu hóa nhiều loại nhựa khác nhau, nhờ vi khuẩn đường ruột phân giải thành CO2 và nước mà không để lại vi nhựa.
-
Công nghệ
Sẽ có 9.000 nhân lực bán dẫn, vi điện tử tại Thành phố Hồ Chí Minh
19:08' - 21/08/2025
Thành phố Hồ Chí Minh đang triển khai chiến lược phát triển công nghiệp bán dẫn của quốc gia; trong đó, đến năm 2030 sẽ đào tạo ít nhất 9.000 nhân lực trình độ đại học trở lên.
-
Công nghệ
OpenAI hé lộ khả năng bán dịch vụ hạ tầng AI trong tương lai
14:00' - 21/08/2025
OpenAI đang cân nhắc khả năng trong tương lai sẽ hỗ trợ các doanh nghiệp khác tiếp cận những trung tâm dữ liệu và hạ tầng vật lý cần thiết cho các dịch vụ trí tuệ nhân tạo (AI).
-
Công nghệ
Chính quyền địa phương 2 cấp: Đội hình "Bình dân học vụ số" phát huy vai trò xung kích
07:30' - 21/08/2025
Trong Chiến dịch thanh niên tình nguyện hè 2025, phong trào Bình dân học vụ số là một trong nhiều hoạt động trọng tâm, trọng điểm của chiến dịch.
-
Công nghệ
Thành phố Hồ Chí Minh đẩy mạnh quảng bá điểm đến du lịch trên nền tảng số
13:30' - 20/08/2025
Từ nay đến hết năm 2025, Sở Du lịch Thành phố Hồ Chí Minh sẽ đẩy mạnh quảng bá giá trị ẩm thực đặc sắc của Thành phố thông qua hợp tác với các nền tảng công nghệ.