Giới khoa học đau đầu khi “cạn dữ liệu” huấn luyện AI
Các chuyên gia dự báo đến năm 2028, lượng dữ liệu cần thiết để huấn luyện các mô hình ngôn ngữ lớn (LLM) sẽ ngang bằng với toàn bộ kho dữ liệu văn bản công khai trên Internet.
Theo nghiên cứu của Viện Epoch AI, quy mô tập dữ liệu huấn luyện AI đang tăng gấp đôi mỗi năm, trong khi lượng nội dung Internet chỉ tăng chưa đến 10% hàng năm. Shayne Longpre, nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), cho rằng tình trạng thiếu hụt dữ liệu đã bắt đầu xuất hiện.
Thêm vào đó, các nhà xuất bản và chủ sở hữu nội dung đang siết chặt quyền kiểm soát việc sử dụng dữ liệu của họ. Nhiều vụ kiện đã được đệ trình, trong đó có vụ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023.
Tuy nhiên, các công ty AI lớn như OpenAI và Anthropic đang tìm nhiều giải pháp thay thế. Họ đang khai thác các nguồn dữ liệu phi truyền thống và thậm chí tự tạo ra dữ liệu mới. OpenAI cho biết họ đang tạo ra 100 tỷ từ mỗi ngày, tương đương với khoảng 36 nghìn tỷ từ một năm.
Một hướng đi khác là phát triển các mô hình AI nhỏ hơn, chuyên biệt cho từng nhiệm vụ cụ thể. Các mô hình này cần ít dữ liệu hơn nhưng đòi hỏi kỹ thuật huấn luyện tinh vi hơn. Theo một nghiên cứu năm 2024, nhờ cải tiến thuật toán, sức mạnh tính toán cần thiết để đạt cùng hiệu suất đã giảm một nửa sau mỗi 8 tháng.
Yann LeCun, Giám đốc khoa học AI tại Meta, đề xuất hướng tiếp cận mới: học từ dữ liệu đa dạng hơn như video và hình ảnh. Ông chỉ ra rằng một đứa trẻ 4 tuổi đã tiếp nhận lượng thông tin gấp 50 lần so với dữ liệu huấn luyện của một mô hình LLM hiện đại, chỉ thông qua việc quan sát thế giới xung quanh.
Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon, lạc quan cho rằng các mô hình AI, sau khi đã đọc phần lớn Internet, có thể không cần thêm dữ liệu để trở nên thông minh hơn. Thay vào đó, khả năng tự học và tự suy ngẫm của AI có thể là chìa khóa cho những tiến bộ trong tương lai.
- Từ khóa :
- trí tuệ nhân tạo
- công nghệ ai
- chatgpt
Tin liên quan
-
Ý kiến và Bình luận
"Cha đẻ của AI" cũng lo ngại về những rủi ro từ trí tuệ nhân tạo
13:45' - 08/12/2024
Ngày 7/12, chủ nhân giải Nobel Vật lý Geoffrey Hinton và Nobel Hóa học Demis Hassabis đã kêu gọi quản lý chặt chẽ trí tuệ nhân tạo (AI), công nghệ đóng vai trò quan trọng trong các giải thưởng của họ.
-
Chứng khoán
Nghiên cứu đưa ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào thị trường chứng khoán
20:20' - 06/12/2024
Ngày 6/12, Bộ Tài chính cho biết cơ quan này đang nghiên cứu đưa ứng dụng trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data) vào giám sát giao dịch thị trường chứng khoán.
-
Công nghệ
Ứng dụng trí tuệ nhân tạo trong giảng dạy và quản lý giáo dục
15:13' - 30/11/2024
Cuộc cách mạng công nghiệp lần thứ tư và trí tuệ nhân tạo (AI) đang tác động sâu rộng đến mọi lĩnh vực, trong đó có giáo dục.
Tin cùng chuyên mục
-
Công nghệ
Vận hành Cổng Giáo dục Số, hướng tới quản trị thông minh
13:00'
Chiều 20/5, Sở Giáo dục và Đào tạo tỉnh Nghệ An tổ chức khai trương và đưa vào vận hành “Cổng Giáo dục Số Nghệ An”.
-
Công nghệ
Meta "hé cửa" ứng dụng nhắn tin cho các đối thủ AI.
07:30'
Hai nguồn tin thạo việc tiết lộ Meta Platforms mới đây đã đưa ra đề xuất cho phép các chatbot trí tuệ nhân tạo (AI) của đối thủ truy cập miễn phí vào nền tảng nhắn tin WhatsApp tại châu Âu.
-
Công nghệ
Hyundai Motor tiến gần tới mục tiêu thương mại hóa robot hình người
13:00' - 20/05/2026
Trong không gian ảo, robot liên tục thử và sai hàng triệu lần để tìm ra phương án di chuyển tối ưu nhất trước khi áp dụng vào môi trường thực tế.
-
Công nghệ
Gieo mầm công dân số trong cộng đồng
07:30' - 20/05/2026
Bằng nhiều cách làm linh hoạt, thiết thực, Bắc Ninh đang từng bước đưa kỹ năng số đến gần hơn với người dân.
-
Công nghệ
Trợ lý ảo Alexa+: Tạo ra podcast chỉ là chuyện nhỏ
13:00' - 19/05/2026
Công ty công nghệ và thương mại điện tử Amazon của Mỹ ngày 18/5 đã công bố bản cập nhật mới nhất cho trợ lý ảo Alexa+ với khả năng tạo ra các tập podcast theo yêu cầu.
-
Công nghệ
Micron Technology kỳ vọng vào làn sóng AI
07:30' - 19/05/2026
Lợi nhuận dự phóng của Micron Technology trong 12 tháng tới được ước tính ở mức gần 100 tỷ USD nhờ nhu cầu mạnh mẽ và giá tăng cao của dòng chip nhớ băng thông cao phục vụ các ứng dụng AI.
-
Công nghệ
Quốc gia châu Âu phổ cập miễn phí ChatGPT Plus toàn dân
15:30' - 18/05/2026
Theo phóng viên TTXVN tại châu Âu, chính phủ Malta và hãng công nghệ OpenAI ngày 16/5 đã chính thức công bố thỏa thuận hợp tác lịch sử.
-
Công nghệ
Hàn Quốc: Từ số hóa đến hệ sinh thái logistics thông minh
11:30' - 18/05/2026
Việc tối ưu hóa ngành logistics không chỉ giúp Hàn Quốc giảm chi phí mà còn quyết định khả năng duy trì vị thế trong chuỗi giá trị toàn cầu.
-
Công nghệ
Bangkok ứng dụng công nghệ quét 3D trong thi công và sửa chữa mặt đường
07:30' - 18/05/2026
Hệ thống 3D cho phép khảo sát, tính toán và thiết kế lại toàn bộ bề mặt đường, qua đó bảo đảm mặt đường mới đạt các tiêu chuẩn kỹ thuật về độ bằng phẳng và an toàn giao thông.

Biểu tượng của OpenAI và ChatGPT. Ảnh: AFP/TTXVN