Quyền sở hữu trí tuệ đối với dữ liệu đầu vào trong đào tạo AI

Nội dung

1. Giới thiệu

Trong bối cảnh Cách mạng công nghiệp 4.0, Trí tuệ nhân tạo (AI) – đặc biệt là AI tạo sinh (Generative AI) – đã và đang tạo ra những bước đột phá công nghệ đáng chú ý. Để đạt được khả năng xử lý ngôn ngữ tự nhiên và tư duy hình ảnh phức tạp, các mô hình AI đòi hỏi một nguồn tài nguyên khổng lồ: dữ liệu đầu vào (Input Data). Quy trình “huấn luyện” này phụ thuộc phần lớn vào việc thu thập, phân tích hàng tỷ đơn vị dữ liệu từ không gian mạng, bao gồm các tác phẩm văn học, nghệ thuật, mã nguồn và dữ liệu cá nhân.

Tuy nhiên, hoạt động thu thập dữ liệu quy mô lớn (Large-scale Data Scraping) đang đặt ra những thách thức pháp lý đối với hệ thống bảo hộ Sở hữu trí tuệ (SHTT) truyền thống. Xung đột giữa nhu cầu tiếp cận, sử dụng dữ liệu để thúc đẩy đổi mới công nghệ và vấn đề bảo vệ quyền, lợi ích hợp pháp của các cá nhân, tổ chức sở hữu quyền trí tuệ đang là một vấn đề pháp lý cần được giải quyết trong thời gian gần đây.

Bài viết này nhằm mục đích giới thiệu sơ lược thực trạng pháp lý về quyền sở hữu trí tuệ đối với dữ liệu đầu vào trong quá trình đào tạo AI, và bao gồm các nội dung chính sau: (a) Hoạt động thu thập dữ liệu đào tạo AI và mối quan hệ với quyền sở hữu trí tuệ; (b) Thực trạng “khoảng trống pháp lý” tại Việt Nam và các rủi ro có liên quan; (c) khuyến nghị pháp lý dành cho doanh nghiệp trong bối cảnh chờ đợi sự hoàn thiện của pháp luật.

2. Hoạt động thu thập dữ liệu đào tạo AI và mối quan hệ với quyền sở hữu trí tuệ

Về mặt kỹ thuật, quá trình phát triển các mô hình ngôn ngữ lớn (LLMs) thường bao gồm việc sử dụng các công cụ tự động để quét, sao chép và lưu trữ dữ liệu từ các nền tảng công khai. Dưới góc độ Luật Sở hữu trí tuệ, hành vi này tác động trực tiếp đến các quyền tài sản cơ bản của chủ sở hữu quyền tác giả, chẳng hạn như:

Quyền sao chép (Reproduction Right): Việc các hệ thống AI tải dữ liệu về máy chủ để phân tích, dù là bản sao tạm thời trong bộ nhớ đệm (RAM) hay bản sao lưu trữ lâu dài để huấn luyện về nguyên tắc có thể cấu thành hành vi sao chép tác phẩm.
Quyền làm tác phẩm phái sinh (Right to Prepare Derivative Works): Khi đầu ra (Output) của AI mang những đặc điểm biểu hiện tương tự hoặc phát triển dựa trên tác phẩm gốc, ranh giới pháp lý giữa “lấy cảm hứng” và hành vi “xâm phạm quyền làm tác phẩm phái sinh” trở nên rất mong manh.
Quyền liên quan (Related Rights): Đối với các dữ liệu là bản ghi âm, ghi hình hoặc chương trình phát sóng, việc khai thác có thể ảnh hưởng đến quyền của nhà sản xuất và tổ chức phát sóng.

Theo đó, vấn đề pháp lý trọng tâm được đặt ra là: Liệu hành vi khai thác này có được xem là một ngoại lệ, cho phép sử dụng mà không cần xin phép (dựa trên nguyên tắc sử dụng hợp lý hoặc các ngoại lệ về khai thác dữ liệu), hay đây là hành vi xâm phạm quyền SHTT trên quy mô công nghiệp?

3. Bất cập trong Khung pháp lý Việt Nam về Sở Hữu Trí Tuệ: khi cơ chế “ngoại lệ” chưa theo kịp tốc độ phát triển khoa học công nghệ

Liên quan đến Khung pháp lý Việt Nam về Sở Hữu Trí Tuệ, bao gồm Luật Sở hữu trí tuệ năm 2005 (sửa đổi, bổ sung các năm 2009, 2019 và 2022) và các văn bản hướng dẫn thi hành, pháp luật Việt Nam đã thiết lập khung pháp lý điều chỉnh đối với quyền tác giả và quyền liên quan, bao gồm các quy định cụ thể về điều kiện bảo hộ, nội dung quyền, các trường hợp giới hạn quyền, cũng như cơ chế thực thi và xử lý hành vi xâm phạm. Nguyên tắc cơ bản được pháp luật ghi nhận là quyền độc quyền của chủ sở hữu. Theo đó, mọi hành vi khai thác, sử dụng đối tượng được bảo hộ bởi bên thứ ba đều bắt buộc phải có sự đồng ý của chủ thể quyền, ngoại trừ các trường hợp thuộc danh mục ngoại lệ và giới hạn quyền được pháp luật quy định. Tuy nhiên, đối với lĩnh vực đặc thù như AI, hệ thống pháp luật vẫn còn tồn tại những “khoảng trống” nhất định, cụ thể như sau:

Thứ nhất, sự vắng bóng của các định nghĩa và quy định chuyên biệt.

Một thực tế là quy định pháp luật sở hữu trí tuệ Việt Nam hiện hành chưa có định nghĩa chính thức về “dữ liệu đào tạo AI” hay chưa có quy định điều chỉnh trực tiếp đối với hoạt động sử dụng các tác phẩm được bảo hộ nhằm mục đích huấn luyện AI. Việc chưa xác định rõ quy chế pháp lý đối với dữ liệu đầu vào của AI dẫn đến tình trạng chưa có cơ sở pháp lý thống nhất để xác định hành vi xâm phạm, đồng thời tiềm ẩn nguy cơ phát sinh các tranh chấp pháp lý liên quan đến quyền và lợi ích hợp pháp của các chủ thể trong quá trình phát triển công nghệ.

Thứ hai, nguyên tắc “độc quyền” có thể là rào cản lớn cho hoạt động thu thập dữ liệu đào tạo AI

Theo tinh thần của các quy định pháp luật Việt Nam về sở hữu trí tuệ Việt Nam, quyền sở hữu trí tuệ nói chung và quyền tài sản của tác giả là quyền độc quyền. Theo nguyên tắc này, mọi hành vi sao chép tác phẩm để nạp vào các ứng dụng Generative AI, nếu không có sự đồng ý trước của chủ thể quyền, đều có khả năng cao bị xem là hành vi xâm phạm. Nói cách khác, cơ chế pháp lý hiện tại vẫn vận hành chặt chẽ theo nguyên tắc: có sử dụng là phải xin phép và trả phí, trừ khi rơi vào các trường hợp ngoại lệ theo quy định pháp luật sở hữu trí tuệ được phân tích dưới đây.

Thứ ba, “khe cửa hẹp” của các trường hợp ngoại lệ

Nhiều quan điểm cho rằng việc huấn luyện AI có thể thuộc các trường hợp được quy định tại Điều 25, 25a và Điều 32 Luật SHTT. Tuy nhiên, nếu đi sâu phân tích về mặt bản chất của các ngoại lệ, lập luận này tỏ ra thiếu vững chắc. Cụ thể Các quy định ngoại lệ của Việt Nam hiện nay được thiết kế chủ yếu cho các mục đích phi thương mại và phục vụ lợi ích công cộng (như nghiên cứu khoa học, giảng dạy, lưu trữ thư viện hay hỗ trợ người khuyết tật). Trong khi đó, phần lớn các mô hình AI hiện nay đều hướng tới mục đích kinh doanh hoặc vận hành ở quy mô công nghiệp. Sự bất tương xứng giữa tính chất thương mại của AI và tính chất phi thương mại của các ngoại lệ luật định khiến cho lập luận mục đích huấn luyện AI thuộc các trường hợp ngoại lệ được cho phép trở nên thiếu vững chắc nếu xét về mặt pháp lý.

4. Kết luận và một khuyến nghị

Sự phát triển của Trí tuệ nhân tạo là xu thế tất yếu, đòi hỏi hệ thống pháp luật về Sở hữu trí tuệ phải có sự thích ứng linh hoạt để cân bằng lợi ích giữa các bên. Trong bối cảnh hành lang pháp lý vẫn đang trong quá trình hoàn thiện, sự chủ động trong quản trị rủi ro pháp lý là yếu tố then chốt, cụ thể như sau:

Đối với Doanh nghiệp phát triển và ứng dụng AI: Cần xây dựng quy trình thẩm định pháp lý (Due Diligence) nghiêm ngặt đối với nguồn dữ liệu đầu vào. Ưu tiên sử dụng dữ liệu mở (Open Data), dữ liệu thuộc về công chúng (Public Domain) hoặc thiết lập các thỏa thuận cấp phép (Licensing Agreements) rõ ràng.

Đối với Chủ sở hữu quyền SHTT: Cần chủ động rà soát và cập nhật các Điều khoản sử dụng (Terms of Use) trên các nền tảng số, bổ sung quy định cấm hoặc hạn chế hành vi thu thập dữ liệu tự động (crawling/scraping) cho mục đích đào tạo AI. Bên cạnh đó, việc áp dụng các biện pháp bảo vệ công nghệ (TPMs) là giải pháp tự vệ cần thiết để ngăn chặn các hành vi xâm phạm tiềm tàng.

Ngày viết bài: 20/11/2025

Khuyến cáo:

Bài viết này chỉ nhằm mục đích cung cấp các thông tin chung và không nhằm cung cấp bất kỳ ý kiến tư vấn pháp lý cho bất kỳ trường hợp cụ thể nào. Các quy định pháp luật được dẫn chiếu trong nội dung bài viết có hiệu lực vào thời điểm đăng tải bài viết nhưng có thể đã hết hiệu lực tại thời điểm bạn đọc. Do đó, chúng tôi khuyến nghị bạn luôn tham khảo ý kiến của chuyên gia trước khi áp dụng.

Các vấn đề liên quan đến nội dung hoặc quyền sở hữu trí tuệ liên của bài viết, vui lòng gửi email đến cs@apolatlegal.vn.

Apolat Legal là một công ty luật tại Việt Nam có kinh nghiệm và năng lực cung cấp các dịch vụ tư vấn liên quan đến Sở hữu trí tuệ. Vui lòng tham khảo về dịch vụ của chúng tôi và liên hệ với đội ngũ luật sư tại Viêt Nam của chúng tôi thông qua email info@apolatlegal.com.