Theo một phân tích của OriginalityAI mới đây, tính đến thời điểm này đã có ít nhất 15% trong số 100 trang web hàng đầu và 7% trong số 1000 trang web phổ biến thực hiện biện pháp chặn GPTBot. Cụ thể, có ít nhất 69 trong số 1000 trang web phổ biến nhất trên thế giới đã chặn GPTBot, con bot thu thập dữ liệu web mới mà OpenAI giới thiệu vào ngày 7 tháng 8 vừa qua.
Và tỷ lệ các trang web đang tăng lên khoảng 5% mỗi tuần, theo dịch vụ nội dung trí tuệ nhân tạo và đạo văn Originality.ai.
Chặn hay không chặn ChatGPT? Đó đã là câu hỏi lớn đối với nhiều chuyên gia tối ưu hóa công cụ tìm kiếm. Rõ ràng, một số trang web phổ biến đã chặn GPTBot, có lẽ vì họ không muốn OpenAI thu thập dữ liệu của họ để giúp huấn luyện các mô hình của mình – ít nhất là khi OpenAI không trả phí cho việc này. Ngoài ra, ChatGPT không trích dẫn hoặc liên kết đến nguồn gốc.
15 trang web phổ biến nhất chặn GPTBot, theo phân tích, bao gồm:
- amazon.com
- quora.com
- nytimes.com
- shutterstock.com
- wikihow.com
- cnn.com
- foursquare.com
- healthline.com
- scribd.com
- businessinsider.com
- reuters.com
- medicalnewstoday.com
- goodhousekeeping.co
- amazon.co.uk
- tumblr.com
Mặc dù nhiều trang web đang chặn GPTBot, họ không chặn CCbot, con bot thu thập dữ liệu web của Common Crawl. Một phần trong dữ liệu huấn luyện được sử dụng bởi OpenAI, Google và các hãng khác đến từ Common Crawl.
Có một số ngoại lệ đáng chú ý chặn cả hai bot, chẳng hạn như New York Times, rõ ràng họ không muốn nội dung của họ được sử dụng để huấn luyện hệ thống trí tuệ nhân tạo. Một số trang web phổ biến khác chặn cả GPTBot và CCbot bao gồm shutterstock.com, reuters.com và goodhousekeeping.com.
Ít nhất 62 trang web trong số 1000 trang web hàng đầu đã chặn CCBot.