ארכיון האינטרנט – הספרייה הדיגיטלית הגדולה בעולם – שימר עיתונים מאז שעלה לאינטרנט באמצע שנות ה-90. משימתו של הארכיון היא לשמר את האינטרנט ולהנגיש אותו לציבור. לשם כך, הארגון מפעיל את Wayback Machine, המכילה כעת יותר מטריליון דפי אינטרנט מאוחסנים ומשמשת מדי יום עיתונאים, חוקרים ובתי משפט.
במשך כמעט שלושה עשורים, היסטוריונים, עיתונאים והציבור הסתמכו על ארכיון האינטרנט כדי לשמר אתרי חדשות כפי שהופיעו באינטרנט. דפים מאוחסנים אלה הם לעתים קרובות התיעוד האמין היחיד לאופן שבו סיפורים פורסמו במקור. שכן במקרים רבים, מאמרים נערכים, משתנים או מוסרים – לפעמים בגלוי, לפעמים לא.
ארכיון האינטרנט הופך לעתים קרובות למקור היחיד לצפייה בשינויים אלה.
מו"לים מבקשים שליטה על אופן השימוש בעבודתם והמהלך של חסימת הארכיון מלסרוק את התכנים שלהם נובע מחששות לגבי חברות בינה מלאכותית שמשתמשות במודלים של אימון בתכנים ובחומרים שמוגנים בזכויות יוצרים לאימון. יש כיום תביעות כנגד חברות בינה מלאכותית בטענה שמודלים של אימון על חומר המוגן בזכויות יוצרים מפרים את החוק. מנגד יש טיעון חזק לכך שאימון זה נחשב לשימוש הוגן.
מו"לים רבים ניסו לתבוע עסקים בתחום הבינה המלאכותית על האופן שבו הם ניגשים לתוכן המשמש לאימון מודלים גדולים של שפה. כמה דוגמאות מתחום העיתונות:
הניו יורק טיימס תבע את OpenAI ומיקרוסופט
הוול סטריט ג'ורנל והניו יורק פוסט תבעו את Perplexity
קבוצת מו"לים, כולל The Atlantic, The Guardian ו-Politico, תבעו את Cohere
הניו יורק טיימס והשיקגו טריביון תבעו את Perplexity
לא משנה מה תהיה תוצאת התביעות הללו, חסימת ארכיונאים ללא מטרות רווח היא התגובה הלא נכונה. ארגונים כמו ארכיון האינטרנט אינם בונים מערכות בינה מלאכותית מסחריות. הם משמרים תיעוד של ההיסטוריה ביטול השימור הזה במאמץ לשלוט בגישה לבינה מלאכותית עלול למעשה לשרוף עשרות שנים של תיעוד היסטורי אם מו"לים סוגרים את הארכיון, הם לא רק מגבילים בוטים. הם מוחקים את התיעוד ההיסטורי וחשוב שהכול ישאר פתוח