ארכיון האינטרנט – קורבן המאבק בין חברות תוכן וחברות הבינה המלאכותית ?

 

ארכיון האינטרנט – הספרייה הדיגיטלית הגדולה בעולם – שימר עיתונים מאז שעלה לאינטרנט באמצע שנות ה-90. משימתו של הארכיון היא לשמר את האינטרנט ולהנגיש אותו לציבור. לשם כך, הארגון מפעיל את Wayback Machine, המכילה כעת יותר מטריליון דפי אינטרנט מאוחסנים ומשמשת מדי יום עיתונאים, חוקרים ובתי משפט.

במשך כמעט שלושה עשורים, היסטוריונים, עיתונאים והציבור הסתמכו על ארכיון האינטרנט כדי לשמר אתרי חדשות כפי שהופיעו באינטרנט. דפים מאוחסנים אלה הם לעתים קרובות התיעוד האמין היחיד לאופן שבו סיפורים פורסמו במקור. שכן במקרים רבים, מאמרים נערכים, משתנים או מוסרים – לפעמים בגלוי, לפעמים לא.

ארכיון האינטרנט הופך לעתים קרובות למקור היחיד לצפייה בשינויים אלה.

אך בחודשים האחרונים החל הניו יורק טיימס לחסום את הארכיון מלסרוק את אתר האינטרנט שלו, נראה שעיתונים אחרים, כולל הגרדיאן, הולכים בעקבותיו.

מו"לים מבקשים שליטה על אופן השימוש בעבודתם והמהלך של חסימת הארכיון מלסרוק את התכנים שלהם נובע מחששות לגבי חברות בינה מלאכותית שמשתמשות במודלים של אימון בתכנים ובחומרים שמוגנים בזכויות יוצרים לאימון. יש כיום תביעות כנגד  חברות בינה מלאכותית בטענה שמודלים של אימון על חומר המוגן בזכויות יוצרים מפרים את החוק. מנגד יש טיעון חזק לכך שאימון  זה נחשב לשימוש הוגן.

מו"לים רבים ניסו לתבוע עסקים בתחום הבינה המלאכותית על האופן שבו הם ניגשים לתוכן המשמש לאימון מודלים גדולים של שפה. כמה דוגמאות מתחום העיתונות:

הניו יורק טיימס תבע את OpenAI ומיקרוסופט

הוול סטריט ג'ורנל והניו יורק פוסט תבעו את Perplexity

קבוצת מו"לים, כולל The Atlantic, The Guardian ו-Politico, תבעו את Cohere

Penske Media תבעו את Google

הניו יורק טיימס והשיקגו טריביון תבעו את Perplexity

לא משנה מה תהיה תוצאת התביעות הללו, חסימת ארכיונאים ללא מטרות רווח היא התגובה הלא נכונה. ארגונים כמו ארכיון האינטרנט אינם בונים מערכות בינה מלאכותית מסחריות. הם משמרים תיעוד של ההיסטוריה ביטול השימור הזה במאמץ לשלוט בגישה לבינה מלאכותית עלול למעשה לשרוף עשרות שנים של תיעוד היסטורי אם מו"לים סוגרים את הארכיון, הם לא רק מגבילים בוטים. הם מוחקים את התיעוד ההיסטורי  וחשוב שהכול ישאר פתוח

תמונת הפרופיל של לא ידוע

אודות information-world

ד"ר יפה אהרוני , מידענית
פורסם בקטגוריה כללי. אפשר להגיע לכאן עם קישור ישיר.

2 תגובות בנושא ארכיון האינטרנט – קורבן המאבק בין חברות תוכן וחברות הבינה המלאכותית ?

  1. תמונת הפרופיל של salant4 מאת salant4‏:


    סקירה מרתקת !!


    שיתפתי בהרחבה ברשתות החברתיות


    בהערכה,


    עמי סלנט

  2. תמונת הפרופיל של phpandmore מאת phpandmore‏:

    דוגמה בולטת מתי הארכיון עזר לי היא כשתקגמתי לעברית דף בוויקי של OpenStreetMap, ומצאתי שאחד הקישורים מפנה לדף 404. איתרתי את האבדה בארכיון, אך מאחר והוא היה מחקר אקדמי מצאתי את המישום שלו באתר של האוניברסיטה שתחת שמה בוצע המחקר.

השאר תגובה