ארכיון האינטרנט ככלי מחקר:  שיתוף פעולה עם Archives Unleashed ,  סטים של נתונים והזדמנויות מחקר

ארכיון האינטרנט מאז הקמתו כספרייה דיגיטלית ללא כוונת רווח בשנת 1996, מתמקד בהבטחת זמינותו ונגישותו של הידע האנושי על ידי יצירת ספרייה דיגיטלית לאחסון קבוע של תוכן דיגיטלי מכל רחבי העולם, שיהיה נגיש באופן חופשי ודיגיטלי לכול בכול עת. . ארכיון האינטרנט  כולל  מיליוני ספרים, סרטים, תוכנה, מוסיקה, אתרים בחינם ועוד

כל האוספים נגישים באופן חופשי וציבורי באתר www.archive.org

כוח אצירת המידע של ארכיון האינטרנט בא לידי ביטוי בשירות המוביל שלו   archive it  שמאז השקתו בשנת 2006, משמש למעלה מ -600 ארגונים ליצור, לאחסן ולספק גישה לאוספי תוכן אינטרנט כולל מנשקי API  , יבוא וייצוא של מידע-על ועוד והמטרה היא להבטיח שהמידע נשמר בארכיון עבור חוקרים  עתידיים, היסטוריונים והציבור הרחב

מן הראוי לציין, שנתוני אינטרנט ואוספים בארכיון חשובים יותר ויותר לחוקרים, במיוחד לאותם חוקרים שמעוניינים בכריית נתונים ובגישות חישוביות לניתוח סטים גדולים של נתונים , טקסט ורשומות מהאינטרנט.

נתונים גדולים , בצורת מקורות היסטוריים נולדים-דיגיטליים, מעצבים מחדש את מדעי הרוח והחברה. כמות המידע התרבותית העצומה שנוצרת ונשמרת באופן מכריע מדי יום בצורה אלקטרונית, מציעה הזדמנויות חדשות ומרתקות להיסטוריונים, מדעני המדינה, סוציולוגים, בלשנים, מדעני מחשבים וחוקרים אחרים. חלק ניכר ממידע זה מצוי  בארכיוני האינטרנט, שנוצרו על ידי ארגונים כמו ארכיון האינטרנט וספריות רבות אחרות.

כחלק מהמאמץ המתמשך של ארכיון האינטרנט להעמיד שירותים חדשים לרשות חוקרים וסטודנטים, ביולי 2020 הוכרז על הרחבת שיתוף הפעולה (שהיה קיים כבר מ-2016)  עם פרויקט Archives Unleashed שמפתח כלים לחיפוש וניתוח נתונים שמאפשרים לחוקרים, ספרנים וארכיונים לגשת, לשתף ולחקור את ההיסטוריה האחרונה מאז ימיו הראשונים של האינטרנט.

כחלק משיתוף הפעולה של ארכיון האינטרנט עם Archives Unleashed הוא  שחרר סדרה של סטים של נתונים זמינים לציבור שנוצרו מאוספי אינטרנט בארכיון.

הסטים של הנתונים זמינים בכתובת web data research Archives – Internet Archive Blogs

הסטים הם:

GeoCities Dataset Collection: https://archive.org/details/geocitiesdatasets

Friendster Dataset Collection: https://archive.org/details/friendsterdatasets

Early Web Language collection: https://archive.org/details/earlywebdatasets

כמו כן Archives Unleashed הכריז לאחרונה על תוכנית , שתקל על מעורבות מחקרית בארכיוני האינטרנט.

עם שילובו לאחרונה עם archive-it, הנתונים הזמינים לשימוש יהיו בעיקר אוספי ארכיון האינטרנט של המוסדות ב- archive-it (יתכנו גם סטים נוספים מארכיון האינטרנט).

יישומים מתקבלים כעת מצוותי מחקר המעוניינים לבצע ניתוח חישובי של נתוני ארכיון האינטרנט. חמישה צוותי קבוצות של עד חמישה חברים כל אחד ייבחרו להשתתף בתוכנית מיולי 2021 עד יוני 2022. למידע נוסף על התוכנית

 

אודות information-world

ד"ר יפה אהרוני , מידענית
פוסט זה פורסם בקטגוריה מקורות דיגיטליים, מקורות מידע, נתונים גדולים. אפשר להגיע ישירות לפוסט זה עם קישור ישיר.

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל

אתה מגיב באמצעות חשבון Google שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

מתחבר ל-%s