בפוסט קודם כתבתי על Dataset search מנוע חיפוש ייעודי לסטים של נתונים פתוחים שחברת גוגל השיקה בגרסת בטא ב- 2018 ובגרסה מלאה בינואר 2020. פוסט שפורסם ב- 25 באוגוסט 2020 בבלוג של גוגל, כולל סקירה מעודכנת על הסטים של הנתונים שמכסה מנוע החיפוש, נתונים ותובנות מניתוח הסטים של הנתונים והמלצות לאופן פרסום סטים מדעיים עתידיים.
מממצאי הסקירה והניתוח:
Dataset Search מכסה נכון להיום למעלה מ- 31 מיליון סטים של נתונים. למעלה ממחצית מהסטים של הנתונים מגיעים מתחומי com אך גם תחומים ממשלתיים וארגוניים מיוצגים היטב. מבחינת התפלגות תחומי המחקר של הסטים – מדעי כדור הארץ ומדעי החברה מהווים כ- 45% מהסטים, תחומים נוספים פחות בולטים מבחינה כמותית הם ביולוגיה כ-15% , מדעי המחשב חקלאות כימיה ואחרים.מבחינת השימוש בנתונים ביולוגיה ורפואה תופסים חלק גדול יותר מחלקם הכללי במאגר.
מתוך הסטים של הנתונים שהגדירו רישיון ב-72% מהסטים נמצא רישיון ידוע, לעומת זאת כנראה בשל מדיניות המולים והעדפותיהם, רק 44% מהסטים כללו במידע העל שלהם קישור להורדת הנתונים , ומשתמשים נאלצים בשאר המקרים לבקר באתר המו"ל כדי להוריד את הנתונים.
בהסתמך על ממצאי הניתוח נכללים בסקירה כמה המלצות לשיפור הנראות והגילוי של הסטים של הנתונים , התמודדות עם בעיה של קישורים שבורים על ידי אחסון הנתונים במאגרי נתונים כגון Figshare, Zenodo, DataDryad, Kaggle, והכללת מידע על סוג רישיון לשימוש, רצוי בפורמט קריא למכונה. כמו כן חשוב להקצות מזהים קבועים לסטים של הנתונים כגון DOI.
עוד נכללה בסקירה הודעה על שחרור חלק מאוסף הנתונים, כ- 3 מיליון סטים של נתונים בעלי DOI , לשימוש אחרים. חוקרים יכולים להשתמש במטא נתונים אלה לביצוע ניתוח מעמיק יותר או לבניית יישומים משלהם באמצעות נתונים אלה.
הפוסט מסיים בתקווה שהמידע שניתן יהיה לגילוי באמצעות כלים כמו Dataset Search יעודד מדענים לשתף את הנתונים שלהם בצורה רחבה ויעילה יותר .