Dataset Search  – נתונים ותובנות

בפוסט קודם כתבתי על  Dataset search   מנוע חיפוש ייעודי לסטים של נתונים פתוחים שחברת גוגל השיקה  בגרסת בטא ב- 2018 ובגרסה מלאה בינואר 2020.   פוסט שפורסם ב- 25 באוגוסט 2020 בבלוג של גוגל, כולל סקירה מעודכנת על הסטים של הנתונים שמכסה מנוע החיפוש, נתונים ותובנות מניתוח הסטים של הנתונים והמלצות לאופן פרסום סטים מדעיים עתידיים.

מממצאי הסקירה והניתוח:

Dataset Search   מכסה נכון להיום למעלה מ- 31 מיליון סטים של נתונים. למעלה ממחצית מהסטים של הנתונים מגיעים מתחומי com  אך גם תחומים  ממשלתיים וארגוניים  מיוצגים היטב. מבחינת התפלגות תחומי המחקר של הסטים –  מדעי כדור הארץ ומדעי החברה מהווים כ- 45% מהסטים, תחומים נוספים פחות בולטים מבחינה כמותית הם ביולוגיה כ-15% , מדעי המחשב  חקלאות כימיה ואחרים.מבחינת  השימוש בנתונים ביולוגיה ורפואה תופסים חלק גדול יותר מחלקם הכללי במאגר.

מתוך הסטים של הנתונים שהגדירו רישיון ב-72%  מהסטים נמצא רישיון ידוע, לעומת זאת כנראה בשל מדיניות המולים והעדפותיהם, רק 44% מהסטים  כללו במידע העל שלהם  קישור להורדת הנתונים , ומשתמשים נאלצים בשאר המקרים לבקר באתר המו"ל כדי להוריד את הנתונים.

בהסתמך על  ממצאי הניתוח נכללים בסקירה כמה המלצות לשיפור הנראות והגילוי של הסטים של הנתונים ,  התמודדות עם בעיה של קישורים  שבורים על ידי אחסון הנתונים במאגרי נתונים כגון Figshare, Zenodo, DataDryad, Kaggle, והכללת מידע על סוג רישיון לשימוש, רצוי בפורמט  קריא למכונה. כמו כן חשוב להקצות מזהים קבועים לסטים של הנתונים כגון DOI.

עוד  נכללה בסקירה הודעה  על שחרור חלק מאוסף הנתונים, כ- 3 מיליון סטים של נתונים בעלי DOI   , לשימוש אחרים. חוקרים יכולים להשתמש במטא נתונים אלה לביצוע ניתוח מעמיק יותר או לבניית יישומים משלהם באמצעות נתונים אלה.

הפוסט מסיים בתקווה  שהמידע שניתן יהיה לגילוי  באמצעות כלים כמו Dataset Search   יעודד מדענים לשתף את הנתונים שלהם בצורה רחבה ויעילה יותר .

לפוסט

למנוע החיפוש Dataset Search

 

 

 

אודות information-world

ד"ר יפה אהרוני , מידענית
פוסט זה פורסם בקטגוריה גישה פתוחה, כללי, נתונים מדעיים פתוחים, נתונים פתוחים. אפשר להגיע ישירות לפוסט זה עם קישור ישיר.

כתיבת תגובה