בראשית אוגוסט 2020 המו"ל Elsevier השיק אוסף מאמרים פתוח למחקר מדעי. האוסף כולל כ-40000 מאמרים מדעיים בגישה פתוחה ברישיון CC-BY 4.0 שפורסמו על ידי Elsevier החל משנת 2014 . רישיון זה מאפשר למשתמשים להעתיק ולעשות שימוש חוזר גם למטרות מסחריות.
האוסף כולל מדגם מיצג של מאמרים מכול תחומי המדע ובכך ייחודו על פני אוספים אחרים קיימים כגון זה של semantic scholar או COVID-19 שאינם רב תחומיים. האוסף כולל את הטקסט המלא של המאמרים, מידע –על של המסמכים כולל מידע ביבליוגרפי.
אוסף זה מעבר לתרומתו האינפורמטיבית ואפשרות הפקת תובנות רלוונטיות, תומך במחקר NLP ולמידת מכונה ובפיתוח מודלים מתאימים לעיבוד טקסט מדעי רב תחומי.
מחקר על יישום NLP ולמידה מכונה לתכנים מדעיים משך תשומת לב רבה בשנים האחרונות. עם זאת, ההתקדמות נעצרה בגלל זמינות מוגבלת של מערכי נתונים גדולים ומשולבים.
פרסום מערך נתונים זה יכול לסייע לקהילת המחקר בעבודתם להרחבת ההבנה של המשותף וההבדלים בין עיבוד טקסט מדעי וטקסט בעל אופי שונה (למשל טקסט חדשותי).
יתר על כן, מערך נתונים זה מאפשר מחקר על אתגרים בעיבוד טקסט מדעי שאינם קיימים לסוגים אחרים של נתונים.
מאמר שהתפרסם באוגוסט 2020 כולל דיווח מפורט על מבנה סט הנתונים של האוסף , שדות וכו'