סטנדרטים למידע פתוח לרשויות ציבוריות

המסמך המקורי – פברואר 2017

 

רקע

בעקבות החלטת הממשלה 1933 שקובעת כי מידע ציבורי שברשות גופי ממשל יהיה פתוח כברירת מחדל, הסדנא לידע ציבורי מגישה רשימת המלצות לקראת ניסוח הנחיות לממונים על פתיחת המאגרים במשרדי הממשלה. מסמך זה מתבסס על הנחיות של ממשלות המובילות בפתיחת מידע וארגונים בינלאומיים המרכזים את הידע והניסיון העולמיים בתחום.

 

רשימת מקורות

מדריכים, הנחיות ומסמכי מדיניות של גופים בין-לאומיים ששימשו כבסיס ידע בהכנת מסמך זה.

 

Data on the Web Best Practices

W3C, Dec 2016

זהו המדריך המקיף, והמומלץ ביותר

 

פתוח כברירת מחדל

יש להתייחס לכל מידע שמיוצר, נאסף ומעובד על ידי המשרד כמאגר, שיש לתת את הדעת על ההנגשה שלו. יש להימנע ככל האפשר משמירת מידע מקומית על המחשב האישי, להקפיד על תיעוד המידע בעת איסופו, ולהתייחס כל העת לצרכי המשתמשת.

איסוף מידע ממשלתי ממומן מכספי הציבור, אי לכך הציבור הוא בעליו. גם כאשר ספק שרותים חיצונים נשכר על מנת לנהל את המידע אסור שהדבר יפגע ברמת הפתיחות והנגישות שלו. נקודת המוצא היא כי כל מידע המיוצר או נאסף על ידי גורם ממשל, פתוח כברירת מחדל, אלא אם כן הובא טיעון מספק בהתאם לסייגים המובאים בהחלטת הממשלה, כגון הגנה על פרטיות ובטחון המדינה, מדוע אין לפתוח אותו.

לכלול הנגשת מאגרים בתכנית העבודה ובתקציב המשרד

 

רשימת מאגרים

יש לייצר רשימה של כל המאגרים שהמשרד מייצר, ולפרסם גם אותה לציבור.

 

לוח זמנים לפרסום ועדכון מאגרים

יש לקבוע לו”ז לפרסום ועדכון של כל מאגר ולפרסם אותו לציבור.

 

מינוי ממונה על הנגשת מידע

הממונה יהיה אחראי על עמידה בלו”ז, ביצוע תכנית העבודה והעברת הדרכות על מידע פתוח לעובדי המשרד.

 

שיתוף ציבור

  1. עריכת התייעצות עם החברה האזרחית והמגזר העסקי על מנת לזהות סוגי נתונים שיש בהם עניין למשתמשים.
  2. לאפשר פידבק מהמשתמשים לגבי איכות המידע שפורסם, בקשות לפרסום מידע חסר ובקשות לעדכון מידע שהתיישן.
  3. עבור כל מאגר לציין את הגורם האחראי לאיסוף הנתונים ודרכי יצירת קשר עימו.

 

במידה ובמהלך השנה הוגשו בקשה/בקשות חופש מידע שנסתיימו בשחרור מידע לציבור, יש להעמיד את התוצר שלהן לרשות כלל הציבור באותה מסגרת של רשימת מאגרים, גם אם פתיחת המידע היתה חד פעמית.

עקרונות מידע פתוח

רשימת העקרונות הבאה נועדה להבטיח נגישות ושימושיות מירביות למידע המשוחרר. זאת כדי שההשקעה של משרדי ממשלה לפרסם מידע תביא את מירב התועלת לציבור.

 

רישיון פתוח

 

על מנת לאפשר ולעודד שימוש במידע ממשלתי יש לפרסם יחד עם המידע רישיון המגדיר את תנאי השימוש, השינוי וההפצה שלו.

לפי ה-Open Definition 2.1, על מנת שמידע יחשב כפתוח עליו להיות נחלת הכלל (public domain), כלומר שלא יחולו עליו זכויות יוצרים או הגבלות דומות. לחילופין הוא יכול להיות מופץ תחת רשיון שיבטיח:

  1. שימוש חופשי במידע
  2. הפצה חופשית של המידע, כולל מכירה
  3. שינוי המידע, כך שעל המידע החדש יחול הרשיון המקורי
  4. כל זאת ללא תלות במטרת השימוש במידע
  5. הפרדה – כל חלק מהמידע ניתן לשימוש, הפצה ושינוי חופשיים בנפרד או בצרופים שונים
  6. צרוף – המידע יכול להיות מופץ בצירוף למידע אחר בלי שהוא יגביל את תנאי הרשיון של המידע האחר.
  7. אי-הפליה – הרשיון לא יפלה נגד אף אדם או קבוצה
  8. רישיון מדבק – תנאי הרשיון יחולו על כל אדם אליו מופץ המידע, ללא הצורך להסכם משפטי נוסף
  9. רב-תכליתיות – הרשיון לא יגביל את השימוש, ההפצה או השינוי
  10. ללא עלות – תוקפו של הרשיון לא יותנה בתשלום כלשהו

 

מומלץ להשתמש ברשיונות סטנדרטיים ומוכרים של Creative Commons כגון CC0 או CC-BY. יש לפרסם את הרישיון יחד עם המאגר.

 

ללא הרשמה

הגישה למאגר תהיה ישירה ללא צורך בהרשמה.

 

פורמט קריא-מכונה

כדי שניתן יהיה להשתמש במידע, חשוב לשחרר אותו בפורמט הניתן לעיבוד וניתוח אוטומטי על ידי מחשב.

 

פורמטים מומלצים

  • מידע טקסטואלי – HTML או Markdown
  • מידע טבלאי (במבנה קבוע) – CSV או אקסל עם גליון אחד בלבד. בכל מקרה, הטבלה תכיל שורת כותרת אחת בלבד ותתחיל מהשורה הראשונה ומהעמודה הראשונה. לכל טבלה תצורף סכמה המתארת את העמודות בטבלה.
  • מידע לא טבלאי – XML, JSON. בצרוף סכימה מתאימה.
  • מידע גיאוגרפי – GeoJSON או Shapefile עם הגדרת ההיטל שלו.

 

הבהרות

  • גם כשהפורמט קריא-מכונה, הוא עדין צריך להישאר קריא עבור בני אדם. תנו שמות מפורשים לשדות ולעמודות.
  • קובצי תמונה, TIFF או pdf שנוצר מסריקה של מסמך אינם קריאי-מכונה – לא ניתן לקרוא מהם את הנתונים בצורה ממוחשבת. פיענוחם מצריך עבודה ידנית של הקלדת הנתונים.
  • קבצי doc ו- pdf שנוצר מתוך doc אמנם עדיפים על פני טקסט סרוק, מפני שניתן לחפש ולהעתיק מהם קטעי טקסט, אולם הם אינם קריאים על ידי מנועי חיפוש.

דוגמה: אם פרוטוקול של דיון בועדת כנסת מפורסם באתר הוועדה כקובץ doc או pdf, גוגל לא מבצע חיפוש בגוף הטקסט. כך למשל, אם  עורכים חיפוש לפי שמות של נוכחים או נושאי דיון שמופיעים בתוך הטקסט, קובץ הפרוטוקול לא יעלה בתוצאות.

  • קבצי doc אינם קריאי מכונה כי אינם מכילים עיצוב סמנטי. לדוגמא: כאשר לא משתמשים ב-Headers הקבועים, אלא פשוט בטקסט מוגדל ומודגש, זה מאוד מקשה על ניתוח אוטומטי ומצריך שימוש בהיוריסטיקות כדי להבין איפה יש כותרת ואיפה סתם טקסט גדול ומודגש. הדבר גם מקשה על חלוקה נכונה של התוכן לנושאים. בנוסף העיצוב משתנה בין המסמכים ואינו עקבי. כמו כן טבלאות או גרפים המשוייכים למסמך גם הם צריכים להיות בפורמט קריא מכונה, ולא תמונות מודבקת לתוך המסמך.

דוגמה לתוכן סמנטי: כותרת עטופה בתגית שאומרת שזה כותרת <h1>

פסקה שקשורה לכותרת תהיה תחת תגית הכותרת ועטופה בתגית פסקה: <h1><p>blabla</p</h1>

לחילופין, ב-Markdown טקסט סמנטי נראה כך: **מודגש**, *מוטה* , _קו תחתי_ , “# כותרת”.

  • קובץ חתום שמצריך הפעלה ידנית של תוכנה לפתיחתו, לא ניתן למשוך ולפתוח אותו אוטומטית. למשל נתוני הפטור ממכרז המתפרסמים בפורטל מנהל הרכש הממשלתי.
  • קבצי תמונה או אריחים (tiles) של מפות שנוצרו על ידי סריקה או שמירה כ- raster של מידע גאוגרפי ווקטורי אינם קריאי מכונה.

 

פורמט מקורי

ככלל יש עדיפות לפורמט שבו המידע נוצר במקור. אם זו טבלה שנוצרה ב-Excel, אל תמירו אותה ל-doc או pdf. אם זה טקסט שהוקלד ב-Word, אל תמירו אותו ל-pdf. אך אם התבצעה המרה לפורמט נגיש יותר, כמו זיהוי טקסט במסמך או דיגיטציה של מפה, יש לפרסם גם את תוצאות ההמרה.

 

מגוון פורמטים

כדאי לפרסם את אותו המאגר בכמה שיותר פורמטים שונים כדי שיתאים לכמה שיותר שימושים.

 

פורמט לא קניני

מומלץ להימנע מפורמטים המצריכים רכישה של תוכנה מסחרית על מנת לקרוא אותם. כך למשל, השימוש בתוכנות Microsoft כגון Excel או Word נפוץ מאוד בישראל, אך אלה תוכנות בתשלום. משתמשים רבים של מערכות הפעלה ממשפחת Linux (שאינן Windows), במיוחד בקרב מומחי תוכנה, לא עובדים איתן. ניתן לפרסם בפורמט קנייני, כל עוד לצדו מתפרסם פורמט לא קנייני.

 

עקביות הפורמט

חשוב שהמבנה שנבחר יהיה קבוע. המשתמשים שמפתחים מערכת המושכת ומעבדת את המידע, מתאימים אותה לפורמט המדוייק של הקבצים. אם מבנה השדות בטבלה, או סדר הטקסט משתנים המערכת תצא מכלל שימוש.

 

סטנדרטיזציה

המאגרים צריכים להיות בפורמטים סטנדרטיים כדי לאפשר השוואה ביניהם. כמו כן חשוב להקפיד על תאימות לסטנדרטים בינלאומיים.

דוגמה: על אף שמשרד הפנים הגדיר סטנדרט למבנה של תקציב רשויות מקומיות, מרבית הרשויות אינן נצמדות אליו ומספררות באופן שונה את הסעיפים התקציביים. כתוצאה מכך, לא ניתן להשוות בין התקציבים ללא עבודה ידנית סיזיפית של המרתם למבנה אחיד.

 

רמת פירוט

מומלץ לפרסם את המאגר ברמת הפירוט / רזולוציה (granularity) הגבוהה ביותר שקיימת.

במידת האפשר יש לפלח את המידע לפי מגדר, רמת הכנסה, גיל וקטגוריות אחרות.

 

מידע מעודכן אקטואלי ועקבי

 

מידע שלם ואיכותי

יש לוודא כי מירב השדות במאגר מלאים, ולהמנע במידת האפשר לסווג נתונים כ”אחר”, “שונות”, “רגיש” וכו’.

 

מידע נקי

יש לערוך בדיקות איכות תקופתיות כדי לוודא שאין שגיאות הקלדה.

דוגמה 1: בעבר היו קיימות תקנות בתקציב המדינה שהוקלדו באותיות לועזיות כאשר מי שהזין אותן לא הפך את המקלדת לעברית והקליד ג’יבריש.

דוגמה 2: בנתוני מינהל הרכש הממשלתי, לעיתים מי שמילא את הפטור במערכת, הזין במקום ההיקף הכספי את מספר הח”פ של הספק. זה גורם לכך שנוספים 500-600 מיליון ש”ח לספקים ומשרדים.

 

מידע גולמי

מומלץ לפרסם את המידע כפי שהוא מיוצר, במצבו הראשוני ביותר והלא מעובד. יחד עם זאת אם קיימים עיבודים של המידע, כגון אגרגציות, ויזואליזציות וכו’, ניתן לפרסם גם אותם, בליווי הסברים של תהליך החישוב.

דוגמה: נתוני נסיעה של תחבורה ציבורית – עדיף לפרסם מידע גולמי כפי שהוא משודר ממכשירי ה-GPS שבאוטובוסים, הכולל מיקום וזמן הדגימה. ניתן לפרסם גם את החישוב של זמן ההגעה החזוי לתחנה הקרובה, אך בנוסף ולא במקום המידע המקורי.

מערכת שאילתות איננה מידע גולמי. דוגמאות למערכת שאילתות: ממשק הנתונים של המשטרה, מערכת קוים כחולים של מנהל התכנון.

 

מטה-דאטה

זהו אוסף פרמטרים המתארים את המידע, בעלי פורמט קבוע, הנמצאים בראש כל קובץ. מטה דאטה חשוב ממש כמו הדאטה, ובלעדיו קשה מאוד לפענח את תוכן הקובץ. גם המטה דאטה צריך להיות מפורסם כמידע פתוח, וגם עבורו צריך להגדיר את הפורמטים.

מטה-דאטה איכותי יאפשר לקחת קובץ נתונים מפורטל מידע ממשלתי ולטעון אותו לעיבוד אוטומטי בלי לטעות בקריאה של התאריך (dd/mm/yy או mm/dd/yy?), של הנקודה העשרונית (האם היא נקודה או פסיק), בהחלטה אם השפה של הטקסט היא עברית או אנגלית וכו׳. מעבר לכך, זה גם מה שמאפשר לעשות ולידציה אוטומטית לנתונים. זה אומר לבדוק האם כל העמודות מופיעות? האם בכל שדה יש נתון? האם הנתון שאמור להיות מספר או אכן מספר? וכו׳.

 

דוגמה 1: כדי לקבל את דוחות הרכש של משרדי הממשלה יש שליפה במרכב״ה שמייצרת את הקובץ. לכאורה כל הקבצים אמורים להיות באותו פורמט בדיוק, אך בפועל, כל משרד מפרסם קובץ בפורמט אחר ושדות שונים.

בהינתן סכמה מסודרת לקבצים אלה, הבעיה הייתה נמנעת.

 

דוגמה 2: עבור קובץ טקסט של פרוטוקול של דיון בועדת הכנסת, מטה-דאטה מועיל עשוי להכיל את מועד הדיון, שם הוועדה, רשימת המוזמנים, רשימת המשתתפים, רשימת הלוביסטים הנוכחים, נושא הדיון וכו’. חשוב שמבנה זה יהיה אחיד, כדי שהמשתמש יוכל לבנות כלי אוטומטי שיקרא שדות אלה בכל קבצי הפרוטוקולים, דבר שיקל על עיבוד המידע.

 

קיימות מספר רמות של מטה-דאטה:

  1. Descriptive metadata
  2. Structural metadata
  3. Administrative metadata

אחד התקנים הפשוטים והמוצלחים הוא ה-data package שמקודם על ידי ארגון Open Knowledge.

 

סימון גרסאות

כאשר חל שינוי במבנה הנתונים, למשל אם נוספה או נמחקה עמודה בטבלה, יש לציין זאת על ידי הקצאת מספר גרסה חדש, כדי להתריע בפני המשתמשים על העדכון. כמו כן יש לתעד את כל הגרסאות ששוחררו.

 

שימור מידע ישן

 

קישור ישיר למידע

לכל מאגר יהיה URL ייחודי ויציב שניתן להשתמש בו כקישור ישיר למאגר.

דוגמה: מערכת מבא”ת – ממשק לאיתור תכנית של מנהל התכנון במשרד הפנים. בעבר, כאשר המשתמש היה מחפש במערכת תוכנית ספציפית, לתוצאות לא היה URL ייחודי ולא ניתן היה לשתף אותן. בצילומי המסך למטה רואים שתי תוכניות שונות עם אותה כתובת URL.

דוגמה טובה היא אתר מפתח התקציב, שלכל תוצאת חיפוש בו יש URL ייחודי, ובנוסף ניתן להוריד את מקבץ הנתונים הרלוונטי לתוצאה זו. למשל זו הכתובת עבור תקנה מס’ 20.46.04.10 בשם “פעילות התנדבותית למען הקהילה של תלמידי י”א-י”ב”  http://www.obudget.org/#budget/20460410/2016/en?tab=supports

ובצד שמאל, המוקף בעיגול כחול בצילום המסך מטה, ניתן להוריד נתוני ההיסטוריה התקציבית של התקנה, פטורים ממכרזים ותמיכות.

 

קישוריות מידע (interoperability)

כדי לאפשר הצלבה של נתונים ממקורות שונים יש לתת לכל רשומה במאגר מזהה ייחודי וקבוע שיזהה נתון זה במאגרים שונים ברשויות שונות. הדבר נכון גם לגבי פריטי מידע באותו מאגר שיש ביניהם קשר. המזהה יהיה כלול במטה-דאטה.

דוגמה 1: בדו”חות הרכש של המשרדים הספק מזוהה על ידי מספר ספק פנימי, בעוד שבמערכת מנו”ף הספק מזוהה על ידי מספר ח”פ. כך כאשר מנסים להצליב מידע משני המקורות לא ניתן לחבר בין הרשומות של הספקים מכאן ומכאן.

דוגמה 2: באתר הכנסת, המזהה הייחודי של הצעת החוק מלווה את ההצעה רק בצברי הנתונים שקשורים לדיונים בוועדות ובמליאות – המידע שנמצא במערכת ה”סנהדרין”. אולם ההצבעות על ההצעות שמורות במערכת אחרת ועדין לא ניתן לקשר בין דיון בהצעה להצבעה עליה. המספר הרשמי שמסמן את ההצעה ברשומות הכנסת, ניתן לה רק בשלבי חקיקה מתקדמים, לעיתים מספר הצעות מתמזגות ומקבלות את המספר של אחת מהן. גם הכותרת עשויה להשתנות. למשל הצעת חוק ייצוג הולם של יהודים בני המגזר החרדי בשירות הציבורי

בעת אישורה הפכה ל חוק ייצוג הולם של בני האוכלוסייה החרדית ושל עולים חדשים בשירות הציבורי

או הצעה שבקריאה הטרומית נקראה: הצעת חוק לתיקון פקודת מסי העיריה ומסי הממשלה (פטורין) (פטור מארנונה לארכיון ציבורי), התשע”ו-2015

ובקריאה הראשונה נקראה: הצעת חוק לתיקון פקודת מסי העירייה ומסי הממשלה (פטורין) (מס` 27), התשע”ז-2016

אין דרך לדעת שמדובר באותה הצ”ח מאחר ויש לפחות 27 תיקונים שונים לפקודת מסי העירייה והממשלה. לכן יש קושי לעשות אגרגציה של כל פריטי המידע הקשורים להצעה מסויימת. להסבר מפורט

דוגמה 3: בדו”חות של הגופים המוסדיים המפרטים את אחזקותיהם בניירות ערך, שם המנייה של אותה חברה יכול להיכתב בשלל דרכים שונות, למשל 32 השמות של חברת טבע:

 

דברי הסבר

להוסיף הסברים לעמודות ושורות של טבלאות, למבנה המידע, המקור שלו, אופן הפקתו וכו’. כמו כן לציין סוגיות ידועות הקשורות באיכות המידע. למשל מידע שהאיסוף שלו לא התחיל בתחילת השנה הקלנדרית, מאגר שחסרים בו נתונים וכו’.

דוגמה 1: למשרד התחבורה ידוע כי נתונים שהוא מפרסם אודות זמן הגעה חזוי של אוטובוס לתחנה אינם משקללים עומסי תנועה. יש לציין זאת במפורש.

דוגמה 2: הוגשה בקשת מידע לרכבת ישראל עבור מספר הנוסעים הנכנסים ויוצאים מתחנות. המידע שהתקבל הכיל מספרים לא שלמים של נוסעים כמו גם נוסעים שנסעו ביום שבת. במקרה זה ללא הסבר לאופן הפקת המידע לא ניתן לעשות בו שימוש.

רצוי שגם קבצי ההסבר יהיו בפורמט קריא מכונה.

דוגמה 3: נתונים שאוספת הלמ”ס אודות תאונות דרכים מגיעים מדיווחים של המשטרה מזירות של תאונות דרכים. נתונים אלה שונים מהנתונים שנאספים בבתי חולים שקולטים נפגעי תאונות. לכן חשוב לציין את מקור הנתונים ואופן האיסוף שלהם.

 

הורדה מרוכזת (bulk download)

כדי להקל על המשתמשים להוריד את המידע, כדאי לאפשר הורדה של כל הקבצים במאגר כמקשה אחת, אם על ידי ריכוז כל הנתונים בקובץ אחד, ואם על ידי כיווץ מספר קבצים יחד כ-zip או כ-rar.

דוגמה 1: פיזור של תחנות משטרה – קובץ שיכיל את מיקומי התחנות בכל הארץ במקום קובץ נפרד לכל רשות מקומית או מרחב.

דוגמה 2: תקציב המדינה – קובץ אחד שיכלול את תקציבי כל המשרדים, כולל התכנון, השינויים והביצוע. זאת במקום קבצים נפרדים לכל משרד, וביצוע בנפרד מהתכנון.

 

ממשק מפתחים – API

API מאפשר למשתמש למשוך מתוך מכלול גדול של נתונים רק את החלק שדרוש לו.

למשל, מאגר נתוני מזג אוויר מורכב מישובים רבים ומתעדכן בתדירות גבוהה. כדאי לבנות API שיאפשר למשוך נתונים לפי ישוב. כך גם בנתוני תחבורה ציבורית כדאי לאפשר באמצעות API למשוך רק נתונים של תחנה מסויימת בישוב מסויים בשעה מסויימת. דוגמה אחרת היא קטלוג של הספריה הלאומית שמכיל ערכים רבים. כדאי לאפשר למשוך רק את רשימת הערכים שהתעדכנו (נוספו או נמחקו) בתקופה נתונה.

 

כאשר קיים API, יש לספק לו תיעוד.

שחרור מאגר נתונים שלם – data dump

יש לאפשר הורדה של המאגר במלואו ולא להסתפק במתן גישה לכל נתון בנפרד.

למשל, באתר התמיכות הממשלתי לא ניתן למשוך את כל מאגר נתוני התמיכות בשלמותו, אלא רק לחפש בכל פעם נתון בודד דרך ממשק השאילתות

http://www.tmichot.gov.il/irj/portal/anonymous?guest_user=awf_user

http://www.tmichot.gov.il/ibi_apps/WFServlet?IBIF_ex=suppe_portal_notif_item_all6

 

הבטחת איכות

מידע יכול לעמוד בכל הקריטריונים שתוארו לעיל ועדיין להיות שגוי או חסר. לכן, כיום אנו רואים תשומת לב הולכת וגוברת לאיכות המידע שנפתח ומתפתחים כלים אוטומטיים הבודקים את שלמות ואיכות המאגרים.

דוגמה: אתר  Spendex של הסדנא לידע ציבורי הוא דוגמא להטמעה של כלי כזה לביצוע בדיקה שגרתית לאיכות הנתונים בדו”חות הרכש הממשלתיים.

מאחר וחלק מהגופים מיאנו לפרסם את דו״חותיהם באופן סדיר, חרגו מהמבנה הסטנדרטי שנקבע לדו”ח, פרסמו מידע חלקי, שגוי או לא מפורט מספיק, פותח מדד “איכות נתוני רכש”. המדד משקלל את הקריטריונים הבאים.

 

  1. שם ספק מצויין בצורה תקינה
  2. הדו״ח פורסם במועד הקבוע בנוהל
  3. היקף ההתקשרות מצויין
  4. הקישור למערכת מנו״ף תקין (רלוונטי במקרה של מכרז או פטור ממכרז, למעט פטור בעילה של סכום הנמוך מ-50,000 ש”ח)
  5. מועד ההזמנה מצויין בצורה תקינה
  6. אופן ביצוע הרכישה מצוין (ולא ריק או ׳אחר׳)
  7. מטרת ההתקשרות מצוינת
  8. הסכום המבוצע מצוין ואינו 0
  9. מטבע הרכישה מצוין
  10. ההזמנה אינה רגישה
  11. מטרת ההתקשרות מפורטת במידה מספיקה

 

ככל שההתקשרות היא על סכום גבוה יותר כך ההשפעה שלה על המדד הסופי גדולה יותר.

 

5 כוכבים

 

שיטת 5 הכוכבים קובעת מדרג של 5 קריטריונים למידע פתוח. לפיה, מוטב שהמידע יהיה פתוח חלקית מאשר שלא יהיה פתוח כלל.

ניתן לאמץ את הכוכבים שבדוגמה, את כולם או את חלקם, וניתן גם להגדיר כוכבים אחרים. הרעיון הוא לקבוע סדר עדיפויות ולתמרץ שחרור מידע גם אם אינו עומד בכל הקריטריונים של מידע פתוח.

 

★ לפרסם את המידע באינטרנט עם רישיון פתוח, בכל פורמט שהוא

★★ לפרסם את המידע בפורמט קריא מכונה

★★★ להוסיף מטה-דאטה ודברי הסבר

★★★★ מידע איכותי, נקי, שלם, עדכני, תואם פורמט סטנדרטי, מילון מושגי מפתח סטנדרטי ומזהה ייחודי עקבי

★★★★★ להקצות URI לכל פריט במאגר כדי שניתן יהיה להפנות אליו

 

הפרדה של מידע רגיש

במאגרים המכילים בין היתר מידע שחשיפתו עלולה להביא לפגיעה בפרטיות, יש לתת את הדעת מראש, בעת תכנון המאגר ובעת איסוף המידע, כיצד ניתן לגדר את המידע הרגיש ולהפריד אותו משאר הנתונים, כך שתהיה אפשרות לפרסם לפחות חלק מהמידע.