לְמָה התְממָה?

זה לא חדש שהפרטיות נעלמה מחיינו, כתבתי על כך לפני למעלה משנתיים. הארגונים מחזיקי המידע ומפרסמיו מנסים, ומצליחים חלקית, לשמור על פינה פרטית בתוך אוקיינוס המידע הפתוח לציבור. הפעילות אינה חדשה אך לאחרונה ניתן לה פרסום על במות שונות.

בדרך כלל קבצים עתירי מידע פרטי דרושים לצורך הפקת מידע סטטיסטי, ושם אנחנו מבקשים שמירה על פרטיותם של בעלי הנתונים ובה בעת אפשרות לנתח מתמטית, לצרכים שונים, את יתרת הנתונים. הנושא מורכב ואנסה להסבירו כאן בפשטות.

דוגמה פשוטה לכך היא טבלה המכילה שורות של נתונים – בעמודות מפורט שם פרטי, שם משפחה, מספר תעודת הזהות, תאריך הלידה, עלות שכר, מספר שנות עבודה בארגון ומספרים דומים. מטרתי לשנות את הקובץ – להוציא ממנו פרטים אחדים – כדי שיהיה סיכוי קטן מאוד לזיהוי מלא של הפרט אך תישמר ככל האפשר שימושיות המידע הנותר.

בעזרת טבלה כגון זו אני יכול לבצע מספר פילוחים, כגון גיל ממוצע של העובדים בארגון, שכר ממוצע וכדומה. מובן שאם יהיה טור של חלוקה על פי מגדר אפשר יהיה לבצע פילוחים נוספים. לצורך כל אלו ולשם שמירה על זהות הפרט לא מעניין אותנו השם הפרטי ושם המשפחה של כל עובד. השלב הראשון בשמירה על הפרטיות הוא למחוק את שני הטורים של הנתונים האלו ולבצע את כל הפילוחים על יתרת הטורים. פעולה זו קרויה Data Anonymization, ובעברית – "הַתְממָה".

בפעילות מסוג זה יכולים להיות מיוצגים בסיסי נתונים רבי שורות וטורים, וחשוב להפריד זיהוי, כלומר לבצע התממה, באופן שיאפשר לחזור ולחבר את הנתונים במדויק, כולל זיהוי. ברור שככל שאני מוריד טורים מטבלת המידע אני מגדיל את ההגנה על הפרט אך במקביל מוריד את יעילות המידע לצורך הפקת נתונים סטטיסטיים, ולהפך.

עם גדולי הצרכנים של הטכנולוגיה בארץ נמנים בנק ישראל ומשרד הבריאות, ולשניהם דרושה התממה לצורכי מחקר והפקת מידע סטטיסטי. שני הגופים ודומיהם יכולים להיות ניזונים מאותו בסיס נתונים ענק המכיל פרטים על אזרחי המדינה, אבל – וכאן הבדל חשוב – אף גוף אינו צריך את שמי ואת כתובתי לצורכי סטטיסטיקה. יתרה מכך, במידע שיימסר למשרד הבריאות אין צורך להעביר את השכר שלי, ולבנק ישראל בדרך כלל לא חשוב מתי עליתי ארצה.

בהכנת נתונים למסירה יש להקפיד שלא תהיה אפשרות לקבל את הזהות האמיתית שלי בהצלבת נתונים מבסיסי נתונים שונים, ובמקביל יש לשמור אפשרות לאיחוד הנתונים ובנייה מחדש של קובץ הנתונים הבסיסי, טרום ההתממה.