פרצה בחומת ההַתְממָה

במאמר קודם כתבתי על הפרטיות שנעלמה מחיינו וכיצד אפשר לשמור עליה, חלקית, באמצעות פעולה שנקראת הַתְממָה. אולם הפרטיות ממשיכה להיעלם, ואף למדנו כבר שאין חוק בעולם החופשי המגדיר מהי פרטיות. כלל החוקים דנים תדיר בהפרה של הפרטיות, חדירה לפרטיות וכדומה תוך עקיפה של הגדרת המונח פרטיות.

לשמחתי, קוראים רבים הגיבו למאמר. קראתי את שלל התגובות והחכמתי.

במסגרת עיסוקיי השוטפים אני נחשף לחידושים בתחום, לטכנולוגיות חדשות לצורך התממה וגם, איך אפשר בלי, לניסיונות מתוחכמים להסרת התממה על מידע.

המונח האנגלי לפעולת הסרה זו הוא:De-anonymization.

כאשר כמויות המידע האדירות הנאספות – אותו "מידע עתֵק" (Big Data) וכלי הסינון המתקדמים שלו – משולבות ביצירתיות של המוח האנושי, הן מגלות לנו לפרקים פרצה בחומת ההתממה.

בדומה לנעשה בתחומים אחרים, אפשר לנחש בסבירות גבוהה שככל שנתקדם לאורך ציר הזמן תרבינה הפרצות המתגלות בתחום ובמקביל יגדלו אמצעי ההגנה. טרם נתקלתי במקרה שבו נפרצה באופן גורף התממת בסיס נתונים, אבל בהחלט יש פריצות מקומיות מוצלחות.

יש כיום ויהיו ודאי בעתיד קרבות רבים שיסתיימו בהצלחות מקומיות, אבל אין הכרעה מערכתית.

נוסף על כך, יש לציין כי חלק משיטות הפיצוח אינו חוקי, אבל כידוע יש בעולם גם אנשים רעים ולא כולם מחפשי טובתנו.

לשם הדגמת הכתוב לעיל, חשבו, למשל, על האתרים הרבים המבקשים מאיתנו חוות דעת על מוצר שרכשנו. חלק מאיתנו נענים לבקשה כזו, מפרסמים דעה, פעמים רבות מזדהים בשמנו האמיתי, ללא הסוואת הזהות.

ההצלחות המקומיות מתקבלות כאשר לוקחים את המידע המותמם ומצליבים את נתוניו עם מידע חופשי תוך ניתוח מושכל של התוצאות.

אחת הדוגמאות הידועות יותר (איננה חדשה) הוצגה על ידי חוקרים באוניברסיטת אוסטין, טקסס, שהצליחו לזהות כמה מידעים חלקיים מתוך סקר שנערך על ידי Netflix ונתוניו הותממו כדי למנוע זיהוי המשתמש הבודד. הסקר העלה נתונים שסופקו על ידי לקוחות נטפליקס שצפו בסרטים ודירגו אותם. מובן שנטפליקס יודעת מי המדרג – הוא מנוי ומשלם כסף עבור זכות הצפייה בסרטים.

החוקרים פנו אל בסיס הנתונים באתר IMDB, שהוא בסיס נתונים גדול וידוע שבו הצופים מדרגים את הסרטים, מוסיפים טקסט וכותבים את שמם, לרוב את שמם האמיתי בצורה שיכולה להביא לזיהוי.

החוקרים סרקו את נתוני אתר IMDB תוך ביצוע עבירה על תקנות האתר האוסרות סריקה כזו, השוו את הממצאים, כולל חתימות זמן עם אלו שפורסמו על ידי נטפליקס, והצליחו בעזרת סינון ארוך למצוא כמה זהויות אמיתיות של מגיבים.

ככל שהטכנולוגיה מתקדמת, מתקרבים אל היומיום שלנו מחשבי הקוואנטום המביאים איתם קפיצת ענק במהירויות טיפול במידע עתק, וגם במהירויות סינון אותו מידע, משך הזמן הנדרש לעבודת הזיהוי ילך ויקטן.

חלק מאיתנו אינו רואה כל בעיה בחשיפה כזו – שהצופה באתר הסרטים מגיב בשמו או בכינוי מוכר, מדוע צריך להיזהר מחשיפה כזו? הבעיה מחריפה מאוד במקום שבו חשיפה כזו יכולה להגיע ממיזוג מידע בבסיס נתונים רפואי, למשל, עם מידע שפורסם ברשת חברתית.

בכל מקרה, לפני שאנחנו מקבלים החלטה לחזור לגור במערה כדי לשמור על פרטיותנו, צריך לזכור שעדיין אין כאן חשיפה מוחלטת של בסיס נתונים, אלא פרצות שבדרך כלל נובעות מהרצון האנושי לחשיפה ולמסירת פרטים.