זו לא האיכות, זו הכמות

3 אוגוסט 2005

אני מדמיין את עצמי, בעוד 10 שנים ממלמל לדור הבא "האינטרנט הזה, זה משהו. יש בו הכל!". מה לעשות – זה נכון. ולא רק הכל – גם הרבה מכל דבר. אם נצא מנקודת הנחה שהרוב לא טועה, אפשר לנצל את כמויות המידע העצומות כדי להגיע למסקנות ע"י סטטיסטיקה בלבד.

 

מה שנכון לרוב – לרוב נכון

שני מקרים, לקוחים מהמציאות, לשימוש בתאוריה.

ביצה מספר אחת: האם הגודל של באנר סטנדרטי הוא 60 על 468 פיקסלים, או 486?
- שאלה מצוינת! טוב ששאלתי.
- תודה.
-  אפשר כמובן לחפש אם יש עוד מי שמפרסם באנר "סטנדרטי", לצלם את המסך, ולמדוד. ואפשר גם לחפש במנוע חיפוש ("ולא משנה איזה…") שתי אפשרויות: האחת באנר 468 60. השנייה באנר 486 60.
אולי חוק המספרים הגדולים לא לגמרי תקף בכמות תוצאות שכזו, אבל היחס הקיצוני בין שני החיפושים מרמז על התשובה, עוד לפני שמעיפים מבט לתיאור התוצאות.

ביצה מספר שתיים: איך מאייתים יורית'מיקס בלי 7 שגיאות?
כאן זה קצת יותר מעניין. אם לא היה לך תקליט שלהם להסתכל עליו לפני עשרים שנה – יש לך בראש יותר משתי אפשרויות. זה עם t או עם th? זה mix או mics? זה y ראשון והשני i? או להפך? או ששניהם i?
במקרה שלנו, גוגל לא יודע להציע את התיקון האוטומטי Did you mean. אז מתחילים במשחק חם קר. קודם כותבים מה שנראה לך. כל פעם משנים משהו, ורואים אם המספר עולה או יורד.

הנחת היסוד היא לא רק שהרוב צודק, אלא שגם מבין אלו שטועים – הרוב טועה בפחות שגיאות. אני מקווה בשבילם, לפחות. וזה לא משנה אם התוצאה הראשונה מבין תוצאות הטעות שלי מגיעה מאתר allmusic או Yahoo Music (לשעבר Launch). הכמות פחות רגישה לטעויות.

 

איך ייתכן שלא חשבו על זה קודם?

באמת לא ייתכן. מי אם לא Big-G חשבו על זה קודם? Google Suggest (עדיין בביטא, כבר 10 חודשים בערך.שווה להחליף את הקיצור לגוגל בקיצור לתוסף הזה) מנצלים את  עקרון הפופולריות, העושה נפלאות בחיפוש הסטנדרטי, כדי להגיד לי מה אני מתכוון להגיד.

 

 

תגובות

מאת דימה:

ללא נושא
קצת מסובך מה שרשמת, אולי השעה…אני רק יעלה 2 דברים.

אפליקצית הסטטיסטיקה של יניב
http://www.nastypixel.com/prototype/cms/myfiles/pages/google

והאינדקס של ויקיפדיה
http://www.wikiwax.com

מאת אמיר:

מגניב
מגניב ביותר הלינק הזה, גם האפליקציה חמודה.
תודה.