המלך עירום – אלגוריתם החיפוש

28 אפריל 2006

(אם לא קראת – מבוא לסדרה "המלך עירום – Google והאכזבה")

 

אם יש דבר אחד שכולם יודעים לגבי Google הוא שאין להתווכח על איכות תוצאות החיפוש. הילה אופפת את "הנוסחה הסודית" של אלגוריתם החיפוש, בדומה לסיפורי האגדה על יודעי הסוד של קוקה-קולה.
אני שואל – מתי בפעם האחרונה חיפשת במנוע חיפוש אחר? האם האלגוריתם טוב כמו שנדמה לך?

 

כמו שכבר כתבתי בעבר, אני חושב שההצלחה הראשונית של גוגל לא נובעת בהכרח מאיכות התוצאות, אלא יותר מהממשק הפשוט והנקי של עמוד הכניסה ושל תוצאות החיפוש. מאז ימי ההצלחה הראשונית – שנדמה כאילו היתה לפני עידנים – גוגל הפכו לברירת המחדל של מנועי החיפוש. אף אחד כמעט לא חושב פעמיים לאיזה מנוע לפנות כדי לחפש. ואם בדפדפן שלך יש אפשרות להגדיר את מנוע החיפוש – כולם מגדירים את גוגל.
יתרה מכך – כאשר רובנו מחפשים בגוגל, אנחנו ממשיכים לנבור גם לעמוד חמישי, שישי, ואף הרבה יותר, אם לא מצאנו את מה שחיפשנו. לא חושבים לנסות מנוע חיפוש אחר. ואם לא מוצאים גם אחרי עמוד 20, אומרים "אני לא מצליח למצוא. כנראה שאין", במקום לחשוב "גוגל לא מצליח למצוא. בוא ננסה מישהו אחר".

שתי אמירות עוטפות את אלגוריתם החיפוש בהחלטיות: שהוא הכי אמיתי ומדוייק שיש, ושאי אפשר לבצע בו מניפולציות. אין קוּנצִים (מת על המילה הזאת). אני רוצה להביא כאן שתי דוגמאות, שלא באות בהכרח להגיד שהכל שטויות, אבל לעורר בך ספק לגבי הנחות היסוד:

 

גוגל מוצא הכל – האמנם?

חלקכם בוודאי שמעתם על תוכנת Paint.net. זו תוכנה די חדשה לעיבוד תמונה, בסגנון Photoshop, אשר פותחה באוניברסיטת וושינגטון בחסות מיקרוסופט.
כשחבר שלי שאל לגבי עיבוד תמונה, זרקתי לעברו "חפש paint.net". הכי פשוט.
חיפש (נחשו איפה), וזה מה שמצא. תוצאה אחת בלבד, לחלוטין לא רלוונטית.
מיד הוא הרים אלי טלפון ואמר "אין. לא מוצא". העלבתי אותו כשווידאתי שהוא מאיית נכון, אבל לא. הכל תקין ואין תשובה.
הגעתי הביתה, ובדקתי לבד. צודק. לא מופיע בגוגל! תחפש ב-Yahoo – תמצא. תחפש בוואלה – תמצא. תחפש ב-altavista הישן – תמצא. רק לגוגל לא נשאר. הלך, הלך, הלך… (אגב – גם ב-live.com לא תמצא).

והנה משהו עוד יותר אבסורדי – חפש את paint.net 2.6 (שזו הגרסה האחרונה) – בינגו! עשרות אלפי תוצאות, כמעט כולן בנושא! איך זה ייתכן שאני ממקד את החיפוש ומקבל פתאום כל כך הרבה תוצאות? זה לא אמור להיות הפוך?

האמת שיש הסבר טכני לכל הסיפור הזה, שקשור באלגוריתם החיפוש והניסוח, אבל את חבר שלי התירוץ לא מעניין ממש. הוא פשוט לא מצא.

 

אי אפשר לתחמן את גוגל – האמנם?

לפני מספר שנים, פיתחתי עבור ידידה אתר שעמוד הבית שלו מבוסס פלאש. הזהרתי את אותה ידידה שגוגל יתקשה לקרוא את הפלאש (היום הוא כבר יודע יותר טוב) ולכן לא יצליח להגיע לעמודים הפנימיים, אך היא לא רצתה לוותר על החוויה הפלאשית.

בכדי לעזור לגוגל לקרוא את התוכן הנמצא בתוך הפלאש , הכנתי עמוד טקסט פשוט, עם כל הלינקים בצורה הכי יבשה וסטנדרטית, ללא עיצוב בכלל. שילבתי קוד המזהה את הרובוט של גוגל, ומגיש לו את העמוד הטקסטואלי במקום את גרסת הפלאש. במיוחד בשבילו. ממש האכלתי אותו בכפית.
תוך זמן לא רב הצלחתי למצוא את העמוד הזה בגוגל. זיהיתי ממש את הניסוחים שהופיעו בעמוד הטקסטואלי. המשתמש הרגיל כמובן לא רואה את העמוד הזה. יופי טופי.

אחרי תקופה, גיליתי שזו נחשבת לעבירה של ממש בעיני גוגל , ושאפילו יש לעבירה הזו כינוי – זה נקרא "הסוואה" (Cloaking) או Doorway pages. למרות שזה נעשה בתמימות מלאה מצידי – מובן שזו עבירה. הרי זו דרך להציג דבר אחד במנוע החיפוש ודבר אחר בתוכן האתר. זה עשוי להטות לחלוטין את אמינות התוצאות!

לפי מה שלמדתי, גוגל יודע לזהות את הרמאות הזו, והוא מוחק את האתרים המרמים מרשימותיו. בפועל – האתר של ידידתי חי במשך זמן מה במקום מכובד בתוצאות. כיוון שהחלטתי להימנע מסכסוך עם אלוהים שיניתי את השיטה וברחתי מארץ. אני לא יודע אם האתר לא היה חי טוב עד עצם היום הזה אם לא הייתי משנה דבר.

 

לפני כ-3 חודשים קרה דבר דומה ל-BMW גרמניה. האתר השתמש באותה שיטת רמאות, אך לפי הפרסומים הוא הוסר מרשימותיה של גוגל, או שגוגל דירג אותם אי שם בקרקעית. משהו כזה. גם לאחר שהם חזרו למוטב – גוגל לא וויתרו על העונש. לאחר פניות מטעם BMW, הוחלט במשרדי גוגל לוותר להם. רק שעכשיו קשה למצוא את BMW גרמניה בגלל שכל תוצאות החיפוש עוסקות בנושא הרמאות והעונש…

סיפור זה מעלה שתי שאלות, בדיוק בשני הנושאים שאני עוסק בהם כאן:

1) אם גוגל משנים את הדירוג של אתרים המנסים לפגוע באמינות התוצאות – זה לא פוגע באמינות התוצאות?

2) אם גוגל מוותרים כל כך בקלות (אולי מחשש שמא יפגעו באמינות התוצאות) – לך תדע כמה רמאים מסתובבים להם בראש התוצאות ולוקחים את הסיכון שירדו מהרשימות למשך שבוע-שבועיים במקרה שייתפסו.

 

 

 

 

תגובות

מאת מנשה:

האמנם?
"אני חושב שההצלחה הראשונית של גוגל לא נובעת בהכרח מאיכות התוצאות, אלא יותר מהממשק הפשוט והנקי של עמוד הכניסה ושל תוצאות החיפוש"
זו בהחלט טענה לא נכונה. בתקופה בה גוגל יצא לא היתה לו תחרות קרובה אפילו. מנועים כמו exhite, yahoo, ואחרים לא דגדגו את קצה יכולת החיפוש שלו.

נכון להיום, הסיפור השתנה. איני יודע מה רמת המנועים המתחרים כי מזמן כבר הפסקתי לנסות (חוץ מבנסיבות יוצאות דופן) כיוון שאני מוצא כמעט הכל בגוגל.

מאת Moon:

ללא נושא
כמשתמשת גוגל ותיקה מאד מאד, אני מגלה פיספוסים ואי דיוקים בתוצאות החיפוש של גוגל (הדבר הרבה יותר צורם שלא לאמר מבהיל בגוגל-עברית) ולעיתים את התוצאות המיוחלות והמבוקשות מוצאת דחוקות לדפים האחרונים של תוצאת החיפוש.ץ
אני לא מתכנתת, ולא מבינה ובקיאה באלוגריטמים, אבל אינטואיטיבית אני מרגישה על בשרי שמשהו בגוגל השתנה ולא לטובה.

מאת חנן כהן:

יש משהו שאף אחד לא מדבר עליו
גוגל היו הראשונים שהחיבור בין מונחי החיפוש היה AND ולא OR.

זאת אומרת, ככל שתחפש יותר מלים, תמצא פחות תוצאות.

בעוד שבמנועי החיפוש שלפניו, החיבור היה OR. ככל שתחפש יותר מלים, תקבל יותר תוצאות.

מאת אין ספק:

חנן, האם אתה בטוח?
עד כמה שאני יודע, חיפוש AND מתבצע רק כשמוסיפים גרשיים לשאילתא, ושבכל המקרים האחרים החיפוש הוא OR. אבל יכול להיות שאני טועה.

מאת noamt:

"אין ספק" שאתה טועה
כשאתה מחפש כמה מלים, תמיד מתבצע AND ביניהן. חיפוש של [אלף בית] ימצא רק עמודים עם שתי המלים, איפשהו בעמוד.

לעומת זאת חיפוש של ["אלף בית"] ימצא רק עמודים שיש בהם את הצירוף "אלף בית" – לא "בית אלף" ולא "אלף גימל בית".

לכל אלה יש יוצאים מהכלל. למשל, חיפוש של [miserable failure] מביא לעמוד שכלל לא מופיעות בו המלים האלה.

נועם.

מאת noamt:

בטח שאפשר לתחמן את גוגל
יש אנשים שמתפרנסים מזה. אני לא יודע מה בדיוק הם עושים, אבל זה די ברור שהם מתחמנים. אחרת לא ברור מדוע פעמים רבות מחפשים משהו ומגיעים (בתוצאה הראשונה!) לכל מיני אתרים שיש בהם רק הפניות לאתרים אחרים – אתרים שברור שהם לא האיכותיים ביותר לחיפוש המבוקש.

בגוגל עושים הרבה כדי להלחם בזה, בינתיים בהצלחה מוגבלת. אבל חלק מהשירותים שהם נותנים בחינם למעשה נועדו לתת למנוע שלהם מידע נוסף. למשל, Google Analytics, שנותן לבעל האתר סטטיסטיקות: די ברור (לי לפחות) שהם משתמשים במידע הנצבר כדי לדעת לאיזה אתרים הגולשים *באמת* מגיעים.

אני מאחל להם הצלחה, אבל מצטרף לקריאה של אייל – יש גם מנועים אחרים. למשל יאהו לא רק בכלל.

נועם.

מאת איתי:

באשר לעצוב הגוגלאי
הרי קטע קטן שהעתקתי מתוך ידיעה: http://ittays.blogspot.com/200….gle-results-more-relevant.html

הטענה היא שיותר משהממשק של גוגל פשוט וענייני, הרי שבעצם המותג 'גוגל' נתפס ככזה.

מאת מרק ק.:

על תקן שירות לציבור
http://www.google.com/search?q=bmw.de

http://news.ft.com/cms/s/55ada….21-11da-82b7-0000779e2340.html

מאת י:

המלך עירום?
לא קצת מוגזם?
המלך הוא המלך הנבחר בבחירות הכי חופשיות שיש
מותר לרונלדיניו להחמיץ פנדל
זה לא עושה אותו שחקן פחות טוב (רק קצת – ובטח לא כזה שרץ עירום על המגרש)
חלק ניכר מההצלחה של גוגל טמון לאו דוקא באיכות המוצר אלא מהדרך בה הוא מוגש, לא פחות חשוב ומי כמוך אמור להעריך את זה
זה נכון על כל אחת ואחת מהאפליקציות של גוגל שאחרי שהן יצאו תמיד נראה כאילו רק ככה ניתן להגיש אותן
גוגל הם מקור להשראה וחיקוי לכל מי שעוסק בווב
בעולם
כולם אמרו "פשוט" גם קודם, אף אחד לא הצליח לעשות

מאת איל שחר:

רונלד-מי?
מצאת עם מי לדבר על כדורגל…
מותר לרונלדיניו להחמיץ פנדל, וזה בהחלט עושה אותו לשחקן פחות טוב (מאשר אם הוא לא היה מחמיץ לעולם). אבל תן לי רגע לצאת מעולם הכדורגל כי האנלוגיה לא מתאימה.
בעולם הטכנולוגיה בכלל ובווב בפרט – מה שעשית טוב לפני שנתיים, לא רלוונטי היום. גוגל חייבים להבין שמוצרים שהם בגדר "בסדר" לא ממש עוזרים לתדמית שלהם. זה כמו תלמיד שמקבל מאיות בכל המבחנים, ופתאום ציון 95 מוריד לו את הממוצע.
ובמקרה אתה מגיב לפוסט ספציפי שהכי פחות בא בטענות אל גוגל מבין שאר הפוסטים בסדרה. הוא בא בטענות למשתמשים המקובעים, ואני ביניהם.

מאת י:

ללא נושא
מי שלא מחמיץ פנדל הוא זה שאף פעם לא בועט אותם ומי שלא מכיר את רונלדיניו הוא זה שהחליט לוותר על התרבות המרכזית של זמננו
אני מסכים איתך שבשביל גוגל 95 זה לא מספיק (הם רגילים לקבל 100)
אני בסך הכל אומר שכאשר הם מקבלים 95 ואני שמח שאנחנו מסכימים על הציון ועל כך שבדרך כלל הם
מקבלים 100 זה עדיין לא הופך את המלך לעירום
אני מגיב בפוסט זה לכל הסדרה

מאת נו באמת:

ולמה שלא תחשוב רגע לפני שאתה כותב?
ביקשת מגוגל לחפש לך כתובת URL
קיימת. גוגל זיהה שזו כתובת קיימת והציע לך דפים המקשרים לאתר, דפים מתוך האתר, או סתם דפים שכוללים את הסטרינג paint.net.

זה בניגוד ליאהו, שלא שם לב בכלל שמדובר ב URL.

אז איפה בדיוק הטעות של גוגל?

אם היית כותב סתם notes.to נניח, גגול היה מזהה שאין מדובר בכתובת אמיתית ומתייחס אליה כסטרינג סתם.

זאת לא הפעם הראשונה שאני רואה שאתה כותב שטויות על גוגל. מה הקטע?

מאת איל שחר:

מישהו עצבני?
אני אתחיל מהסוף – "הקטע" מוסבר בפרק ההקדמה. אני עוד הולך לכתוב הרבה "שטויות" בסדרה. תצא מהקיבעון ותנסה לקרוא באופן אובייקטיבי. אם תחליט שעדיין יש לך תגובה בוגרת ועניינית – אני מאד מאד מאד מזמין אותך להגיב.

לגבי הטענה שלך – אם הייתי יודע את כתובת האתר, לא הייתי צריך את גוגל. המקרה שנתתי כאן הוא מקרה שקרה באמת, והוא דוגמה למצב שבו האלגוריתם לא עובד כמו שאני צריך. תחשוב על מפתח המחפש מידע על asp.net. רק האתר הרשמי של מייקרוסופט רלוונטי?!
העליתי את הנקודה הזו כדי להראות שהאלגוריתם לא תמיד מתאים לצרכים של המחפש, וחוסר השקיפות שלו מביא למצב בו התוצאות משתבשות לחלוטין בגלל הניסוח. לך תדע כמה תוצאות רלוונטיות פיספסת בלי לדעת.