88-165 תשעב סמסטר ב/תקצירי הרצאות

תקצירי הרצאות

הרצאה ראשונה

(פרק 1, סעיף 1.2).

כל נתון סטטיסטי משמעותי אפשר לתאר על-ידי משתנים סטטיסטיים. נגענו קלות בטיפוסים של משתנים (משתנה איכותי, שבו אפשר רק לתאר את ההתפלגות; משתנה אורדינלי, שבו יש משמעות לסדר אבל לא לערך המספרי; משתנה אינטרוולי שבו יש משמעות גם להפרש המספרי, ומשתנה מנתי שבו יש בנוסף גם משמעות ליחס בין ערכים). דיברנו על הצגה גרפית של נתונים והנטיה הלא מוסברת של עורכי עיתונים להטעות באמצעותה.

למדנו כמה מדדי מרכז: ממוצע, שכיח, חציון, אמצע הטווח; וכמה מדדי פיזור: סטיית התקן, הטווח, הטווח הבין-רבעוני.

לצורך השוואה בין שני משתנים הצגנו את מקדם המתאם, שערכו תמיד בין 1 ל- 1-. כשהמשתנים בלתי תלויים, מקדם המתאם שלהם קרוב לאפס ("קרוב" ולא "שווה" משום שמדובר במדגם אקראי ולא באוכלוסיה כולה).

הרצאה שניה

(סעיף 1.3 - קומבינטוריקה).

מספר הדרכים לסדר n עצמים שונים בשורה הוא [math]\displaystyle{ \,n! }[/math]. מספר תת-הקבוצות של קבוצה בגודל n הוא [math]\displaystyle{ \ 2^n }[/math]. מספר תת-הקבוצות בגודל k של קבוצה בגודל n הוא המקדם הבינומי n-מעל-k. זהו מספר הדרכים לבחור בלי החזרה, כשאין חשיבות לסדר. את המקדם הבינומי אפשר להכליל ל"מקדם מולטינומי", הסופר כמה דרכים יש לפרק קבוצה בגודל n לתת-קבוצות בגדלים [math]\displaystyle{ \ k_1,\dots,k_t }[/math], כאשר סכום הגדלים שווה ל-n.

כשיש חשיבות לסדר, מספר הדרכים לבחור k עצמים עם החזרה, מתוך n, הוא החזקה [math]\displaystyle{ \ n^k }[/math]. מספר הדרכים לבחור בלי החזרה הוא [math]\displaystyle{ \ n(n-1)\cdots (n-k+1) }[/math] (מה קורה אם k>n?). מספר הדרכים לבחור k עצמים מתוך n, עם החזרה, כשאין חשיבות לסדר, שווה למספר הפתרונות החיוביים למשוואה [math]\displaystyle{ \ x_1+\cdot+x_k=n }[/math], שהוא המקדם הבינומי n+k-1 מעל n (זהו למעשה מספר ההתפלגויות האפשריות, עם x_i עצמים מסוג i).

למדנו (והוכחנו) את עקרון ההכלה וההדחה, [math]\displaystyle{ \ |A_1 \cup \cdots \cup A_t| = \sum_{i=1}^{t} (-1)^{i-1} \sum_{I \subseteq \{1,\dots,t\}, |I|=i} \bigcap_{i\in I}A_i }[/math].

הרצאה שלישית

(סעיף 2.1 - מרחבי הסתברות בדידים)

הגדרנו: מרחב הסתברות הוא זוג סדור, הכולל את קבוצת המצבים (שהיא סופית או בת-מניה), ופונקציה מהקבוצה הזו למספרים הממשיים שסכום כל ערכיה הוא 1. תת-קבוצות של מרחב ההסתברות נקראות "מאורעות". את הפונקציה [math]\displaystyle{ \ P : \Omega \rightarrow \mathbb{R} }[/math] אפשר להמשיך לפונקציה [math]\displaystyle{ \ P : \mathbb{P}(\Omega) \rightarrow \mathbb{R} }[/math], המוגדרת על כל המאורעות. לערך [math]\displaystyle{ \ P(A) }[/math] קוראים "ההסתברות של A". פונקציה זו מקיימת שתי תכונות חשובות: ההסתברות של המרחב כולו היא 1; וההסתברות של איחוד זר של מאורעות שווה לסכום ההסתברויות. את התכונה האחרונה הוכחנו במפורש, על-ידי חסימת ההפרש בין שני הסכומים בכל אפסילון חיובי.

תרגמנו את עקרון ההכלה וההדחה לשפת ההסתברות.

הגדרנו הסתברות מותנית [math]\displaystyle{ \ P(A|B) }[/math] והוכחנו את נוסחת ההסתברות השלמה.

הרצאה רביעית

פתרנו את "בעיית המזכירה המבולבלת" בעזרת עקרון ההכלה וההדחה. הגדרנו מאורעות בלתי תלויים, והוכחנו כמה תכונות שקולות. הגדרנו אי-תלות משותפת של כמה מאורעות, והראינו שאי-תלות משותפת של שלושה מאורעות חזקה ממש מאי-תלות של כל זוג בנפרד.

הרצאה חמישית

הגדרנו משתנה מקרי, כפונקציה (כלשהי) ממרחב הסתברות בדיד (כלשהו) אל המספרים הממשיים. כדי לתאר משתנה מקרי X יש לדעת את ההתפלגות שלו, כלומר הפונקציה המתאימה לכל a את ההסתברות [math]\displaystyle{ \ P(X=a) }[/math]. ראינו שאם מפעילים פונקציה על משתנה מקרי, מתקבל משתנה מקרי חדש, שאפשר לחשב את ההתפלגות שלו מן ההתפלגות של המשתנה הראשון.

טיפלנו בהתפלגות משותפת של זוג משתנים מקריים X,Y (המוגדרים על אותו מרחב הסתברות), שהיא הפונקציה המתאימה לכל a,b את ההסתברות [math]\displaystyle{ \ P(X=a,Y=b) }[/math]. מן ההתפלגות המשותפת אפשר לשחזר את ההתפלגות של כל משתנה בנפרד. לסיכום הגדרנו מתי שני משתנים מקריים הם בלתי תלויים: אם לכל a,b מתקיים [math]\displaystyle{ \ P(X=a,Y=b) = P(X=a)P(Y=b) }[/math].

הרצאה שישית

הגדרנו את התוחלת של משתנה מקרי - מעין ממוצע משוכלל (וגם משוקלל) של הערכים שהמשתנה יכול לקבל. אם הנקודות של המרחב הן בעלות אותה הסתברות ("התפלגות אחידה"), אז התוחלת שווה לממוצע של ערכי המשתנה. התוחלת היא הומוגנית (ממעלה ראשונה) ואדיטיבית: [math]\displaystyle{ \ E(X+Y)=E(X)+E(Y) }[/math], וזאת לכל שני משתנים מקריים. תכונה חשובה זו מאפשרת לחשב תוחלות באמצעות פירוק המשתנה לסכום של משתנים פשוטים יותר, כגון משתנים מציינים של מאורעות במרחב.

אם X,Y שני משתנים מקריים, X|Y=b (קרי "X בהנתן Y=b") הוא משתנה מקרי, שההתפלגות שלו תלויה בערך של b. אפשר לקצר ולומר ש-X|Y הוא משתנה מקרי, שההתפלגות שלו תלויה ב-Y. למשתנה הזה יש תוחלת, (E(X|Y, שהיא פונקציה של Y. הוכחנו את חוק התוחלת החוזרת [math]\displaystyle{ \ E(E(X|Y))=E(X) }[/math].

הרצאה שביעית

כדי לנתח את התוחלת של מכפלות, הגדרנו את השונות המשותפת של שני משתנים: [math]\displaystyle{ \ Cov(X,Y) = E(XY)-E(X)E(Y) }[/math]. זוהי פונקציה סימטרית, הומוגנית ואדיטיבית בשני הרכיבים. אם X,Y בלתי תלויים, אז מחוק התוחלת החוזרת נובע ש- [math]\displaystyle{ \ E(XY)=E(E(XY|Y))=E(YE(X|Y))=E(YE(X))=E(X)E(Y) }[/math], כלומר, השונות המשותפת שלהם היא אפס. משתנים כאלה נקראים בלתי מתואמים (כל שני משתנים בלתי תלויים הם בלתי מתואמים, אבל ההיפך נכון רק במקרה המיוחד שבו כל אחד משני המשתנים יכול לקבל רק שני ערכים).

השונות של משתנה מקרי X מוגדרת כשונות המשותפת שלו עם עצמו: [math]\displaystyle{ \ V(X)=Cov(X,X)=E(X^2)-E(X)^2=E((X-E(X))^2) }[/math]. זהו גודל חיובי, השווה לאפס רק אם המשתנה קבוע (בהסתברות 1). השונות היא פונקציה הומוגנית (מדרגה 2). כאנלוגיה לחוק התוחלת החוזרת, הוכחנו את נוסחת פירוק השונות: [math]\displaystyle{ \ V(X)=V(E(X|Y))+E(V(X|Y)) }[/math].

הרצאה שמינית

למדנו את ההתפלגויות (הבדידות) הקלאסיות:

ההתפלגות האחידה על המספרים [math]\displaystyle{ \ 1,2,\dots,n }[/math], שאותה מסמנים בסימון [math]\displaystyle{ \ X \sim U[1,n] }[/math]. למשל, הערך שמתקבל מזריקת קוביה הוגנת מתפלג [math]\displaystyle{ \ U[1,6] }[/math], ואילו ספרה אקראית X מקיימת [math]\displaystyle{ \ X+1 \sim U[1,10] }[/math]. התוחלת של משתנה כזה היא [math]\displaystyle{ \ \frac{n+1}{2} }[/math], והשונות [math]\displaystyle{ \ \frac{n^2-1}{12} }[/math].
התפלגות ברנולי: [math]\displaystyle{ \ X \sim b(p) }[/math], שבה X מקבל רק את הערכים 0 (בהסתברות q=1-p) או p. התוחלת שווה לפרמטר p, והשונות היא pq. כל משתנה מקרי המקבל רק שני ערכים אפשר להביא (על-ידי העתקה לינארית) לצורה כזו. לדוגמא, אם X מקבל את הערכים אחד ומינוס אחד, אז [math]\displaystyle{ \ Y = \frac{X+1}{2} \sim b(p) }[/math] עבור p מתאים.
התפלגות בינומית: [math]\displaystyle{ \ X \sim Bin(n,p) }[/math] היא ההתפלגות של המשתנה הסופר כמה הצלחות יש בסדרה של n "ניסויי ברנולי" (ניסויים בלתי תלויים, שהסיכוי להצלחה בכל אחד מהם הוא קבוע, p). התוחלת של משתנה כזה היא np, והשונות npq (ההוכחה הקלה ביותר היא דרך משתנים מציינים).
התפלגות פואסון: [math]\displaystyle{ \ X \sim P(\lambda) }[/math], המוגדרת כך ש-[math]\displaystyle{ \ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!} }[/math]. התוחלת והשונות הן [math]\displaystyle{ \ \lambda }[/math]. התפלגות זו מופיעה כקירוב להתפלגות בינומית (אם [math]\displaystyle{ \ X \sim Bin(n,p) }[/math], ו-n גדול, אז בקירוב טוב [math]\displaystyle{ \ X \sim P(np) }[/math]), וגם בספירת תופעות לאורך זמן. את עניין ספירת התופעות לאורך זמן נסביר כשנלמד את ההתפלגות המעריכית (הרציפה).
התפלגות גאומטרית: [math]\displaystyle{ \ X \sim G(p) }[/math] היא ההתפלגות של מספר הניסויים שיש לערוך עד להצלחה ראשונה (בסדרה של ניסויי ברנולי). הערך של משתנה זה אינו חסום, אם כי ההסתברות לערכים גדולים הולכת ודועכת (בקצב מעריכי). ההתפלגות הגאומטרית מיוחדת בתכונת חוסר הזכרון שלה: הידיעה שכבר נכשלו k ניסויים אינה מקרבת (ואינה מרחיקה) את ההצלחה הראשונה שתבוא.
התפלגות "בינומית שלילית": מספר הניסויים שאפשר לבצע (בסדרת ניסויי ברנולי) עד לכשלון ה-k. הפרמטרים הם k וההסתברות הקבועה, p.
התפלגות היפרגאומטרית: ההתפלגות של מספר הכדורים האדומים שמתקבלים כשמוציאים n כדורים (ללא החזרה!) מכד שבו A כדורים אדומים ו-B כדורים כחולים.

הרצאה תשיעית

בין ההתפלגויות השונות יש קשרים רבים, גם מעבר למובן מאליו (משתנה בינומי מוגדר כסכום של n משתנים מקריים ברנוליים בלתי-תלויים; משתנה "בינומי שלילי" אפשר להגדיר כסכום של משתנים מקריים גאומטריים). למשל:

אם X,Y משתנים בינומיים בלתי תלויים עם אותו p (אבל n-ים שונים), אז X+Y בינומי (עם אותו p), משום שהוא סופר את כל ההצלחות בסדרה ראשונה ואחר-כך בסדרה שניה של ניסויים.
אם X,Y משתני פואסון ב"ת, סכומם פואסוני (עם תוחלת השווה לסכום התוחלות, מה שאפשר לתרגם לחישוב הפרמטר, שהוא סכום הפרמטרים של X,Y).
במקרה הקודם, ההתפלגות של X בהנתן X+Y היא בינומית.
אם N הוא מספר ההתפרקויות של חלקיקים רדיואקטיביים במבחנה לאורך 25 דקות (משתנה פואסוני), ו-X הוא מספר ההתפרקויות שבהן התוצרים פגעו בלוחית המדידה (תופעה שהסיכוי לה הוא p, כלומר X בהנתן N מתפלג בינומית), אז X הוא משתנה פואסוני.
אם X,Y משתנים מקריים גאומטריים, אז ההתפלגות של X בהנתן X=Y היא עדיין גאומטרית (הראו כמה קל למצוא את הפרמטר אם העובדה הזו על התפלגות X בהנתן X=Y ידועה!)

דוגמאות חשובות אחרות מתקבלות משאיפה לגבול.

כאשר X מתפלג בינומית ו-n גדל תוך שהמכפלה np נשארת קבועה, ההתפלגות הולכת ומתקרבת להתפלגות פואסון עם הפרמטר np.
בהתפלגות היפרגאומטרית, אם מגדילים את A,B תוך שמירה על היחס A:B, התהליך הולך ונעשה דומה לדגימה עם החזרה (משום שכשיש בכד המוני כדורים, ממילא הסיכוי לחזרה על אותו כדור הוא זניח), ואז המשתנה ההיפרגאומטרי נעשה בקירוב בינומי.

הרצאה עשירית

מעבר להתפלגויות הקלאסיות, חשוב לדעת גם לטפל בתופעות שבהן חישוב ישיר הוא מסובך או בלתי אפשרי, כדי לקבל קירוב להתנהגות שלהן. בחנו מקרוב את הדוגמא המפורסמת של "פרדוקס יום ההולדת": הסיכוי שבין 23 אנשים יהיו שניים שנולדו באותו יום בשנה הוא מעט יותר מחצי, למרות ש-23 "הרבה יותר קטן" מ-365. ההסבר הוא בחישוב הסיכוי לכך שאין התנגשויות בבחירה אקראית של ימי ההולדת: מתברר שהסיכוי הזה יורד בקצב קרוב ל- [math]\displaystyle{ \ exp(-\frac{n^2}{2K}) }[/math] כאשר n הוא מספר האנשים (כאן 23) ו-K גודל המרחב שבו הם בוחרים.

בדרך כלל קל יותר לחשב תוחלות מאשר הסתברויות (במיוחד אם מדובר במשתנה שאפשר לפרק לסכום של משתנים מציינים רבים). גם לגבי ימי הולדת, קל לחשב שתוחלת מספר ההתנגשויות (כלומר, זוגות של אנשים שנולדו באותו יום) היא [math]\displaystyle{ \ \frac{n(n-1)}{2K} }[/math], כך שמספר ההתנגשויות עולה באופן ריבועי עם מספר האנשים, וכאשר n הוא מסדר הגודל של [math]\displaystyle{ \ \sqrt{K} }[/math] אפשר כבר לצפות להתנגשויות. דיברנו גם על המשתנה של זמן ההמתנה (להתנגשות הראשונה), שגם התוחלת שלו - שאותה לא חישבנו - פרופורציונלית לשורש גודל המרחב.

את הנימוקים האלה אפשר להפוך על ראשם כדי להעריך את גודל המרחב (כשזה אינו ידוע). אם המחשב בוחר מספרים באקראי ואחרי 979 צעדים מופיע לראשונה אותו מספר בפעם השניה, סביר להעריך שגודל המרחב הוא כ- 979 בריבוע, היינו כמליון.

טכניקת הפירוק לסכום של משתנים מציינים מאפשרת לתאר את המבנה של גרף מקרי (שבו יש n קודקודים, וכל אחת מ-n-מעל-2 הקשתות הפוטנציאליות מתממשת בהסתברות p, באופן בלתי תלוי).

הרצאה אחת-עשרה

הכנה לרציף.