88-165 תשעב סמסטר ב/תקצירי הרצאות: הבדלים בין גרסאות בדף

מתוך Math-Wiki
 
(7 גרסאות ביניים של אותו משתמש אינן מוצגות)
שורה 52: שורה 52:


ה'''שונות''' של משתנה מקרי X מוגדרת כשונות המשותפת שלו עם עצמו: <math>\ V(X)=Cov(X,X)=E(X^2)-E(X)^2=E((X-E(X))^2)</math>. זהו גודל חיובי, השווה לאפס רק אם המשתנה קבוע (בהסתברות 1). השונות היא פונקציה הומוגנית (מדרגה 2). כאנלוגיה לחוק התוחלת החוזרת, הוכחנו את נוסחת פירוק השונות: <math>\ V(X)=V(E(X|Y))+E(V(X|Y))</math>.
ה'''שונות''' של משתנה מקרי X מוגדרת כשונות המשותפת שלו עם עצמו: <math>\ V(X)=Cov(X,X)=E(X^2)-E(X)^2=E((X-E(X))^2)</math>. זהו גודל חיובי, השווה לאפס רק אם המשתנה קבוע (בהסתברות 1). השונות היא פונקציה הומוגנית (מדרגה 2). כאנלוגיה לחוק התוחלת החוזרת, הוכחנו את נוסחת פירוק השונות: <math>\ V(X)=V(E(X|Y))+E(V(X|Y))</math>.
=== הרצאה שמינית ===
למדנו את ההתפלגויות (הבדידות) הקלאסיות:
# ההתפלגות האחידה על המספרים <math>\ 1,2,\dots,n</math>, שאותה מסמנים בסימון <math>\ X \sim U[1,n]</math>. למשל, הערך שמתקבל מזריקת קוביה הוגנת מתפלג <math>\ U[1,6]</math>, ואילו ספרה אקראית X מקיימת <math>\ X+1 \sim U[1,10]</math>. התוחלת של משתנה כזה היא <math>\ \frac{n+1}{2}</math>, והשונות <math>\ \frac{n^2-1}{12}</math>.
# התפלגות ברנולי: <math>\ X \sim b(p)</math>, שבה X מקבל רק את הערכים 0 (בהסתברות q=1-p) או p. התוחלת שווה לפרמטר p, והשונות היא pq. כל משתנה מקרי המקבל רק שני ערכים אפשר להביא (על-ידי העתקה לינארית) לצורה כזו. לדוגמא, אם X מקבל את הערכים אחד ומינוס אחד, אז <math>\ Y = \frac{X+1}{2}  \sim b(p)</math> עבור p מתאים.
# התפלגות בינומית: <math>\ X \sim Bin(n,p)</math> היא ההתפלגות של המשתנה הסופר כמה הצלחות יש בסדרה של n "ניסויי ברנולי" (ניסויים בלתי תלויים, שהסיכוי להצלחה בכל אחד מהם הוא קבוע, p). התוחלת של משתנה כזה היא np, והשונות npq (ההוכחה הקלה ביותר היא דרך משתנים מציינים).
# התפלגות פואסון: <math>\ X \sim P(\lambda)</math>, המוגדרת כך ש-<math>\ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!}</math>. התוחלת והשונות הן <math>\ \lambda</math>. התפלגות זו מופיעה כקירוב להתפלגות בינומית (אם <math>\ X \sim Bin(n,p)</math>, ו-n גדול, אז בקירוב טוב <math>\ X \sim P(np)</math>), וגם בספירת תופעות לאורך זמן. את עניין ספירת התופעות לאורך זמן נסביר כשנלמד את ההתפלגות המעריכית (הרציפה).
# התפלגות גאומטרית: <math>\ X \sim G(p)</math> היא ההתפלגות של מספר הניסויים שיש לערוך עד להצלחה ראשונה (בסדרה של ניסויי ברנולי). הערך של משתנה זה אינו חסום, אם כי ההסתברות לערכים גדולים הולכת ודועכת (בקצב מעריכי). ההתפלגות הגאומטרית מיוחדת בתכונת חוסר הזכרון שלה: הידיעה שכבר נכשלו k ניסויים אינה מקרבת (ואינה מרחיקה) את ההצלחה הראשונה שתבוא.
# התפלגות "בינומית שלילית": מספר הניסויים שאפשר לבצע (בסדרת ניסויי ברנולי) עד לכשלון ה-k. הפרמטרים הם k וההסתברות הקבועה, p.
# התפלגות היפרגאומטרית: ההתפלגות של מספר הכדורים האדומים שמתקבלים כשמוציאים n כדורים (ללא החזרה!) מכד שבו A כדורים אדומים ו-B כדורים כחולים.
=== הרצאה תשיעית ===
בין ההתפלגויות השונות יש קשרים רבים, גם מעבר למובן מאליו (משתנה בינומי מוגדר כסכום של n משתנים מקריים ברנוליים בלתי-תלויים; משתנה "בינומי שלילי" אפשר להגדיר כסכום של משתנים מקריים גאומטריים). למשל:
* אם X,Y משתנים בינומיים בלתי תלויים עם אותו p (אבל n-ים שונים), אז X+Y בינומי (עם אותו p), משום שהוא סופר את כל ההצלחות בסדרה ראשונה ואחר-כך בסדרה שניה של ניסויים.
* אם X,Y משתני פואסון ב"ת, סכומם פואסוני (עם תוחלת השווה לסכום התוחלות, מה שאפשר לתרגם לחישוב הפרמטר, שהוא סכום הפרמטרים של X,Y).
* במקרה הקודם, ההתפלגות של X בהנתן X+Y היא בינומית.
* אם N הוא מספר ההתפרקויות של חלקיקים רדיואקטיביים במבחנה לאורך 25 דקות (משתנה פואסוני), ו-X הוא מספר ההתפרקויות שבהן התוצרים פגעו בלוחית המדידה (תופעה שהסיכוי לה הוא p, כלומר X בהנתן N מתפלג בינומית), אז X הוא משתנה פואסוני.
* אם X,Y משתנים מקריים גאומטריים, אז ההתפלגות של X בהנתן X=Y היא עדיין גאומטרית (הראו כמה קל למצוא את הפרמטר אם העובדה הזו על התפלגות X בהנתן X=Y ידועה!)
דוגמאות חשובות אחרות מתקבלות משאיפה לגבול.
* כאשר X מתפלג בינומית ו-n גדל תוך שהמכפלה np נשארת קבועה, ההתפלגות הולכת ומתקרבת להתפלגות פואסון עם הפרמטר np.
* בהתפלגות היפרגאומטרית, אם מגדילים את A,B תוך שמירה על היחס A:B, התהליך הולך ונעשה דומה לדגימה עם החזרה (משום שכשיש בכד המוני כדורים, ממילא הסיכוי לחזרה על אותו כדור הוא זניח), ואז המשתנה ההיפרגאומטרי נעשה בקירוב בינומי.
=== הרצאה עשירית ===
מעבר להתפלגויות הקלאסיות, חשוב לדעת גם לטפל בתופעות שבהן חישוב ישיר הוא מסובך או בלתי אפשרי, כדי לקבל קירוב להתנהגות שלהן. בחנו מקרוב את הדוגמא המפורסמת של "פרדוקס יום ההולדת": הסיכוי שבין 23 אנשים יהיו שניים שנולדו באותו יום בשנה הוא מעט יותר מחצי, למרות ש-23 "הרבה יותר קטן" מ-365. ההסבר הוא בחישוב הסיכוי לכך שאין התנגשויות בבחירה אקראית של ימי ההולדת: מתברר שהסיכוי הזה יורד בקצב קרוב ל- <math>\ exp(-\frac{n^2}{2K})</math> כאשר n הוא מספר האנשים (כאן 23) ו-K גודל המרחב שבו הם בוחרים.
בדרך כלל קל יותר לחשב תוחלות מאשר הסתברויות (במיוחד אם מדובר במשתנה שאפשר לפרק לסכום של משתנים מציינים רבים). גם לגבי ימי הולדת, קל לחשב שתוחלת מספר ההתנגשויות (כלומר, זוגות של אנשים שנולדו באותו יום) היא <math>\ \frac{n(n-1)}{2K}</math>, כך שמספר ההתנגשויות עולה באופן ריבועי עם מספר האנשים, וכאשר n הוא מסדר הגודל של <math>\ \sqrt{K}</math> אפשר כבר לצפות להתנגשויות. דיברנו גם על המשתנה של זמן ההמתנה (להתנגשות הראשונה), שגם התוחלת שלו - שאותה לא חישבנו - פרופורציונלית לשורש גודל המרחב.
את הנימוקים האלה אפשר להפוך על ראשם כדי להעריך את גודל המרחב (כשזה אינו ידוע). אם המחשב בוחר מספרים באקראי ואחרי 979 צעדים מופיע לראשונה אותו מספר בפעם השניה, סביר להעריך שגודל המרחב הוא כ- 979 בריבוע, היינו כמליון.
טכניקת הפירוק לסכום של משתנים מציינים מאפשרת לתאר את המבנה של גרף מקרי (שבו יש n קודקודים, וכל אחת מ-n-מעל-2 הקשתות הפוטנציאליות מתממשת בהסתברות p, באופן בלתי תלוי). נניח ש-p הוא פונקציה של n, וש-n שואף לאינסוף. תארנו בהרצאה מה קורה כאשר p הוא כפולה קבועה של <math>\ n^{-2}</math> (בשלב זה יש רק מספר סופי של קשתות), או של <math>\ n^{-3/2}</math> (מספר הקשתות שואף לאינסוף ובגרף יש מסלולים באורך 2, ולא יותר), וכן הלאה. הדרגה של קודקוד מוגדרת כמספר הקשתות שיוצאות ממנו. הדרגה של קודקוד, אם כך, מתפלגת <math>\ Bin(n,p)</math>, וכאשר n גדל אפשר לקרב התפלגות זו לפי התפלגות פואסון <math>\ P(np)</math>. בפרט, הסיכוי לכך שהקודקוד מבודד הוא בקירוב טוב <math>\ \exp(-np)</math>, ולכן תוחלת מספר הקודקודים המבודדים בגרף היא <math>\ n\exp(-np)</math>. אם למשל <math>\ p = \frac{\lambda \log(n)}{n}</math>, אז תוחלת מספר הקודקודים המבודדים היא <math>\ n^{1-\lambda}</math>, מה שמסביר מדוע כאשר <math>\ \lambda < 1</math> מספר הקודקודים המבודדים שואף לאינסוף, וכאשר <math>\ \lambda>1</math> הוא שואף לאפס (והגרף קשיר, למרות שזה דורש כמובן נימוקים נוספים).
=== הרצאה אחת-עשרה ===
כדי לעבור ממשתנים מקריים בדידים לרציפים, עלינו להכליל את מושג מרחב ההסתברות. בעבר טיפלנו במרחבים סופיים או בני-מניה, ואז הגדרנו את ההסתברות של כל נקודה, וממנה יכולנו לחשב את ההסתברות של כל תת-קבוצה. במעבר למקרה הכללי מתברר שהגישה הזו מוכרחה להכשל: אי אפשר לסכם מספר שאינו בן-מניה של ערכים (ולקוות לתוצאה סופית), וגם אי אפשר להגדיר הסתברות בבת-אחת על כל תת-הקבוצות (אפילו של קטע היחידה).
את הפתרון האקסיומטי מצא קולמוגורוב. ראשית, '''סיגמא-אלגברה''' על מרחב <math>\ \Omega</math> מוגדרת כמשפחה של תת-קבוצות, הכוללת את המרחב כולו כאיבר, וסגורה למשלים וללקיחת איחוד בן-מניה. (סגירות לאיחוד סופי אינה מספיקה, וסגירות לאיחוד כלשהו - לאו דווקא בן-מניה - היא דרישה חזקה מדי המקלקלת את כל הדוגמאות המעניינות). '''מרחב הסתברות''' הוא שלשה סדורה, שבה הרכיב הראשון הוא המרחב, השני הוא סיגמא-אלגברה (אבריה נקראים "מאורעות"), והשלישי הוא פונקציית הסתברות, שהיא פונקציה המתאימה מספר חיובי לכל מאורע, ומקיימת שני תנאים: ההסתברות של המרחב כולו היא 1, ואם <math>\ A_1,\dots</math> סדרת מאורעות זרים, אז <math>\ P(\cup A_n) = \sum P(A_n)</math>. החסרון בגישה זו הוא שכאשר הסיגמא-אלגברה אינה כוללת את כל תת-הקבוצות (וכך יהיה בדרך כלל), יהיו קבוצות שלא ניתן לדבר על ההסתברות שלהן. מתברר שהשד הזה אינו נורא כל-כך.
המרחב החשוב ביותר מבחינתנו הוא הישר הממשי, ולכן אנו ניגשים להגדיר סיגמא-אלגברה מסויימת עליו, הנקראת "הסיגמא-אלגברה של בורל". זוהי הסיגמא-אלגברה הקטנה ביותר הכוללת את כל הקרניים <math>\ (-\infty,a]</math>. מתברר שהיא כוללת את הקרניים מכל הסוגים, את הקטעים הפתוחים מכל הסוגים, נקודות, סדרות של נקודות, קבוצות כמו <math>\ \cdots (-3,-2) \cup (-1,0) \cup (1,2) \cup \cdots</math>, ועוד ועוד. עם הסיגמא-אלגברה הזו, נוכל לחשב את ההסתברות של מאורעות כמו <math>\ X\leq a</math> (ולכן גם מאורעות כמו <math>\ a<X<b</math> וכדומה) לכל משתנה מקרי X.
=== הרצאה שתים-עשרה ===
לכל משתנה מקרי אפשר להגדיר את פונקציית ההצטברות <math>\ F_X(t) = P(X\leq t)</math>. זוהי פונקציה מונוטונית עולה (במובן החלש), שואפת לאפס במינוס אינסוף ולאחד באינסוף, ורציפה מימין. גם בכיוון ההפוך, כל פונקציה כזו מאפשרת להגדיר משתנה מקרי על-פי ההסתברויות שלו ליפול בקטעים או בקרניים. באופן מעשי, פונקציית ההצטברות נותנת תאור מלא של המשתנה.
קבוצת נקודות אי-הרציפות של פונקציית הצטברות היא (לכל היותר) בת מניה. פונקציית ההצטברות של משתנה היא רציפה אם ורק אם ההסתברות למאורעות הנקודתיים X=a היא תמיד אפס.
קבוצת נקודות אי-הגזירות היא תמיד בעלת "מידה אפס", אבל היא עלולה שלא להיות בת-מניה. כאשר הפונקציה גזירה, הנגזרת שלה היא '''פונקציית צפיפות''': פונקציה חיובית שהאינטגרל הכולל שלה הוא <math>\ \int_{-\infty}^{\infty} f_X(t) dt = 1</math>. בכיוון ההפוך, פונקציית צפיפות מגדירה פונקציית הצטברות לפי הנוסחה <math>\ F_X(x) = \int_{-\infty}^x f(t)dt</math>.
פונקציית הצפיפות מאפשרת לחשב בקלות את ה'''תוחלת''' של משתנה מקרי רציף: <math>\ E(X) = \int_{-\infty}^{\infty} f_X(t)tdt</math>. באופן כללי יותר, לכל פונקציה (מדידה) g התוחלת של המשתנה המקרי <math>\ g(X)</math> היא <math>\ E(g(X)) = \int f_X(t)g(t)dt</math>.
השונות מוגדרת כרגיל, לפי <math>\ V(X) = E(X^2)- E(X)^2 = E((X-E(X))^2)</math>.
=== הרצאה שלוש-עשרה ===
דוגמאות להתפלגויות רציפות חשובות: (1) ההתפלגות האחידה, שבה הצפיפות של כל הנקודות בקטע (a,b) היא <math>\ \frac{1}{b-a}</math>.
(2) ההתפלגות המעריכית, עבור פרמטר חיובי <math> \lambda</math>, שבה פונקציית הצפיפות היא <math>\ f_X(t) = \frac{1}{\lambda}e^{-t/\lambda}</math>. זוהי ההתפלגות הרציפה היחידה שאין לה זכרון: למשתנה מעריכי X יש אותה התפלגות כמו למשתנה X-a בהנתן X>a.
'''תרגיל'''. המינימום של כמה משתנים מעריכיים בלתי תלויים מתפלג מעריכית.
=== הרצאה ארבע-עשרה ===
במקרה הבדיד, את ההתפלגות של משתנה יחיד מתארים בעזרת רשימת הסתברויות, ואת ההתפלגות המשותפת של זוג משתנים בעזרת טבלה דו-ממדית. בדומה לזה, במקרה הרציף מתארים את ההתפלגות של משתנה יחיד באמצעות פונקציית צפיפות (חד-ממדית), ואת ההתפלגות המשותפת של זוג משתנים X,Y באמצעות פונקציית צפיפות דו-ממדית שתכונתה היא <math>\ \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f_{X,Y}(x,y) dydx=1</math>.
התפלגות זוג המשתנים מוגדרת לפי הנוסחה <math>\ P(a<X<b,\,c<Y<d) = \int_{a}^{b}\int_{c}^{d}f_{X,Y}(x,y) dydx</math>.
מן ההתפלגות המשותפת אפשר לשחזר את ההתפלגות של כל משתנה בנפרד: <math>\ f_X(x) = \int_{-\infty}^{\infty}f_{X,Y}(x,y) dy</math>, ובדומה לזה עבור Y. התפלגויות אלו נקראות '''צפיפות שולית'''. אומרים שהמשתנים בלתי-תלויים אם הצפיפות המשותפת שלהם היא מכפלת שתי הצפיפויות השוליות.
אם נתונה הצפיפות של משתנה X, אפשר לעבור ממנה לצפיפות של <math>\ Y = g(X)</math> לפי החוק <math>\ f_Y(y) = f_X(x)|g'(x)|^{-1}</math>, כאשר <math>\ y = g(x)</math>. בדומה לזה אם נתונה הצפיפות של זוג משתנים X,Y, אפשר לעבור ממנה לצפיפות המשותפת של הזוג <math>\ (U,V) = g(X,Y)</math> על-ידי חילוק ביעקוביאן של g, שהוא הדטרמיננטה של מטריצת הנגזרות החלקיות של U,V לפי X ולפי Y.
=== הרצאה חמש-עשרה ===
בעזרת הנוסחה לטרנספורמציה של זוג משתנים ראינו ש-<math>\ \int_{-\infty}{\infty}\frac{1}{\sqrt{2\pi}} e^{-t^2/2}dt = 1</math>, וזה מאפשר להגדיר את המשתנה שצפיפותו <math>\ f_Z(z) = \frac{1}{\sqrt{2\pi}}e^{-z^2/2}</math>, ולקרוא לו '''משתנה נורמלי סטנדרטי''', <math>\ Z \sim N(0,1)</math>. להתפלגות של <math>\ X = \mu+\sigma Z</math> קוראים התפלגות נורמלית, ומסמנים <math>\ X \sim N(\mu,\sigma^2)</math>
למשפחת ההתפלגויות הנורמליות תכונות מיוחדות רבות. למשל, כל צירוף לינארי של משתנים נורמליים בלתי תלויים הוא נורמלי.
הגדרנו בעזרת ההתפלגות הנורמלית כמה התפלגויות חשובות נוספות, שנפגוש שוב בפרק הסטטיסטי: התפלגות חי-בריבוע, התפלגות t, התפלגות F.
=== הרצאה שש-עשרה ===
הוכחנו שני חסמים אוניברסליים על התפלגויות: '''חסם מרקוב''' -- לכל משתנה מקרי חיובי X מתקיים <math>\ P(X \geq a \mu) \leq \frac{1}{a}</math> לכל a, כאשר <math>\ \mu = E(X)</math>. '''חסם צ'ביצ'ב''' -- לכל משתנה מקרי X מתקיים <math>\ P(|X-\mu|\geq k \sigma) \leq \frac{1}{k^2}</math>, כאשר <math>\ \mu = E(X)</math> ו- <math>\ \sigma^2 = V(X)</math>.
ה'''מומנטים''' של משתנה מקרי X הם התוחלות <math>\ E(X^n)</math>. אפשר לאסוף את כל המומנטים כמקדמים של טור חזקות, ולקבל את הפונקציה יוצרת המומנטים של X, <math>\ M_X(t) = E(e^{tX})</math>. לדוגמא, חישבנו שהפונקציה יוצרת המומנטים של ההתפלגות המעריכית היא <math>\ M_X(t) = \frac{1}{1-\lambda t}</math>, וראינו שאפשר להסיק מכאן את כל המומנטים, <math>\ E(X^n) = n!\lambda^n</math>.
להתפלגות הנורמלית הסטנדרטית יש פונקציה יוצרת מומנטים <math>\ M_Z(t) = e^{t^2/2}</math>. גם כאן אפשר לקבל את המומנטים בקלות: <math>\ E(Z^4) = 3, E(Z^6) = 15, E(Z^8) = 105</math>.
=== הרצאה שבע-עשרה ===
הגדרנו כמה אופנים שבהם יכולה סדרה של משתנים מקריים להתכנס למשתנה מקרי. בפרט אנחנו מעוניינים בהתכנסות של סדרת הממוצעים אל התוחלת (שהיא קבוע, כמובן). '''החוק החלש של המספרים הגדולים''' קובע שהממוצעים מתכנסים בהסתברות אל התוחלת (כלומר, ההסתברות לכך שהממוצע יהיה קרוב כדי אפסילון לתוחלת, שואפת ל-1). הוכחנו חוק זה בעזרת אי-שוויון צ'ביצ'ב.
'''החוק החזק של המספרים הגדולים''' (שאותו לא הוכחנו) קובע שבהסתברות 1, סדרת הממוצעים מתכנסת אל התוחלת.
'''משפט הגבול המרכזי''' עוסק בהפרש בין הממוצע לתוחלת, כשהוא מנורמל כך שהשונות שלו תהיה 1. המשפט מראה שההפרשים "מתכנסים בהתפלגות" אל ההתפלגות הנורמלית, כלומר, פונקציות ההתפלגות מתכנסות נקודתית אל הפונקציה הנורמלית. את המשפט הוכחנו (עד כדי למה ב"אנליזת פורייה", שלא הוכחנו) על-ידי חישוב הגבול של פונקציות יוצרות מומנטים.
=== הרצאה שמונה-עשרה ===
עברנו לסטטיסטיקה: הסקת ערכים ומסקנות על האוכלוסיה מתוך מדגם. השלב הראשון הוא '''אמידה''' של פמרטרים (כמו התוחלת, השונות, או כל פרמטר אחר המייחד התפלגות) לפי ערכים של מדגם. הגדרנו מהו '''אומד חסר הטיה''', והצגנו את שיטת אומד הנראות המקסימלית. ראינו שאומד הנראות המקסימלית אינו בהכרח חסר הטיה. הדגמנו את השיטות על ססטיסטיי הסדר של מדגם מתוך התפלגות אחידה.
=== הרצאה תשע-עשרה ===
דיברנו על '''רווחי סמך''', שהם רווחים שקצותיהם תלויים במדגם, ועבורם הסיכוי לכלול את ערך הפרמטר הוא מספר קבוע מראש (למשל 95% - רמת המובהקות של רווח הסמך).
בפרט בנינו נוסחאות לרווחי סמך עבור התוחלת בהתפלגות נורמלית, ראשית כאשר השונות ידועה, ושנית כאשר ההתפלגות אינה ידועה.
בדומה לזה בנינו רווחי סמך לשונות עצמה, כאשר אומדים אותה משונות המדגם.
=== הרצאה עשרים ===
דנו ב'''בדיקת השערות''': בדיקה של השערות (בעיקר נקודתיות) על פרמטרים של האוכלוסיה. הצגנו את השערת האפס וההשערה האלטרנטיבית, ודיברנו על שני סוגי השגיאות האפשריים.
תארנו בהרחבה את השלבים העיקריים בתהליך: הרקע התאורטי, הרקע הסטטיסטי, ביצוע הניסוי והפרשנות.
בסופו של דבר, בדיקת השערות מתמצה בבדיקה האם הערך שנטען לפרמטר נופל בתוך רווח סמך מתאים.
=== הרצאה עשרים ואחת ===
ראינו כיצד לבצע בדיקת השערות (חד-צדדית ודו-צדדית) על התוחלת בהתפלגות נורמלית (עם שונות ידועה או לא ידועה); על השונות; על הפרש תוחלות (תחת הנחות שונות על שתי השונויות); ועל פרופורציה.
=== הרצאה עשרים ושתיים ===
הגדרנו מהו תהליך מרקוב וראינו שמטריצת המעבר מאפשרת, על-ידי העלאה בחזקה, לחשב את הסתברויות המעבר לכל מספר של צעדים. הראינו שלמטריצה זו תמיד יש וקטור עצמי השייך לערך העצמי 1, ווקטור זה הוא ההתפלגות הסטציונרית המתארת את התנהגות התהליך "בטווח הארוך".
=== הרצאה עשרים ושלוש ===
ראינו שאפשר להציג תהליך מרקוב באופן גרפי, ונעזרנו בכך כדי לחשב את הסתברויות ההגעה למצבים סופגים ואת תוחלת הזמן עד להתרחשות זו. ראינו שבעזרת ההתפלגות הסטציונרית אפשר להפוך את ציר הזמן, ולחשב את ההסתברות שהיינו במקום מסויים אם אנחנו נמצאים כעת במקום אחר.
=== הרצאה עשרים וארבע ===
פתרנו שאלות נוספות בעזרת תהליכי מרקוב; למשל, מה הסיכוי שתהליך מסויים יימשך מספר זוגי של צעדים.
=== הרצאה עשרים וחמש ===
תהליך מרקוב הוא מטבעו חסר זכרון. הראינו שאפשר לבצע "הרחבת זכרון" על ידי הגדלת מספר המצבים, באופן שיאפשר מעקב מדוייק יותר אחרי התנהגות התהליך.

גרסה אחרונה מ־15:42, 4 ביולי 2012

תקצירי הרצאות

הרצאה ראשונה

(פרק 1, סעיף 1.2).

כל נתון סטטיסטי משמעותי אפשר לתאר על-ידי משתנים סטטיסטיים. נגענו קלות בטיפוסים של משתנים (משתנה איכותי, שבו אפשר רק לתאר את ההתפלגות; משתנה אורדינלי, שבו יש משמעות לסדר אבל לא לערך המספרי; משתנה אינטרוולי שבו יש משמעות גם להפרש המספרי, ומשתנה מנתי שבו יש בנוסף גם משמעות ליחס בין ערכים). דיברנו על הצגה גרפית של נתונים והנטיה הלא מוסברת של עורכי עיתונים להטעות באמצעותה.

למדנו כמה מדדי מרכז: ממוצע, שכיח, חציון, אמצע הטווח; וכמה מדדי פיזור: סטיית התקן, הטווח, הטווח הבין-רבעוני.

לצורך השוואה בין שני משתנים הצגנו את מקדם המתאם, שערכו תמיד בין 1 ל- 1-. כשהמשתנים בלתי תלויים, מקדם המתאם שלהם קרוב לאפס ("קרוב" ולא "שווה" משום שמדובר במדגם אקראי ולא באוכלוסיה כולה).

הרצאה שניה

(סעיף 1.3 - קומבינטוריקה).

מספר הדרכים לסדר n עצמים שונים בשורה הוא [math]\displaystyle{ \,n! }[/math]. מספר תת-הקבוצות של קבוצה בגודל n הוא [math]\displaystyle{ \ 2^n }[/math]. מספר תת-הקבוצות בגודל k של קבוצה בגודל n הוא המקדם הבינומי n-מעל-k. זהו מספר הדרכים לבחור בלי החזרה, כשאין חשיבות לסדר. את המקדם הבינומי אפשר להכליל ל"מקדם מולטינומי", הסופר כמה דרכים יש לפרק קבוצה בגודל n לתת-קבוצות בגדלים [math]\displaystyle{ \ k_1,\dots,k_t }[/math], כאשר סכום הגדלים שווה ל-n.

כשיש חשיבות לסדר, מספר הדרכים לבחור k עצמים עם החזרה, מתוך n, הוא החזקה [math]\displaystyle{ \ n^k }[/math]. מספר הדרכים לבחור בלי החזרה הוא [math]\displaystyle{ \ n(n-1)\cdots (n-k+1) }[/math] (מה קורה אם k>n?). מספר הדרכים לבחור k עצמים מתוך n, עם החזרה, כשאין חשיבות לסדר, שווה למספר הפתרונות החיוביים למשוואה [math]\displaystyle{ \ x_1+\cdot+x_k=n }[/math], שהוא המקדם הבינומי n+k-1 מעל n (זהו למעשה מספר ההתפלגויות האפשריות, עם x_i עצמים מסוג i).

למדנו (והוכחנו) את עקרון ההכלה וההדחה, [math]\displaystyle{ \ |A_1 \cup \cdots \cup A_t| = \sum_{i=1}^{t} (-1)^{i-1} \sum_{I \subseteq \{1,\dots,t\}, |I|=i} \bigcap_{i\in I}A_i }[/math].

הרצאה שלישית

(סעיף 2.1 - מרחבי הסתברות בדידים)

הגדרנו: מרחב הסתברות הוא זוג סדור, הכולל את קבוצת המצבים (שהיא סופית או בת-מניה), ופונקציה מהקבוצה הזו למספרים הממשיים שסכום כל ערכיה הוא 1. תת-קבוצות של מרחב ההסתברות נקראות "מאורעות". את הפונקציה [math]\displaystyle{ \ P : \Omega \rightarrow \mathbb{R} }[/math] אפשר להמשיך לפונקציה [math]\displaystyle{ \ P : \mathbb{P}(\Omega) \rightarrow \mathbb{R} }[/math], המוגדרת על כל המאורעות. לערך [math]\displaystyle{ \ P(A) }[/math] קוראים "ההסתברות של A". פונקציה זו מקיימת שתי תכונות חשובות: ההסתברות של המרחב כולו היא 1; וההסתברות של איחוד זר של מאורעות שווה לסכום ההסתברויות. את התכונה האחרונה הוכחנו במפורש, על-ידי חסימת ההפרש בין שני הסכומים בכל אפסילון חיובי.

תרגמנו את עקרון ההכלה וההדחה לשפת ההסתברות.

הגדרנו הסתברות מותנית [math]\displaystyle{ \ P(A|B) }[/math] והוכחנו את נוסחת ההסתברות השלמה.

הרצאה רביעית

פתרנו את "בעיית המזכירה המבולבלת" בעזרת עקרון ההכלה וההדחה. הגדרנו מאורעות בלתי תלויים, והוכחנו כמה תכונות שקולות. הגדרנו אי-תלות משותפת של כמה מאורעות, והראינו שאי-תלות משותפת של שלושה מאורעות חזקה ממש מאי-תלות של כל זוג בנפרד.

הרצאה חמישית

הגדרנו משתנה מקרי, כפונקציה (כלשהי) ממרחב הסתברות בדיד (כלשהו) אל המספרים הממשיים. כדי לתאר משתנה מקרי X יש לדעת את ההתפלגות שלו, כלומר הפונקציה המתאימה לכל a את ההסתברות [math]\displaystyle{ \ P(X=a) }[/math]. ראינו שאם מפעילים פונקציה על משתנה מקרי, מתקבל משתנה מקרי חדש, שאפשר לחשב את ההתפלגות שלו מן ההתפלגות של המשתנה הראשון.

טיפלנו בהתפלגות משותפת של זוג משתנים מקריים X,Y (המוגדרים על אותו מרחב הסתברות), שהיא הפונקציה המתאימה לכל a,b את ההסתברות [math]\displaystyle{ \ P(X=a,Y=b) }[/math]. מן ההתפלגות המשותפת אפשר לשחזר את ההתפלגות של כל משתנה בנפרד. לסיכום הגדרנו מתי שני משתנים מקריים הם בלתי תלויים: אם לכל a,b מתקיים [math]\displaystyle{ \ P(X=a,Y=b) = P(X=a)P(Y=b) }[/math].

הרצאה שישית

הגדרנו את התוחלת של משתנה מקרי - מעין ממוצע משוכלל (וגם משוקלל) של הערכים שהמשתנה יכול לקבל. אם הנקודות של המרחב הן בעלות אותה הסתברות ("התפלגות אחידה"), אז התוחלת שווה לממוצע של ערכי המשתנה. התוחלת היא הומוגנית (ממעלה ראשונה) ואדיטיבית: [math]\displaystyle{ \ E(X+Y)=E(X)+E(Y) }[/math], וזאת לכל שני משתנים מקריים. תכונה חשובה זו מאפשרת לחשב תוחלות באמצעות פירוק המשתנה לסכום של משתנים פשוטים יותר, כגון משתנים מציינים של מאורעות במרחב.

אם X,Y שני משתנים מקריים, X|Y=b (קרי "X בהנתן Y=b") הוא משתנה מקרי, שההתפלגות שלו תלויה בערך של b. אפשר לקצר ולומר ש-X|Y הוא משתנה מקרי, שההתפלגות שלו תלויה ב-Y. למשתנה הזה יש תוחלת, (E(X|Y, שהיא פונקציה של Y. הוכחנו את חוק התוחלת החוזרת [math]\displaystyle{ \ E(E(X|Y))=E(X) }[/math].

הרצאה שביעית

כדי לנתח את התוחלת של מכפלות, הגדרנו את השונות המשותפת של שני משתנים: [math]\displaystyle{ \ Cov(X,Y) = E(XY)-E(X)E(Y) }[/math]. זוהי פונקציה סימטרית, הומוגנית ואדיטיבית בשני הרכיבים. אם X,Y בלתי תלויים, אז מחוק התוחלת החוזרת נובע ש- [math]\displaystyle{ \ E(XY)=E(E(XY|Y))=E(YE(X|Y))=E(YE(X))=E(X)E(Y) }[/math], כלומר, השונות המשותפת שלהם היא אפס. משתנים כאלה נקראים בלתי מתואמים (כל שני משתנים בלתי תלויים הם בלתי מתואמים, אבל ההיפך נכון רק במקרה המיוחד שבו כל אחד משני המשתנים יכול לקבל רק שני ערכים).

השונות של משתנה מקרי X מוגדרת כשונות המשותפת שלו עם עצמו: [math]\displaystyle{ \ V(X)=Cov(X,X)=E(X^2)-E(X)^2=E((X-E(X))^2) }[/math]. זהו גודל חיובי, השווה לאפס רק אם המשתנה קבוע (בהסתברות 1). השונות היא פונקציה הומוגנית (מדרגה 2). כאנלוגיה לחוק התוחלת החוזרת, הוכחנו את נוסחת פירוק השונות: [math]\displaystyle{ \ V(X)=V(E(X|Y))+E(V(X|Y)) }[/math].

הרצאה שמינית

למדנו את ההתפלגויות (הבדידות) הקלאסיות:

  1. ההתפלגות האחידה על המספרים [math]\displaystyle{ \ 1,2,\dots,n }[/math], שאותה מסמנים בסימון [math]\displaystyle{ \ X \sim U[1,n] }[/math]. למשל, הערך שמתקבל מזריקת קוביה הוגנת מתפלג [math]\displaystyle{ \ U[1,6] }[/math], ואילו ספרה אקראית X מקיימת [math]\displaystyle{ \ X+1 \sim U[1,10] }[/math]. התוחלת של משתנה כזה היא [math]\displaystyle{ \ \frac{n+1}{2} }[/math], והשונות [math]\displaystyle{ \ \frac{n^2-1}{12} }[/math].
  2. התפלגות ברנולי: [math]\displaystyle{ \ X \sim b(p) }[/math], שבה X מקבל רק את הערכים 0 (בהסתברות q=1-p) או p. התוחלת שווה לפרמטר p, והשונות היא pq. כל משתנה מקרי המקבל רק שני ערכים אפשר להביא (על-ידי העתקה לינארית) לצורה כזו. לדוגמא, אם X מקבל את הערכים אחד ומינוס אחד, אז [math]\displaystyle{ \ Y = \frac{X+1}{2} \sim b(p) }[/math] עבור p מתאים.
  3. התפלגות בינומית: [math]\displaystyle{ \ X \sim Bin(n,p) }[/math] היא ההתפלגות של המשתנה הסופר כמה הצלחות יש בסדרה של n "ניסויי ברנולי" (ניסויים בלתי תלויים, שהסיכוי להצלחה בכל אחד מהם הוא קבוע, p). התוחלת של משתנה כזה היא np, והשונות npq (ההוכחה הקלה ביותר היא דרך משתנים מציינים).
  4. התפלגות פואסון: [math]\displaystyle{ \ X \sim P(\lambda) }[/math], המוגדרת כך ש-[math]\displaystyle{ \ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!} }[/math]. התוחלת והשונות הן [math]\displaystyle{ \ \lambda }[/math]. התפלגות זו מופיעה כקירוב להתפלגות בינומית (אם [math]\displaystyle{ \ X \sim Bin(n,p) }[/math], ו-n גדול, אז בקירוב טוב [math]\displaystyle{ \ X \sim P(np) }[/math]), וגם בספירת תופעות לאורך זמן. את עניין ספירת התופעות לאורך זמן נסביר כשנלמד את ההתפלגות המעריכית (הרציפה).
  5. התפלגות גאומטרית: [math]\displaystyle{ \ X \sim G(p) }[/math] היא ההתפלגות של מספר הניסויים שיש לערוך עד להצלחה ראשונה (בסדרה של ניסויי ברנולי). הערך של משתנה זה אינו חסום, אם כי ההסתברות לערכים גדולים הולכת ודועכת (בקצב מעריכי). ההתפלגות הגאומטרית מיוחדת בתכונת חוסר הזכרון שלה: הידיעה שכבר נכשלו k ניסויים אינה מקרבת (ואינה מרחיקה) את ההצלחה הראשונה שתבוא.
  6. התפלגות "בינומית שלילית": מספר הניסויים שאפשר לבצע (בסדרת ניסויי ברנולי) עד לכשלון ה-k. הפרמטרים הם k וההסתברות הקבועה, p.
  7. התפלגות היפרגאומטרית: ההתפלגות של מספר הכדורים האדומים שמתקבלים כשמוציאים n כדורים (ללא החזרה!) מכד שבו A כדורים אדומים ו-B כדורים כחולים.

הרצאה תשיעית

בין ההתפלגויות השונות יש קשרים רבים, גם מעבר למובן מאליו (משתנה בינומי מוגדר כסכום של n משתנים מקריים ברנוליים בלתי-תלויים; משתנה "בינומי שלילי" אפשר להגדיר כסכום של משתנים מקריים גאומטריים). למשל:

  • אם X,Y משתנים בינומיים בלתי תלויים עם אותו p (אבל n-ים שונים), אז X+Y בינומי (עם אותו p), משום שהוא סופר את כל ההצלחות בסדרה ראשונה ואחר-כך בסדרה שניה של ניסויים.
  • אם X,Y משתני פואסון ב"ת, סכומם פואסוני (עם תוחלת השווה לסכום התוחלות, מה שאפשר לתרגם לחישוב הפרמטר, שהוא סכום הפרמטרים של X,Y).
  • במקרה הקודם, ההתפלגות של X בהנתן X+Y היא בינומית.
  • אם N הוא מספר ההתפרקויות של חלקיקים רדיואקטיביים במבחנה לאורך 25 דקות (משתנה פואסוני), ו-X הוא מספר ההתפרקויות שבהן התוצרים פגעו בלוחית המדידה (תופעה שהסיכוי לה הוא p, כלומר X בהנתן N מתפלג בינומית), אז X הוא משתנה פואסוני.
  • אם X,Y משתנים מקריים גאומטריים, אז ההתפלגות של X בהנתן X=Y היא עדיין גאומטרית (הראו כמה קל למצוא את הפרמטר אם העובדה הזו על התפלגות X בהנתן X=Y ידועה!)

דוגמאות חשובות אחרות מתקבלות משאיפה לגבול.

  • כאשר X מתפלג בינומית ו-n גדל תוך שהמכפלה np נשארת קבועה, ההתפלגות הולכת ומתקרבת להתפלגות פואסון עם הפרמטר np.
  • בהתפלגות היפרגאומטרית, אם מגדילים את A,B תוך שמירה על היחס A:B, התהליך הולך ונעשה דומה לדגימה עם החזרה (משום שכשיש בכד המוני כדורים, ממילא הסיכוי לחזרה על אותו כדור הוא זניח), ואז המשתנה ההיפרגאומטרי נעשה בקירוב בינומי.


הרצאה עשירית

מעבר להתפלגויות הקלאסיות, חשוב לדעת גם לטפל בתופעות שבהן חישוב ישיר הוא מסובך או בלתי אפשרי, כדי לקבל קירוב להתנהגות שלהן. בחנו מקרוב את הדוגמא המפורסמת של "פרדוקס יום ההולדת": הסיכוי שבין 23 אנשים יהיו שניים שנולדו באותו יום בשנה הוא מעט יותר מחצי, למרות ש-23 "הרבה יותר קטן" מ-365. ההסבר הוא בחישוב הסיכוי לכך שאין התנגשויות בבחירה אקראית של ימי ההולדת: מתברר שהסיכוי הזה יורד בקצב קרוב ל- [math]\displaystyle{ \ exp(-\frac{n^2}{2K}) }[/math] כאשר n הוא מספר האנשים (כאן 23) ו-K גודל המרחב שבו הם בוחרים.

בדרך כלל קל יותר לחשב תוחלות מאשר הסתברויות (במיוחד אם מדובר במשתנה שאפשר לפרק לסכום של משתנים מציינים רבים). גם לגבי ימי הולדת, קל לחשב שתוחלת מספר ההתנגשויות (כלומר, זוגות של אנשים שנולדו באותו יום) היא [math]\displaystyle{ \ \frac{n(n-1)}{2K} }[/math], כך שמספר ההתנגשויות עולה באופן ריבועי עם מספר האנשים, וכאשר n הוא מסדר הגודל של [math]\displaystyle{ \ \sqrt{K} }[/math] אפשר כבר לצפות להתנגשויות. דיברנו גם על המשתנה של זמן ההמתנה (להתנגשות הראשונה), שגם התוחלת שלו - שאותה לא חישבנו - פרופורציונלית לשורש גודל המרחב.

את הנימוקים האלה אפשר להפוך על ראשם כדי להעריך את גודל המרחב (כשזה אינו ידוע). אם המחשב בוחר מספרים באקראי ואחרי 979 צעדים מופיע לראשונה אותו מספר בפעם השניה, סביר להעריך שגודל המרחב הוא כ- 979 בריבוע, היינו כמליון.

טכניקת הפירוק לסכום של משתנים מציינים מאפשרת לתאר את המבנה של גרף מקרי (שבו יש n קודקודים, וכל אחת מ-n-מעל-2 הקשתות הפוטנציאליות מתממשת בהסתברות p, באופן בלתי תלוי). נניח ש-p הוא פונקציה של n, וש-n שואף לאינסוף. תארנו בהרצאה מה קורה כאשר p הוא כפולה קבועה של [math]\displaystyle{ \ n^{-2} }[/math] (בשלב זה יש רק מספר סופי של קשתות), או של [math]\displaystyle{ \ n^{-3/2} }[/math] (מספר הקשתות שואף לאינסוף ובגרף יש מסלולים באורך 2, ולא יותר), וכן הלאה. הדרגה של קודקוד מוגדרת כמספר הקשתות שיוצאות ממנו. הדרגה של קודקוד, אם כך, מתפלגת [math]\displaystyle{ \ Bin(n,p) }[/math], וכאשר n גדל אפשר לקרב התפלגות זו לפי התפלגות פואסון [math]\displaystyle{ \ P(np) }[/math]. בפרט, הסיכוי לכך שהקודקוד מבודד הוא בקירוב טוב [math]\displaystyle{ \ \exp(-np) }[/math], ולכן תוחלת מספר הקודקודים המבודדים בגרף היא [math]\displaystyle{ \ n\exp(-np) }[/math]. אם למשל [math]\displaystyle{ \ p = \frac{\lambda \log(n)}{n} }[/math], אז תוחלת מספר הקודקודים המבודדים היא [math]\displaystyle{ \ n^{1-\lambda} }[/math], מה שמסביר מדוע כאשר [math]\displaystyle{ \ \lambda \lt 1 }[/math] מספר הקודקודים המבודדים שואף לאינסוף, וכאשר [math]\displaystyle{ \ \lambda\gt 1 }[/math] הוא שואף לאפס (והגרף קשיר, למרות שזה דורש כמובן נימוקים נוספים).

הרצאה אחת-עשרה

כדי לעבור ממשתנים מקריים בדידים לרציפים, עלינו להכליל את מושג מרחב ההסתברות. בעבר טיפלנו במרחבים סופיים או בני-מניה, ואז הגדרנו את ההסתברות של כל נקודה, וממנה יכולנו לחשב את ההסתברות של כל תת-קבוצה. במעבר למקרה הכללי מתברר שהגישה הזו מוכרחה להכשל: אי אפשר לסכם מספר שאינו בן-מניה של ערכים (ולקוות לתוצאה סופית), וגם אי אפשר להגדיר הסתברות בבת-אחת על כל תת-הקבוצות (אפילו של קטע היחידה).

את הפתרון האקסיומטי מצא קולמוגורוב. ראשית, סיגמא-אלגברה על מרחב [math]\displaystyle{ \ \Omega }[/math] מוגדרת כמשפחה של תת-קבוצות, הכוללת את המרחב כולו כאיבר, וסגורה למשלים וללקיחת איחוד בן-מניה. (סגירות לאיחוד סופי אינה מספיקה, וסגירות לאיחוד כלשהו - לאו דווקא בן-מניה - היא דרישה חזקה מדי המקלקלת את כל הדוגמאות המעניינות). מרחב הסתברות הוא שלשה סדורה, שבה הרכיב הראשון הוא המרחב, השני הוא סיגמא-אלגברה (אבריה נקראים "מאורעות"), והשלישי הוא פונקציית הסתברות, שהיא פונקציה המתאימה מספר חיובי לכל מאורע, ומקיימת שני תנאים: ההסתברות של המרחב כולו היא 1, ואם [math]\displaystyle{ \ A_1,\dots }[/math] סדרת מאורעות זרים, אז [math]\displaystyle{ \ P(\cup A_n) = \sum P(A_n) }[/math]. החסרון בגישה זו הוא שכאשר הסיגמא-אלגברה אינה כוללת את כל תת-הקבוצות (וכך יהיה בדרך כלל), יהיו קבוצות שלא ניתן לדבר על ההסתברות שלהן. מתברר שהשד הזה אינו נורא כל-כך.

המרחב החשוב ביותר מבחינתנו הוא הישר הממשי, ולכן אנו ניגשים להגדיר סיגמא-אלגברה מסויימת עליו, הנקראת "הסיגמא-אלגברה של בורל". זוהי הסיגמא-אלגברה הקטנה ביותר הכוללת את כל הקרניים [math]\displaystyle{ \ (-\infty,a] }[/math]. מתברר שהיא כוללת את הקרניים מכל הסוגים, את הקטעים הפתוחים מכל הסוגים, נקודות, סדרות של נקודות, קבוצות כמו [math]\displaystyle{ \ \cdots (-3,-2) \cup (-1,0) \cup (1,2) \cup \cdots }[/math], ועוד ועוד. עם הסיגמא-אלגברה הזו, נוכל לחשב את ההסתברות של מאורעות כמו [math]\displaystyle{ \ X\leq a }[/math] (ולכן גם מאורעות כמו [math]\displaystyle{ \ a\lt X\lt b }[/math] וכדומה) לכל משתנה מקרי X.

הרצאה שתים-עשרה

לכל משתנה מקרי אפשר להגדיר את פונקציית ההצטברות [math]\displaystyle{ \ F_X(t) = P(X\leq t) }[/math]. זוהי פונקציה מונוטונית עולה (במובן החלש), שואפת לאפס במינוס אינסוף ולאחד באינסוף, ורציפה מימין. גם בכיוון ההפוך, כל פונקציה כזו מאפשרת להגדיר משתנה מקרי על-פי ההסתברויות שלו ליפול בקטעים או בקרניים. באופן מעשי, פונקציית ההצטברות נותנת תאור מלא של המשתנה.

קבוצת נקודות אי-הרציפות של פונקציית הצטברות היא (לכל היותר) בת מניה. פונקציית ההצטברות של משתנה היא רציפה אם ורק אם ההסתברות למאורעות הנקודתיים X=a היא תמיד אפס.

קבוצת נקודות אי-הגזירות היא תמיד בעלת "מידה אפס", אבל היא עלולה שלא להיות בת-מניה. כאשר הפונקציה גזירה, הנגזרת שלה היא פונקציית צפיפות: פונקציה חיובית שהאינטגרל הכולל שלה הוא [math]\displaystyle{ \ \int_{-\infty}^{\infty} f_X(t) dt = 1 }[/math]. בכיוון ההפוך, פונקציית צפיפות מגדירה פונקציית הצטברות לפי הנוסחה [math]\displaystyle{ \ F_X(x) = \int_{-\infty}^x f(t)dt }[/math].

פונקציית הצפיפות מאפשרת לחשב בקלות את התוחלת של משתנה מקרי רציף: [math]\displaystyle{ \ E(X) = \int_{-\infty}^{\infty} f_X(t)tdt }[/math]. באופן כללי יותר, לכל פונקציה (מדידה) g התוחלת של המשתנה המקרי [math]\displaystyle{ \ g(X) }[/math] היא [math]\displaystyle{ \ E(g(X)) = \int f_X(t)g(t)dt }[/math].

השונות מוגדרת כרגיל, לפי [math]\displaystyle{ \ V(X) = E(X^2)- E(X)^2 = E((X-E(X))^2) }[/math].

הרצאה שלוש-עשרה

דוגמאות להתפלגויות רציפות חשובות: (1) ההתפלגות האחידה, שבה הצפיפות של כל הנקודות בקטע (a,b) היא [math]\displaystyle{ \ \frac{1}{b-a} }[/math].

(2) ההתפלגות המעריכית, עבור פרמטר חיובי [math]\displaystyle{ \lambda }[/math], שבה פונקציית הצפיפות היא [math]\displaystyle{ \ f_X(t) = \frac{1}{\lambda}e^{-t/\lambda} }[/math]. זוהי ההתפלגות הרציפה היחידה שאין לה זכרון: למשתנה מעריכי X יש אותה התפלגות כמו למשתנה X-a בהנתן X>a.

תרגיל. המינימום של כמה משתנים מעריכיים בלתי תלויים מתפלג מעריכית.

הרצאה ארבע-עשרה

במקרה הבדיד, את ההתפלגות של משתנה יחיד מתארים בעזרת רשימת הסתברויות, ואת ההתפלגות המשותפת של זוג משתנים בעזרת טבלה דו-ממדית. בדומה לזה, במקרה הרציף מתארים את ההתפלגות של משתנה יחיד באמצעות פונקציית צפיפות (חד-ממדית), ואת ההתפלגות המשותפת של זוג משתנים X,Y באמצעות פונקציית צפיפות דו-ממדית שתכונתה היא [math]\displaystyle{ \ \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f_{X,Y}(x,y) dydx=1 }[/math].

התפלגות זוג המשתנים מוגדרת לפי הנוסחה [math]\displaystyle{ \ P(a\lt X\lt b,\,c\lt Y\lt d) = \int_{a}^{b}\int_{c}^{d}f_{X,Y}(x,y) dydx }[/math].

מן ההתפלגות המשותפת אפשר לשחזר את ההתפלגות של כל משתנה בנפרד: [math]\displaystyle{ \ f_X(x) = \int_{-\infty}^{\infty}f_{X,Y}(x,y) dy }[/math], ובדומה לזה עבור Y. התפלגויות אלו נקראות צפיפות שולית. אומרים שהמשתנים בלתי-תלויים אם הצפיפות המשותפת שלהם היא מכפלת שתי הצפיפויות השוליות.

אם נתונה הצפיפות של משתנה X, אפשר לעבור ממנה לצפיפות של [math]\displaystyle{ \ Y = g(X) }[/math] לפי החוק [math]\displaystyle{ \ f_Y(y) = f_X(x)|g'(x)|^{-1} }[/math], כאשר [math]\displaystyle{ \ y = g(x) }[/math]. בדומה לזה אם נתונה הצפיפות של זוג משתנים X,Y, אפשר לעבור ממנה לצפיפות המשותפת של הזוג [math]\displaystyle{ \ (U,V) = g(X,Y) }[/math] על-ידי חילוק ביעקוביאן של g, שהוא הדטרמיננטה של מטריצת הנגזרות החלקיות של U,V לפי X ולפי Y.

הרצאה חמש-עשרה

בעזרת הנוסחה לטרנספורמציה של זוג משתנים ראינו ש-[math]\displaystyle{ \ \int_{-\infty}{\infty}\frac{1}{\sqrt{2\pi}} e^{-t^2/2}dt = 1 }[/math], וזה מאפשר להגדיר את המשתנה שצפיפותו [math]\displaystyle{ \ f_Z(z) = \frac{1}{\sqrt{2\pi}}e^{-z^2/2} }[/math], ולקרוא לו משתנה נורמלי סטנדרטי, [math]\displaystyle{ \ Z \sim N(0,1) }[/math]. להתפלגות של [math]\displaystyle{ \ X = \mu+\sigma Z }[/math] קוראים התפלגות נורמלית, ומסמנים [math]\displaystyle{ \ X \sim N(\mu,\sigma^2) }[/math]

למשפחת ההתפלגויות הנורמליות תכונות מיוחדות רבות. למשל, כל צירוף לינארי של משתנים נורמליים בלתי תלויים הוא נורמלי.

הגדרנו בעזרת ההתפלגות הנורמלית כמה התפלגויות חשובות נוספות, שנפגוש שוב בפרק הסטטיסטי: התפלגות חי-בריבוע, התפלגות t, התפלגות F.

הרצאה שש-עשרה

הוכחנו שני חסמים אוניברסליים על התפלגויות: חסם מרקוב -- לכל משתנה מקרי חיובי X מתקיים [math]\displaystyle{ \ P(X \geq a \mu) \leq \frac{1}{a} }[/math] לכל a, כאשר [math]\displaystyle{ \ \mu = E(X) }[/math]. חסם צ'ביצ'ב -- לכל משתנה מקרי X מתקיים [math]\displaystyle{ \ P(|X-\mu|\geq k \sigma) \leq \frac{1}{k^2} }[/math], כאשר [math]\displaystyle{ \ \mu = E(X) }[/math] ו- [math]\displaystyle{ \ \sigma^2 = V(X) }[/math].

המומנטים של משתנה מקרי X הם התוחלות [math]\displaystyle{ \ E(X^n) }[/math]. אפשר לאסוף את כל המומנטים כמקדמים של טור חזקות, ולקבל את הפונקציה יוצרת המומנטים של X, [math]\displaystyle{ \ M_X(t) = E(e^{tX}) }[/math]. לדוגמא, חישבנו שהפונקציה יוצרת המומנטים של ההתפלגות המעריכית היא [math]\displaystyle{ \ M_X(t) = \frac{1}{1-\lambda t} }[/math], וראינו שאפשר להסיק מכאן את כל המומנטים, [math]\displaystyle{ \ E(X^n) = n!\lambda^n }[/math].

להתפלגות הנורמלית הסטנדרטית יש פונקציה יוצרת מומנטים [math]\displaystyle{ \ M_Z(t) = e^{t^2/2} }[/math]. גם כאן אפשר לקבל את המומנטים בקלות: [math]\displaystyle{ \ E(Z^4) = 3, E(Z^6) = 15, E(Z^8) = 105 }[/math].

הרצאה שבע-עשרה

הגדרנו כמה אופנים שבהם יכולה סדרה של משתנים מקריים להתכנס למשתנה מקרי. בפרט אנחנו מעוניינים בהתכנסות של סדרת הממוצעים אל התוחלת (שהיא קבוע, כמובן). החוק החלש של המספרים הגדולים קובע שהממוצעים מתכנסים בהסתברות אל התוחלת (כלומר, ההסתברות לכך שהממוצע יהיה קרוב כדי אפסילון לתוחלת, שואפת ל-1). הוכחנו חוק זה בעזרת אי-שוויון צ'ביצ'ב.

החוק החזק של המספרים הגדולים (שאותו לא הוכחנו) קובע שבהסתברות 1, סדרת הממוצעים מתכנסת אל התוחלת.

משפט הגבול המרכזי עוסק בהפרש בין הממוצע לתוחלת, כשהוא מנורמל כך שהשונות שלו תהיה 1. המשפט מראה שההפרשים "מתכנסים בהתפלגות" אל ההתפלגות הנורמלית, כלומר, פונקציות ההתפלגות מתכנסות נקודתית אל הפונקציה הנורמלית. את המשפט הוכחנו (עד כדי למה ב"אנליזת פורייה", שלא הוכחנו) על-ידי חישוב הגבול של פונקציות יוצרות מומנטים.

הרצאה שמונה-עשרה

עברנו לסטטיסטיקה: הסקת ערכים ומסקנות על האוכלוסיה מתוך מדגם. השלב הראשון הוא אמידה של פמרטרים (כמו התוחלת, השונות, או כל פרמטר אחר המייחד התפלגות) לפי ערכים של מדגם. הגדרנו מהו אומד חסר הטיה, והצגנו את שיטת אומד הנראות המקסימלית. ראינו שאומד הנראות המקסימלית אינו בהכרח חסר הטיה. הדגמנו את השיטות על ססטיסטיי הסדר של מדגם מתוך התפלגות אחידה.

הרצאה תשע-עשרה

דיברנו על רווחי סמך, שהם רווחים שקצותיהם תלויים במדגם, ועבורם הסיכוי לכלול את ערך הפרמטר הוא מספר קבוע מראש (למשל 95% - רמת המובהקות של רווח הסמך).

בפרט בנינו נוסחאות לרווחי סמך עבור התוחלת בהתפלגות נורמלית, ראשית כאשר השונות ידועה, ושנית כאשר ההתפלגות אינה ידועה.

בדומה לזה בנינו רווחי סמך לשונות עצמה, כאשר אומדים אותה משונות המדגם.

הרצאה עשרים

דנו בבדיקת השערות: בדיקה של השערות (בעיקר נקודתיות) על פרמטרים של האוכלוסיה. הצגנו את השערת האפס וההשערה האלטרנטיבית, ודיברנו על שני סוגי השגיאות האפשריים.

תארנו בהרחבה את השלבים העיקריים בתהליך: הרקע התאורטי, הרקע הסטטיסטי, ביצוע הניסוי והפרשנות.

בסופו של דבר, בדיקת השערות מתמצה בבדיקה האם הערך שנטען לפרמטר נופל בתוך רווח סמך מתאים.

הרצאה עשרים ואחת

ראינו כיצד לבצע בדיקת השערות (חד-צדדית ודו-צדדית) על התוחלת בהתפלגות נורמלית (עם שונות ידועה או לא ידועה); על השונות; על הפרש תוחלות (תחת הנחות שונות על שתי השונויות); ועל פרופורציה.

הרצאה עשרים ושתיים

הגדרנו מהו תהליך מרקוב וראינו שמטריצת המעבר מאפשרת, על-ידי העלאה בחזקה, לחשב את הסתברויות המעבר לכל מספר של צעדים. הראינו שלמטריצה זו תמיד יש וקטור עצמי השייך לערך העצמי 1, ווקטור זה הוא ההתפלגות הסטציונרית המתארת את התנהגות התהליך "בטווח הארוך".

הרצאה עשרים ושלוש

ראינו שאפשר להציג תהליך מרקוב באופן גרפי, ונעזרנו בכך כדי לחשב את הסתברויות ההגעה למצבים סופגים ואת תוחלת הזמן עד להתרחשות זו. ראינו שבעזרת ההתפלגות הסטציונרית אפשר להפוך את ציר הזמן, ולחשב את ההסתברות שהיינו במקום מסויים אם אנחנו נמצאים כעת במקום אחר.

הרצאה עשרים וארבע

פתרנו שאלות נוספות בעזרת תהליכי מרקוב; למשל, מה הסיכוי שתהליך מסויים יימשך מספר זוגי של צעדים.

הרצאה עשרים וחמש

תהליך מרקוב הוא מטבעו חסר זכרון. הראינו שאפשר לבצע "הרחבת זכרון" על ידי הגדלת מספר המצבים, באופן שיאפשר מעקב מדוייק יותר אחרי התנהגות התהליך.