3-4- شبیه سازی مونت کارلو52
فصل چهارم: مثال عددی و نتیجه گیری
4-1- مثال عددی63
4-2- نتیجه گیری66
پیوست
پیوست 1 : برنامه نویسی69
پیوست 2 : لغت نامه فارسی- انگلیسی97
پیوست3 : لغت نامه انگلیسی-فارسی101
فهرست منابع و مراجع105
فهرست جدول ها
عنوان و شماره صفحه
جدول 2-3-1- برآورد مونت کارلو برای خطای نوع اول آزمون ها 28
جدول 2-3-2- برآورد مونت کارلو برای توان آزمون ها 28
جدول 3-1- مجموعه پارامترهای μ_i و σ_i^2 انجام شده در شبیه سازی ها 54
جدول 4-1- برآورد پارامترها در مثال 4-1 63
جدول 4-2- فواصل اطمینان همزمان 95 درصدی عددی دو طرفه برای نسبت و اختلاف گروه ها با گروه کنترل در مثال 4-1 64
جدول 4-3- فواصل اطمینان همزمان 95 درصدی دو طرفه برای نسبت گروه ها با گروه کنترل با روش دانت در مثال 4-1 65
فهرست نمودارها
عنوان و شماره صفحه
نمودار 1-2-1- تابع چگالی لاگ نرمال با μ=0 و برای پنچ مقدار از σ^2 5
نمودار 3-1- نمودار جعبه ای احتمال پوشش ها برای مجموعه پارامترهای تعریف شده در جدول 3-1 57
نمودار 3-2- نمودار پراکندگی احتمال پوشش های روش GPQ و روش های ANB،ANM و GPQB برای مقایسه گروه ها با گروه کنترل 58
نمودار 3-3- نمودار پراکندگی برآورد اریبی نسبی روش های GPQ و ANM برای 23 مجموعه پارامترهای تعریف شده در جدول 3-1 60
نمودار 4-1(a)- نمودار جعبه ای برای مشاهدات مثال 4-1 63
نمودار 4-2(b)- نمودار Q-Q مقادیر باقیمانده مدل یک طرفه ANOVA برای داده های اصلی مثال 4-1 63
نمودار 4-2(c)- نمودار Q-Q مقادیر باقیمانده مدل یک طرفه ANOVA برای داده های تبدیل یافته با تبدیل لگاریتم داده های اصلی مثال 4-1 63
فهرست نشانه های اختصاری
ANB : Asymptotic normality with the Bonferroni adjustment
ANM : Asymptotic normality and multiplicity adjustment
ANOVA : Analysis of variance
FGPQ : Fiducial generalized pivotal quantity
GP : Generalized p-value
GPQ : Generalized pivotal quantity
GPQB : Generalized pivotal quantity with Bonferroni adjustment
LN : log normal

فصل اول: مقدمه
مقدمه
در این فصل توزیع لاگ نرمال و زمینه های کاربرد این توزیع را معرفی خواهیم کرد. همچنین برای آشنایی با مفاهیمی که در این پایان نامه استفاده می شود، به آزمون کردن و ساختن فاصله اطمینان برای میانگین این توزیع می پردازیم.
کاربردهای توزیع لاگ نرمال
در تحقیقات و مطالعات پزشکی و زیست شناسی، داده های بدست آمده معمولا مثبت بوده و دارای توزیع راست چوله با واریانس هایی هستند که با افزایش میانگین افزایش می یابند. به ویژه زمانی که داده ها از فرآیندهای تکثیری بدست می آیند، می توان انتظار چنین ویژگی- هایی را داشت. به عنوان مثال آزمایشات ژنتیک و فرآیند متابولیسمی در سیستم زیستی دارای چنین شرایطی هستند. یک راه برای توجیه این ویژگی ها در نظر گرفتن توزیع لاگ نرمال برای داده ها می باشد. البته با توجه به رابطه توزیع لاگ نرمال با توزیع نرمال، این فرض را می توان با استفاده از نمودار چندکها یا آزمون شپیرو-ویلک(Shapiro-wilk test) برای داده- های نرمال بررسی کرد. برای انجام آزمون شپیرو-ویلک ابتدا لازم است از یک تبدیل لگاریتمی روی داده ها استفاده شود. زیرا اگر داده های اصلی لاگ نرمال باشند با این تبدیل داده ها دارای توزیع نرمال می شوند.
ویژگی ها و خواص توزیع لاگ نرمال
1-2-1- تابع چگالی احتمال
توزیع لاگ نرمال دو پارامتری (LN) که با نماد LN(μ,σ^2) نمایش داده می شود، دارای تابع چگالی احتمال به صورت زیر است:
f(x;μ,σ^2)=1/(x√(2πσ^2 )) exp⁡{-1/(2σ^2 ) (〖lnx-μ)〗^2 }, x>0, μ∈R, σ>0
که در آن، μپارامتر مکان و σ پارامتر مقیاس می باشد.
با توجه به فرم تابع چگالی لاگ نرمال، این توزیع متعلق به خانواده توزیع های نمایی طبیعی است.
1-2-2- رابطه توزیع لاگ نرمال با توزیع نرمال
اگر فرض کنیم که X دارای توزیع LN(μ,σ^2) باشد، آنگاه Y=ln⁡(X) دارای توزیع نرمال با میانگین μ و واریانس σ^2 خواهد بود که با نماد N(μ,σ^2) نمایش می دهند و دارای تابع چگالی احتمال به صورت زیر است:
f(y;μ,σ^2)=1/√(2πσ^2 ) exp⁡{-1/(2σ^2 ) (〖y-μ)〗^2 } y∈R, μ∈R, σ>0
1-2-3- کمیت های توزیع لاگ نرمال
اگر فرض کنیم که X دارای توزیع LN(μ,σ^2) باشد،آنگاه تابع مولد گشتاور Y=ln⁡(X) که Y دارای توزیع N(μ,σ^2) است، به صورت زیر خواهد بود:
M_Y (t)=E(e^tY )=e^(μt+1/2 t^2 σ^2 )
از آن جایی که X=e^Y است، میانگین و واریانس متغیر X را می توان به صورت زیر محاسبه کرد.
E(X)=E(e^Y )=M_Y (1)=e^(μ+1/2 σ^2 )
Var(X)=E(X^2 )-E^2 (X)=E(e^2Y )-E^2 (e^Y )
=M_Y (2)-M_Y^2 (1)=e^(2μ+2σ^2 )-e^(2μ+σ^2 )=e^2μ e^(σ^2 ) 〖(e〗^(σ^2 )-1)
که با تعریف w=e^(σ^2 ) داریم
Var(X)=w(w-1) e^2μ
ضریب تغییرات (CV)، ضریب چولگی (γ_1 ) و ضریب برجستگی (γ_2) توزیع لاگ نرمال، به ترتیب به صورت زیر هستند:
CV=√(w-1), γ_1=(w+2) √(w-1), γ_2=w^4+2w^3+3w^2-6
همچنین با توجه به اینکه μ میانه توزیع متغیر تصادفی Y است یعنی
Pr⁡(Y≤μ)=1/2
و اینکه تابع نمایی یک تابع صعودی و یک به یک می باشد پس
Pr⁡(Y≤μ)=Pr⁡(e^Y≤e^μ )=Pr⁡(X≤e^μ )=1/2
بنابراین میانه توزیع متغیر تصادفی X برابر با e^μ خواهد بود.
همان طور که مشاهده می شود، توزیع لاگ نرمال یک توزیع با مقادیر مثبت است. در این توزیع کمیتی چون میانه فقط به پارامتر μ و کمیت های همچون ضریب تغییرات، ضریب چولگی و ضریب برجستگی به پارامتر σ^2 بستگی دارند، اما کمیت های بسیار مهم و کاربردی در تحلیل و استنباط آماری یعنی میانگین و واریانس آن تابعی از پارامترهای توزیع یعنی μ وσ^2 می باشند. قابل ذکر است که این توزیع بشدت چوله می باشد و میزان چولگی آن به پارامتر σ^2 بستگی دارد. برای روشن تر شدن این موضوع نمودار تابع چگالی احتمال چند توزیع لاگ نرمال با پارامتر μ=0 وσ^2 های مختلف در زیر آورده شده است.
نمودار (1-2-1): تابع چگالی لاگ نرمال با μ=0 برای پنچ مقدار از σ^2
1-2-4- برآوردگرهای درستنمایی ماکزیمم و نااریب پارامترها
اگر فرض کنیم X_1,…,X_n یک نمونه تصادفی از توزیع LN(μ,σ^2) باشند، آنگاهY_1,…,Y_n، Y_i=ln⁡(X_i)، دارای توزیع N(μ,σ^2)خواهند بود، بنابراین برآوردگرهای درستنمایی ماکزیمم برای μ و σ^2 به صورت زیر هستند:
μ ̂=Y ̅=1/n ∑_(i=1)^n▒Y_i ,
σ ̂^2=1/n ∑_(i=1)^n▒(Y_i-Y ̅ )^2 .
و برآوردگر نااریب برای σ^2 به صورت زیر می باشد:
S^2=1/(n-1) ∑_(i=1)^n▒〖(Y_i-Y ̅)〗^2 .
بررسی میانگین لاگ نرمال
به طور معمول میانه به عنوان معیار خلاصه سازی داده های چوله مورد توجه است، همچنین با توجه به اینکه میانه این توزیع تنها به پارامتر μ بستگی دارد، به راحتی می توان آماره آزمون و فاصله اطمینان برای میانه را محاسبه کرد ولی معمولا میانه، کمیت مورد علاقه برای محققان نیست. به عنوان مثال، یکی از کمیت های مورد علاقه مدیران بیمارستان میانگین هزینه درمان در زیرگروه های مختلف بیماران است. به طور کلی، اگر پرسش محقق مربوط به استنباط در مورد متوسط، مجموع یا نسبت باشد، واضح است که استنباط برای میانگین جامعه بیشتر از میانه مد نظر می باشد. از آنجا که میانگین این توزیع تابعی از هر دو پارامتر است، بدست آوردن آزمون دقیق یا آزمون و فواصل اطمینان بهینه پیچیده می شود. روش های زیادی برای استنباط در مورد میانگین توزیع لاگ نرمال وجود دارد. ما در این فصل از مفهوم p-مقدار تعمیم یافته (Generalized p-value) و فاصله اطمینان تعمیم یافته (Generalized Confidence Interval) استفاده می کنیم.
1-3-1- پیشینه
استنباط درباره میانگین یک جامعه لاگ نرمال توسط افرادی چون لند (Land) در سالهای (1971،1972،1973،1975،1988)، آنگوس (Angus)(1994)، ژو و گو (Zhou & Gao) (1997) و کریشنامورتی و متیو (Krishnamoorty & Mathew)(2003) مورد بررسی قرار گرفته است. مسئله مقایسه میانگین های دو جامعه لاگ نرمال در مطالعات افرادی چون ژو و گو (1997)، ژو و تو (Tu) (2000)، کریشنامورتی و متیو (2003) و چن (Chen) و ژو (2006) مطرح شده است. همچنین برای آزمون برابری میانگین های جوامع لاگ نرمال، روش های کلاسیک توسط گوو و لوه (Guo & Luh)(2000) و گیل (Gill)(2004) معرفی شد که این روش ها به طور مناسب خطای نوع اول را کنترل نمی کنند. البته این مسئله را لی (Li) در سال 2009 بررسی کرد. او آزمونی را براساس روش p-مقدار تعمیم یافته کریشنامورتی و متیو (2003) ارائه کرد. همچنین مسئله فواصل اطمینان همزمان برای نسبت میانگین های توزیع لاگ نرمال توسط هنیگ (Hannig) (2009) و صدوقی الوندی و ملک زاده (Sadooghi-Alvandi & Malekzadeh) (2014) و برای نسبت و اختلاف میانگین های توزیع لاگ نرمال توسط شاراشمیت (Schaarschmidt)(2013) بررسی شده است.
کریشنامورتی و متیو برای استنباط روی میانگین توزیع لاگ نرمال از مفهوم p-مقدار تعمیم یافته و فاصله اطمینان تعمیم یافته استفاده کردند. p-مقدار تعمیم یافته توسط ویراهاندی و تسو (Weerahandi & Tsue) در سال 1989 و فاصله اطمینان تعمیم یافته توسط ویراهاندی در سال 1993 معرفی شده است. (Krishnamoorty and Mathew,2003,p.103-121)
1-3-2- آزمون برای میانگین توزیع لاگ نرمال
فرض کنید X_1,…,X_n یک نمونه تصادفی از توزیع LN(μ,σ^2) باشد و Y_i=ln⁡(X_i) قرار می دهیم. برای راحتی محاسبات به جای میانگین توزیع، لگاریتم آن یعنی η=μ+1/2 σ^2 را آزمون می کنیم. آزمون زیر را در نظر بگیرید:
(1-3-1) H_0:η≤η_0 v.s H_1:η >η_0
که η_0 یک مقدار مشخص از η می باشد.
1-3-2-1-p -مقدار تعمیم یافته
فرض کنید X یک بردار تصادفی از توزیعی با بردار پارامترهای نامعلوم η=(θ,δ) باشد به گونه ای که θ پارامتر مورد علاقه و δ پارامتر مزاحم می باشد. (پارا متر مزاحم پارامتری است که در توزیع متغیر X وجود دارد اما پارامتر مورد علاقه نیست.)
فرض کنید علاقه مند به آزمون H_0:θ≤θ_0 در مقابل H_1:θ>θ_0 هستیم به گونه ای که θ_0 مقداری مشخص و معلوم می باشد. همچنین فرض کنید x نشان دهنده مقدار مشاهده شده بردار تصادفی X باشد.
کمیت تصادفی T(X;x,θ,δ) که به مقدار مشاهده شده x و پارامترها بستگی دارد را متغیر آزمون تعمیم یافته (Generalized Test Variable) گوییم هرگاه سه ویژگی زیر برقرار باشد:
1) مقدار مشاهده شده T(X;x,θ,δ) یعنی T(x;x,θ,δ) وابسته به پارامترهای نامعلوم نباشد.
2) توزیع آماره T(X;x,θ,δ) به شرط مشخص بودن پارامتر θ به پارامتر مزاحم δ بستگی نداشته باشد.
3) به ازای x و δ ثابت، Pr⁡(T(X;x,θ,δ)≤t) تابعی یکنوا نسبت به θ باشد. (1-3-2)
براساس شرایط فوق اگر Pr⁡(T(X;x,θ,δ)≤t) نسبت به θ غیرصعودی باشد، آنگاه p-مقدار تعمیم یافته به صورت زیر تعریف می شود:
p-value=(sup)┬(θ≤θ_0 )⁡Pr⁡(T(X;x,θ,δ)≥t) =Pr(T(X;x,θ_0,δ)≥t)
در ضمن اگر Pr⁡(T(X;x,θ,δ)≤t) نسبت به θ غیرنزولی باشد، آنگاه p-مقدار تعمیم یافته به صورت زیر خواهد بود:
p-value=(sup)┬(θ≤θ_0 )⁡Pr⁡(T(X;x,θ,δ)≤t) =Pr(T(X;x,θ_0,δ)≤t)
به گونه ای که t=T(x;x,θ,δ) است.
طبق تعریف فوق، در توزیع لاگ نرمال مطرح شده، اگر آماره T_1 را به صورت زیر تعریف کنیم:
T_1=y ̅-(Y ̅-μ)/(S⁄√n) s/√n+1/2 σ^2/S^2 s^2-η
(1-3-3) =y ̅-Z/(√U⁄√(n-1)) s/√n+1/2 s^2/(U⁄(n-1))-η
که در آن Z=(Y ̅-μ)/(σ⁄√n) دارای توزیع نرمال استاندارد و U=((n-1)S^2)/σ^2 دارای توزیع کای اسکور با n-1 درجه آزادی می باشد. همچنین Uو Z از هم مستقل هستند. Y ̅ وS^2 برآوردگرهای نااریب برای μ و σ^2 هستند که در بخش (1-2-4) معرفی شده است. حال شرایط (1-3-2) را برای آماره T_1 بررسی می کنیم:
1) مقدار مشاهده شده T_1 صفر است، بنابراین t_1 به پارامترهای مجهول بستگی ندارد.
2) به ازای η ثابت، با توجه به اینکه آماره T_1 ترکیبی از توزیع های نرمال و کای اسکور است که توزیع آنها به پارامترهای مجهول بستگی ندارد. بنابراین توزیع T_1 هم به پارامترهای مجهول بستگی ندارد.
3) با توجه به اینکه η پارامتر مکان است، بنابراین Pr⁡(T_1≤t_1) نسبت به η غیر نزولی می- باشد.
در نتیجه می توان T_1 را به عنوان متغیر آزمون تعمیم یافته در نظر گرفت و p-مقدار تعمیم یافته را به صورت زیر تعریف کرد:
p-value=Pr⁡(T_1<0├|η=η_0 ┤)
بنابراین فرض صفر در رابطه (1-3-1) در سطح α رد می شود اگر p-value<α باشد.
1-3-3- فاصله اطمینان برای میانگین توزیع لاگ نرمال
در این جا نیز برای سادگی محاسبات ریاضی ابتدا برای η یک فاصله اطمینان بدست می- آوریم سپس از تبدیل نمایی استفاده می کنیم.
کمیت تصادفی R=r(X;x,θ,δ) که به مقدار مشاهده شده x و پارامترها بستگی دارد را کمیت محوری تعمیم یافته(Generalized Pivotal Quantity) گوییم هرگاه شرایط زیر برقرار باشد.
1) توزیع کمیت R مستقل از پارامترهای نامعلوم باشد.
2) مقدار مشاهده شده R یعنی r(x;x,θ,δ) وابسته به پارامتر مزاحم δ نباشد. (1-3-5)
حال اگر C_γ را طوری در نظر بگیریم که Pr⁡(R∈C_γ )=γ باشد، آنگاه مجموعه Θ_c از فضای پارامتری Θ (Θ فضای پارامتری θ می باشد) که به صورت زیر تعریف می شود، یک فاصله اطمینان تعمیم یافته 100γ درصد برای θ خواهد بود.
Θ_C (r)={θ∈Θ:r(x;x,θ,δ)∈C_γ }
با توجه به تعریف فوق، برای توزیع لاگ نرمال مطرح شده، اگر T_2 را به صورت زیر تعریف کنیم:
T_2=y ̅-(Y ̅-μ)/(S⁄√n) s/√n+1/2 σ^2/S^2 s^2
(1-3-6) =y ̅-Z/(√U⁄√(n-1)) s/√n+1/2 s^2/(U⁄(n-1))
آنگاه T_2 یک کمیت محوری تعمیم یافته برای η خواهد بود، زیرا شرایط (1-3-5) که در زیر بررسی شده است، برقرار می باشد.
1) با توجه به اینکه کمیت T_2 ترکیبی از توزیع های نرمال و کای اسکور است و توزیع آنها به پارامترهای مجهول بستگی ندارد. بنابراین توزیع T_2 هم به پارامترهای مجهول بستگی ندارد.
2) مقدار مشاهده شده T_2 برابر η می باشد که به پارامتر مزاحم μ وابسته نیست.
بدین ترتیب یک فاصله اطمینان 100(1-α) درصد تعمیم یافته برای η به صورت زیر تعریف می شود:
(T_2 (α⁄2),T_2 (1-α⁄2))
که در آن مقدار T_2 (1-α⁄2) و T_2 (α⁄2) صدک های (100(α)⁄2) و (100(1-α)⁄2) از توزیع T_2 می باشد.
با توجه به روابط (1-3-3) و (1-3-6)، T_1=T_2-η است. پس می توان p-مقدار تعمیم یافته برای آزمون (1-3-1) را از آماره T_2 به صورت زیر محاسبه کرد:
p-value=Pr⁡(T_2≤η_0 )
پس فرض η≤η_0 در سطح α رد می شود اگر p-value<α باشد.
برای محاسبه p-مقدار تعمیم یافته و فاصله اطمینان تعمیم یافته لازم است توزیع T_2 را بدانیم ولی با توجه به اینکه T_2 تنها به نمونه، متغیرهای تصادفی نرمال استاندارد و کای اسکور ارتباط دارد، پس برای مشخص کردن توزیع آن از محاسبه این آماره با استفاده از تولید تصادفی K مقدار از T_2 که K یک مقدار بزرگ است، استفاده می کنیم. در این صورت با استفاده از روش مونت کارلو که در الگوریتم زیر آمده است، می توان p-مقدار تعمیم یافته و فاصله اطمینان تعمیم یافته را برآورد کرد.
الگوریتم :
برای هر نمونه بدست آمده x_1,…,x_n مقادیر y_i=ln⁡(x_i)، i=1,..,n، را بدست می آوریم.
y ̅=1/n ∑_(i=1)^n▒y_i و s^2=1/(n-1) ∑_(i=1)^n▒〖(y_i-y ̅)〗^2 را محاسبه می کنیم.
برای k=1,…,K
متغیرهای Z_k~N(0,1) و U_k~χ_(n-1)^2 را تولید می کنیم.
مقادیر T_2k=y ̅-Z_k/(U_k⁄√(n-1)) s/√n+1/2 s^2/((U_k^2)⁄(n-1)) را بدست می آوریم.
( پایان حلقه )
اگر T_2k≤η_0 باشد d_k=1 و در غیر اینصورت d_k=0 قرار می دهیم.
بنابراین برآورد p-مقدار تعمیم یافته به صورت 1/K ∑_(k=1)^K▒d_k می باشد، همچنین صدک 100(1-α) ام از T_21,…,T_2K، برآورد کران بالای فاصله اطمینان تعمیم یافته یک طرفه برای η یعنی T_2 (1-α) خواهد بود.
فصل دوم: آزمون برابری میانگین های جوامع لاگ نرمال
آزمون برابری میانگین های جوامع لاگ نرمال
2-1- مقدمه
یکی از مسائل مهم در آمار، مسئله مقایسه میانگین های چند جامعه (تیمار) است. روش استاندارد برای آزمون کردن برابری میانگین های چند جامعه با فرض نرمال بودن توزیع داده- ها، آزمون F (ANOVA F-test) می باشد، با توجه به رابطه توزیع لاگ نرمال و نرمال که در بخش (1-2-2) بیان شد، می توان از تبدیل لگاریتم طبیعی روی داده ها و آزمون F برای بررسی این مسئله در توزیع لاگ نرمال استفاده کرد. ولی با این تبدیل، فرض برابری میانگین- ها در داده های اصلی با فرض برابری میانگین ها در داده های تبدیل یافته در صورتی که واریانس های داده های تبدیل یافته برابر نباشند، معادل نخواهند بود که در ادامه این موضوع بررسی می شود.
برای حل این مسئله روش استاندارد و دقیقی وجود ندارد. استفاده از روش های مجانبی، یک راه حل معمول در این گونه مسائل می باشد که در این مسئله نیز چندین روش مجانبی وجود دارد.
گوو و لوه در سال 2000 سه آزمون مجانبی را مورد بررسی قرار دادند که شامل آزمون آلکساندر-گوورن (Alexander-Govern test) (1994)، آزمون ولچ (Welch test) (1951) و آزمون مرتبه دوم جیمز (James second-order test) (1951) می باشند. این روش ها را با آزمون F مقایسه کردند. نتایج شبیه سازی آنها نشان داد که این سه آزمون تقریبا مانند هم عمل می کند و قابل اعتماد تر و پرتوان تر از آزمون F می باشد.
همچنین، لی (Li) در سال 2009، روش p-مقدار تعمیم یافته را برای مقایسه میانگین های چند جامعه لاگ نرمال بکار برد که در مقایسه با آزمون های مجانبی دیگر خواص خوبی داشت.
در این فصل به معرفی روش لی و آزمون ولچ می پردازیم و این دو روش را براساس ملاک هایی چون توان و اندازه آزمون مقایسه می کنیم.
2-2- آزمون ها
فرض کنید طرح، یک طرح تصادفی کامل وY_i1,…,Y_(in_i ) مشاهده ها از واحدهای آزمایشی در تیمار i ام i=1,…,I باشد. همچنین فرض کنید Y_ij=exp⁡(X_ij) دارای توزیع N(μ_i,σ_i^2) است، به عبارت دیگر X_ij دارای توزیع لاگ نرمال با پارامترهای μ_i وσ_i^2 و امید ریاضی θ_i=exp⁡(μ_i+1/2 σ_i^2)، می باشد.
μ ̂_i=Y ̅_i=1/n_i ∑_(j=1)^(n_i)▒Y_ij و σ ̂_i^2=1/n_i ∑_(j=1)^(n_i)▒〖(Y_ij-μ ̂_i)〗^2 به ترتیب برآوردگرهای درستنمایی ماکزیمم برای μ_i و σ_i^2 هستند، همچنین برآوردگر نااریب برای σ_i^2، S_i^2=1/(n_i-1) ∑_(j=1)^(n_i)▒〖(Y_ij-μ ̂_i)〗^2 می باشد.
در این فصل مسئله مورد علاقه آزمون کردن فرضیه های زیر می باشد:
(2-2-1) H_0:θ_1=…=θ_(I ) v.s H_1:.باشد متفاوت〖 θ〗_i از یکی حداقل
اگر η_i=ln(θ_i) قرار دهیم آنگاه فرض فوق معادل می شود با
(2-2-2) H_0:η_1=…=η_(I ) v.s H_1:.باشد متفاوت〖 η〗_i از یکی حداقل
و در صورت برابر بودن σ_i^2 (واریانس Y_ij ) فرض برابری 〖 η〗_iمعادل با فرض برابری μ_i خواهد بود، یعنی

〖H_0〗^*:μ_1=…=μ_(I ) v.s 〖H_1〗^*:باشد متفاوت μ_i از یکی حداقل
که در این صورت با مسئله مقایسه میانگین های I جامعه نرمال روبرو هستیم و می توانیم از آزمون استاندارد F استفاده کنیم. همچنین برای آزمون کردن برابریσ_i^2 ( واریانس Y_ij ها ) می توان از آزمون لون(Leven’s test) (1960) استفاده کرد. ولی اگرσ_i^2 ها برابر نباشند، فرض H_0 هرگز با فرض 〖H_0〗^* معادل نخواهند بود و آزمون F مناسب نیست. در ادامه برای آزمون کردن فرض H_0 دو آماره آزمون مجانبی را معرفی می کنیم.
2-2-1- آزمون ولچ (Welch’s test)
ولچ در سال 1951 برای مقایسه میانگین چند جامعه، یک آزمون مجانبی معرفی کرد. در این بخش ابتدا روش ولچ را به صورت مختصر توضیح می دهیم (Welch, 1951,p.330-336)، سپس با استفاده از این روش به آزمون کردن فرضیه (2-2-2) می پردازیم.
2-2-1-1- روش ولچ (Welch Method)
فرض کنید Y_i، i=1,…,I، متغیرهای تصادفی مستقل با توزیع نرمال با میانگین μ_i و واریانس λ_i σ_i^2 باشند که در آن λ_i ثابت و معلوم و μ_i و σ_i^2 مجهول می باشند. همچنین فرض کنید S_i^2 برآورد σ_i^2 باشد بطوری که f_i/(σ_i^2 ) S_i^2 دارای توزیع کای اسکور با f_i درجه آزادی باشد.
ولچ در سال 1951 آماره ∑_(i=1)^I▒〖w_i 〖(Y_i-Y ̂)〗^2 〗، که در آن w_i=1/(λ_i S_i^2 ) و Y ̂=(∑_(i=1)^I▒〖w_i Y_i 〗)/(∑_(i=1)^I▒w_i ) می باشد را معرفی کرد. وی با محاسبه تابع مولد گشتاور این آماره و مقایسه آن با تابع مولد گشتاور توزیع F به این نتیجه رسید که ∑_(i=1)^I▒〖w_i 〖(Y_i-Y ̂)〗^2 〗 تقریبا دارای توزیع cF است بطوریکه F دارای توزیع F با درجات آزادی v_1 و ν_2 می باشد که v_1 ، ν_2 و c به صورت زیر محاسبه می شوند.
v_1=I-1 , v_1=(I^2-1)/3A
c=I-1+2(I-2)/(I+1) A , A=∑_(i=1)^I▒1/f_i (1- w_i/(∑_(i=1)^I▒w_i ))^2.
در مسئله مورد نظر ما، با توجه به اینکه μ ̂_i و S_i^2 برآوردگرهای نااریب برای μ_i و σ_i^2 هستند، پس برآوردگر نااریب برای η_i به صورت زیر خواهد بود:
η ̂_i=μ ̂_i+1/2 S_i^2
که در آن μ ̂_i وS_j^2 مستقل از هم هستند و μ ̂_i دارای توزیع N(μ_i,(σ_i^2)⁄n_i ) و ((n_i-1)S_i^2)⁄(σ_i^2 ) دارای توزیع کای اسکور با n_i-1 درجه آزادی می باشد، بدین ترتیب
var(η ̂_i )=(σ_i^2)⁄n_i +(σ_i^4)⁄({2(n_i-1)})
با جایگزین کردن برآوردگر S_i^2 به جای σ_i^2، یک برآوردگر برای واریانس η ̂_i به صورت زیر خواهد بود:
(S_i^2)⁄n_i +(S_i^4)⁄({2(n_i-1)})
برای ساختن آماره ولچ، ابتدا لازم است روابط زیر را تعریف کنیم:
w_i=1⁄{ (S_i^2)⁄n_i +(S_i^4)⁄((2(n_i-1)) )} , U=∑_(i=1)^I▒w_i , η ̂=(∑_(i=1)^I▒〖w_i η ̂_i 〗)/U
حال اگر B,A را به صورت زیر تعریف کنیم:
A=(I-1)^(-1) ∑_(i=1)^I▒〖w_i (η ̂_i-η ̂ )^2 〗
B=2(I-1) (I^2-1)^(-1) ∑_(i=1)^I▒〖(1-w_i⁄(U))〗^2⁄((n_i-1) )
آنگاه آماره ولچ به صورت
W=A⁄((B+1) )
است که تحت فرض صفر دارای توزیع مجانبی F با v_1=I-1 و
v_2=〖{3(I^2-1)^(-1) ∑_(i=1)^I▒〖(1-w_i⁄(U))〗^2⁄((n_i-1) )}〗^(-1)
درجه آزادی می باشد. بنابراین فرض صفر در (2-2-2) رد می شود اگر W بزرگتر از صدک 100(1-α) از توزیع F با v_1 و v_2 درجه آزادی باشد.
2-2-2- روش p-مقدار تعمیم یافته
لی در سال 2009 براساس روش کریشنامورتی و متیو (2003)، p-مقدار تعمیم یافته برای آزمون (2-2-2) را به صورت زیر محاسبه کرد.(Li ,2009 , p.1404-1408)
اگر قرار دهیمη=(η_1,…,η_I)’ و تعریف کنیم
H=(■(1&0&…&0&-1@0&1&…&0&-1@…&…&…&…&…@0&0&…&1&-1))_((I-1)×I)
آنگاه آزمون (2-2-2) با آزمون زیر معادل می شود:
(2-2-3) H_0:Hη=0 v.s H_1:Hη≠0
براساس مطالب گفته شده در بخش (1-3-3)، T_(η_i ) تعریف شده در زیر یک کمیت محوری تعمیم یافته برای پارامتر η_i=μ_i+1/2 σ_i^2، i=1,…,I می باشد.
T_(η_i )=y ̅_i-Z_i/(√(U_i )⁄√(n_i-1)) s_i/√(n_i )+1/2 (s_i^2)/(U_i⁄((n_i-1)))
در رابطه بالا y ̅_i وs_i^2 مقدار مشاهده شده میانگین و واریانس نمونه ای Y ̅_i وS_i^2 و Z_i=√(n_i )(Y ̅_i-μ_i)/σ_i دارای توزیع نرمال استاندارد و U_i=(n_i-1) S_i^2/σ_i^2 دارای توزیع کای اسکور با n_i-1 درجه آزادی می باشد و در ضمن Z_i ها از U_i ها مستقل هستند.
بنابراین یک کمیت محوری برای Hη به صورت
(2-2-4) T_Hη=H(T_(η_1 ),…,T_(η_I ) )^’ =HT_η
بدست می آید.
قضیه 2-2-1: اگر بردارهای Y ̅=(Y ̅_1,…,Y ̅_I) و S^2=(S_1^2,…,S_I^2) را داشته باشیم، آنگاه امید شرطی و ماتریس واریانس شرطی T_Hη به شرط (Y ̅,S^2 )=(y ̅,s^2) که به ترتیب با μ_T و Σ_T نمایش داده می شود به صورت زیر می باشد:
μ_T=H(E(├ T_(η_1 ) ┤|(y ̅,s^2 )),…,E(├ T_(η_I ) ┤|(y ̅,s^2 )))^’
Σ_T=Hdiag(Var(├ T_(η_1 ) ┤|(y ̅,s^2 )),…,Var(├ T_(η_I ) ┤|(y ̅,s^2 ))) H^’
که در این روابط
E(├ T_(η_i ) ┤|(y ̅,s^2 ))=y ̅_i+(n_i-1)/2(n_i-3) s_i^2 ,n_i>3
Var(├ T_(η_i ) ┤|(y ̅,s^2 ))=(n_i-1)/(n_i (n_i-3) ) s_i^2+(n_i-1)^2/(2(n_i-3)^2 (n_i-5) ) s_i^4 , n_i>5
اثبات: با توجه به تعریف امید ریاضی و واریانس داریم:
μ_T=E(├ T_Hη ┤|(y ̅,s^2 ))=E(├ HT_η ┤|(y ̅,s^2 ))=HE(├ (T_(η_1 ),…,T_(η_I ) )^’ ┤|(y ̅,s^2 ))
=H(E(├ T_(η_1 ) ┤|(y ̅,s^2 )),…,E(├ T_(η_I ) ┤|(y ̅,s^2 )))^’
Σ_T=Var(├ T_Hη ┤|(y ̅,s^2 ))=Var(├ HT_η ┤|(y ̅,s^2 ))=H Var(├ T_η ┤|(y ̅,s^2 )) H^’
=Hdiag(Var(├ T_(η_1 ) ┤|(y ̅,s^2 )),…,Var(├ T_(η_I ) ┤|(y ̅,s^2 ))) H^’
که در این روابط E(├ T_(η_i ) ┤|(y ̅,s^2 )) و Var(├ T_(η_i ) ┤|(y ̅,s^2 )) به صورت زیر محاسبه می شود:
E(├ T_(η_i ) ┤|(y ̅,s^2 ))=E(├ y ̅_i-Z_i/(√(U_i )⁄√(n_i-1)) s_i/√(n_i )+1/2 (s_i^2)/(U_i⁄((n_i-1)))┤|(y ̅,s^2 ))
=y ̅_i-√(n_i-1)/√(n_i ) s_i E(Z_i ├|(y ̅,s^2 )┤)E(1/√(U_i ) ├|(y ̅,s^2 )┤)+(n_i-1)/2 s_i^2 E(1/U_i ├|(y ̅,s^2 )┤)=y ̅_i+(n_i-1)/2 s_i^2 (Γ((n_i-1)/2-1) (1/2)^((n_i-1)/2))/(Γ((n_i-1)/2) (1/2)^((n_i-1)/2-1) )
=y ̅_i+(n_i-1)/2(n_i-3) s_i^2 ,n_i>3
در رابطه بالا E(Z_i ├|(y ̅,s^2 )┤)=0 می باشد.
همچنین
Var(├ T_(η_i ) ┤|(y ̅,s^2 ))=Var(├ y ̅_i-Z_i/(√(U_i )⁄√(n_i-1)) s_i/√(n_i )+1/2 (s_i^2)/(U_i⁄((n_i-1)))┤|(y ̅,s^2 ))
=(n_i-1)/n_i s_i^2 Var(Z_i/√(U_i ) ├|(y ̅,s^2 )┤)+(n_i-1)^2/4 s_i^4 Var(1/U_i ├|(y ̅,s^2 )┤)-((n_i-1) √(n_i-1))/√(n_i ) 〖s_i〗^3 cov((Z_i/√(U_i ),1/U_i )├|(y ̅,s^2 )┤)
که در این رابطه
Var(Z_i/√(U_i ) ├|(y ̅,s^2 )┤)=E((〖Z_i/√(U_i ))〗^2 ├|(y ̅,s^2 )┤)-E^2 (Z_i/√(U_i ) ├|(y ̅,s^2 )┤)

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

=E(〖Z_i〗^2 ├|(y ̅,s^2 )┤)E(1/U_i ├|(y ̅,s^2 )┤)-E^2 (Z_i ├|(y ̅,s^2 )┤) E^2 (1/√(U_i ) ├|(y ̅,s^2 )┤)
=1×1/((n_i-3) )-0×E^2 (1/√(U_i ) ├|(y ̅,s^2 )┤)=1/((n_i-3) )
و
Var(1/U_i ├|(y ̅,s^2 )┤) =E(1/(U_i^2 ) ├|(y ̅,s^2 )┤)-E^2 (1/U_i ├|(y ̅,s^2 )┤)
=(Γ((n_i-1)/2-2) (1/2)^((n_i-1)/2))/(Γ((n_i-1)/2) (1/2)^((n_i-1)/2-2) )-1/(n_i-3)^2
=1/(n_i-3)(n_i-5) -1/(n_i-3)^2 =2/((n_i-3)^2 (n_i-5) )
و
cov((Z_i/√(U_i ),1/U_i )├|(y ̅,s^2 )┤)=E(Z_i/√(U_i )×1/U_i ├|(y ̅,s^2 )┤)-E(Z_i/√(U_i ) ├|(y ̅,s^2 )┤)E(1/U_i ├|(y ̅,s^2 )┤)
=E(Z_i ├|(y ̅,s^2 )┤)E(1/(U_i^(3⁄2) ) ├|(y ̅,s^2 )┤)-E(Z_i ├|(y ̅,s^2 )┤)E(1/U_i ├|(y ̅,s^2 )┤)E(Z_i/√(U_i ) ├|(y ̅,s^2 )┤)=0
در نتیجه
Var(├ T_(η_i ) ┤|(y ̅,s^2 ))=(n_i-1)/n_i s_i^2 1/((n_i-3) )+(n_i-1)^2/4 s_i^4 2/((n_i-3)^2 (n_i-5) )
=(n_i-1)/(n_i (n_i-3) ) s_i^2+(n_i-1)^2/(2(n_i-3)^2 (n_i-5) ) s_i^4 , n_i>5 .
حال با داشتن μ_T و Σ_T می توانیم T ̃ را به صورت زیر تعریف کنیم :
(2-2-5) T ̃=Σ_T^(-1/2) (T_Hη-μ_T)
که آماره استاندارد شده T_Hη است، همچنین با داشتن بردار (y ̅,s^2 )، مقدار مشاهده شده T ̃ یعنی t ̃=Σ_T^(-1/2) (Hη-μ_T) را داریم. با توجه به اینکه توزیع T ̃ به پارامتر نامعلومی بستگی ندارد، بنابراین Pr⁡(‖T ̃ ‖^2≥‖t ̃ ‖^2) بستگی به پارامتر نامعلوم ندارد. حال اگر q_({‖T ̃ ‖^2;γ}) را صدک 100γ ام از توزیع ‖T ̃ ‖^2 درنظر بگیریم، داریم

دسته بندی : پایان نامه ارشد

پاسخ دهید