۳-۱۱-۱-۱-۳- فرایند IBP
توزیع احتمال تعریف شده در معادله (۲۵) را میتوان از یک فرایند تصادفی ساده استخراج نمود. این فرایند تصادفی روشی آسان برای حفظ نمودن ویژگیهای برجسته توزیعهای احتمال معرفی می کند و می تواند به منظور استخراج برنامه های نمونه گیری برای مدلهایی که بر مبنای این توزیعها قرار دارند، مورد استفاده قرار بگیرد. با الهام از فرایند CRP[619] (اولدس[۶۲۰]، ۱۹۸۵؛ پتمن[۶۲۱]، ۲۰۰۲)، از یک تشبیه آشپزخانهای و پختنی[۶۲۲] برای تعریف این فرایند تصادفی استفاده مینماییم (شکل ۷٫۳). بسیاری از رستورانهای هندی در لندن کافههای عصرانه[۶۲۳] با تعداد به ظاهر بینهایت خوراک، عرضه می کنند. ما میتوانیم یک توزیع بر روی ماتریسهای باینری نامتناهی، از طریق تصریح روشی که توسط آن مشتریان (اشیاء) خوراکها را انتخاب می کنند (مشخصهها)، تعریف کنیم.
قبل از معرفی این ساختار لازم است مفهوم کافه و بالأخص کافه هندی معرفی گردد.
یک کافه، سیستمی است متشکل از چندین خوراک برای سرو کردن که در آن غذا در یک مکان برای عموم قرار داده شده است به این صورت که در این مکان این افراد هستند که از خود پذیرایی می کنند. کافهها در مکانهای گوناگون و مختلفی از جمله هتلها و در محل بسیاری از رویدادهای اجتماعی، عرضه می شود.
مشخصه ذاتی ساختار کافههای مختلف آن است که افراد مستقیماً غذا را میبینند و فوراً انتخاب خود از میان خوراکهایی که تمایل به مصرف آنها را دارند، انجام می دهند و نیز همواره میتوانند تصمیم بگیرند که چقدر غذا سرو نمایند. در کافهها امکان پذیرایی همزمان از تعداد زیادی از افراد وجود دارد.
لازم به ذکر است که واژه کافه نخستین بار و در اوایل قرن ۱۸، به معنای میز دم دستی در خانههای فرانسه[۶۲۴] که بر روی آن غذا سرو میگردید، استعمال میشد اما در نهایت این واژه با معنای پذیرایی کردن به کار برده شد. توجه شود که این واژه در زبان انگلیسی به طور کامل پذیرفته شده است.
تا اینجا یک توزیع بر روی ماتریسهای باینری نامتناهی تعریف شد که یکی از خواسته های ما را برآورده
می کند-اشیاء (ردیفهای ماتریس) تحت این توزیع تعویضپذیر هستند. آن چیزی که باقی مانده آن است که نشان دهیم که استنباط در مدلهای مشخصه نهفته قابل بررسی و محاسبه است.
شکل ۷٫۳٫ بسیاری از رستورانها در لندن کافههای عصرانه با تعداد به ظاهر بینهایت خوراک عرضه می کنند
۳-۱۲- مدلسازی داده ها
به منظور روشن ساختن اینکه چگونه IBP می تواند به عنوان یک پیشین در مدلها، برای یادگیری غیرنظارتی مورد استفاده قرار بگیرد، یک مدل مشخصه نهفته گاوسین-خطی[۶۲۵] با مشخصهای باینری را استخراج و آزمون میکنیم. در این مورد، ماتریس مشخصه به ماتریس باینری تبدیل می شود.
ماتریس را یک ماتریس با بعد قرار میدهیم به طوریکه هر کدام از ردیفها شامل یک مشاهده بعدی است. از آنجاییکه در مدل راستنمایی گاوسین خطی درنظر گرفته شده، توسط تقریب زده می شود که یک ماتریس باینری و یک ماتریس است. مقادیر مشخصه در ردیف از ماتریس ذخیره شده است. داده های مشاهده شده به صورت در نظر گرفته میشوند که نویز اندازه گیری است. فرض می شود که نویز مستقل از و است و ناهمبسته با مشاهدات در هر کدام از ردیف میباشد.
به عبارت دیگر، بردار D-بعدی برای یک مشاهده ، ، از یک توزیع گاوسین با میانگین و ماتریس کواریانس تولید شده است، که یک بردار باینری K-بعدی میباشد و یک ماتریس از وزنها با بعد معرفی شده در بالا هستند. به نماد ماتریسی داریم: . اگر یک ماتریس مشخصه باشد، با فرمی از یک تجزیه و تحلیل عاملی باینری رو به رو هستیم. توزیع با مفروض بودن ماتریسهای ، و ، دارای توزیع گاوسین ماتریسی با میانگین و ماتریس کواریانس میباشد که I ماتریس یکه است. پیشین بر روی ماتریس A نیز گاوسین ماتریسی، با میانگین صفر و ماتریس کواریانس است؛ که پارامتری است که پراکندگی پیشین برای را تعیین می کند.
برای یک ماتریس مفروض، به دنبال یافتن توزیع پسین از و هستیم. از قاعده بیز داریم
در رابطه بالا فرض شده که و مستقل از یکدیگر هستند. بر اساس نوع کاربرد، تابع راستنمایی و پیشین تعیین می شود. در اینجا، موردی را در نظر میگیریم که هر دوی نویز و
مشخصههای ، پیشینهای گاوسین دارند. ما اکنون نمیتوانیم پیشینی بر روی قرار دهیم. چون K را
نمیدانیم، تمایل داریم پیشینی برای آن در نظر بگیریم که اجازه دهد K در زمان استنباط تعیین شود. فرایند کافه هندی یکی از گزینه ها برای چنین پیشینی میباشد.
فرایند IBP پیشین زیر را بر روی کلاسهای همارزی Z، ، قرار میدهد. یک فرم استاندارد از Z است که نسبت به رتبه بندی مشخصهها بیتغییر است (همان مفهوم تعویضپذیر بودن)
متغیرهای رابطه بالا در قسمت (۳-۱۰-۱-۲-) معرفی شده اند.
۳-۱۲-۱- ساختار رستوران[۶۲۶]
فرایند مولد[۶۲۷] کلاسیک گرفیث و قهرمانی (۲۰۰۵) به صورت زیر میباشد: N مشتری که هر کدام نمایانگر یک مشاهده هستند، یکی پس از دیگری وارد رستورانی میشوند (یک دنباله از N مشتری). هر مشتری با یک کافه شامل تعداد بینهایت خوراک که در یک خط چیده شده اند (متناظر با ستونهای Z) رو به رو می شود. نخستین مشتری از سمت چپ کافه شروع می کند و از هر خوراک بر میدارد (عدد ۱ در ستونهای مربوطه قرار داده می شود)، بعد از به تعداد از خوراکها زمانیکه بشقابش سرریز می شود، متوقف می شود. توجه شود که هر خوراک نمایانگر یک مشخصه است. nامین مشتری بعدی در کافه شروع به حرکت می کند،
خوراکهایی که توسط مشتریان قبلی سرو شده بود را با احتمال (بر اساس محبوبیت آنها) نمونه گیری می کند که تعداد افرادی است که ظرف را قبل از مشتری ام نمونه گیری کرده بود. بعد از اینکه این مشتری به پایان خوراکهایی که قبلاً نمونه گیری شده بودند رسید، nامین مشتری همچنین از خوراکهای جدید با احتمال ، که به پارامتر بستگی دارد، بر میدارد.
با بهره گرفتن از یک ماتریس باینری با ردیف و تعداد بینهایت ستون، میتوان مشخص نمود که کدام مشتری کدام خوراک را انتخاب می کند. اگر مشتری ام ظرف خوراک را سرو کند، در آرایه مقدار ۱ قرار داده می شود. ماتریس خوراک-مشتری، ماتریس مشخصه ما یعنی ماتریس است.
شکل زیر ماتریسی که با بهره گرفتن از فرایند IBP با پارامتر تولید شده است را نشان میدهد. نخستین مشتری خوراکهای مورد علاقه خود را سرو می کند. دومین مشتری از آن خوراکها به تعداد ۷ خوراک و از خوراکهای جدید به تعداد ۳ خوراک، برای خود سرو می کند. سومین مشتری از خوراکهایی که دو مشتری قبلی سرو کرده اند به تعداد ۳ خوراک، از خوراکهایی که تنها مشتری اول سرو نموده به تعداد ۵ خوراک و ۲ خوراک از خوراکهای جدید را سرو نموده است. اگر انتخابهای مشتریان به طور عمودی درکنار یکدیگر قرار داده شود، ماتریس باینری که در شکل (۸٫۳) پایین نشان داده شده است، حاصل می شود.
اگر چه کافه نامتناهی است، اما ساختار توزیع تضمین می کند که هر مشتری تعداد متناهی خوراک را با احتمال ۱ سرو می کند و بنابراین، با مفروض بودن یک تعداد متناهی از مشاهدات، انتظار میرود که تنها یک تعداد متناهی از مشخصهها انتخاب شود.
با بهره گرفتن از برای مشخص کردن تعداد خوراکهای جدیدی که توسط امین مشتری نمونه گیری شده است، احتمال اینکه ماتریس خاصی توسط این فرایند تولید شود برابر است با
شکل ۸٫۳٫ یک ماتریس باینری که توسط فرایند IBP با تولید شده است.
همانطور که از شکل (۸٫۳) میتوان مشاهده نمود، ماتریسهایی که توسط این فرایند تولید میشوند به طور کلی به فرم مرتب شده از چپ نیستند. زیرا ترسیمها از توزیع پواسون همواره منجر به انتخابهایی از
خوراکهای جدید می شود که در سمت راست خوراکهایی که قبلاً انتخاب شده اند قرار میگیرند.
آنچه که از ساختار کافه هندی کمتر مشهود میباشد، آن است که فرایند کافه هندی بینهایت تعویضپذیر[۶۲۸] است، به عبارت دیگر، توزیع احتمال Z تحت تأثیر رتبه حضور مشتریان در کافه (رتبه بندی مشاهدات) قرار نمیگیرد و ستونها (خوراکها) نیز مستقل هستند. به یاد آورید که در ساختار هندی، مشتریان خوراکها را تنها بر مبنای محبوبیتشان انتخاب می کنند. بنابراین، تنها چیزی که درباره مشخصه ۱ مهم است آن است که این مشخصه یکی از مشخصههای مشهورتر باشد. ارزش مقداری که برای مشخصه ۱ انتخاب شده است از محبوبیت آن مستقل میباشد.
البته توجه شود که به طور کلی، مشتریان تحت چنین توزیعی تعویضپذیر نیستند، زیرا تعداد خوراکهایی که بر اساس شمرده می شود به رتبه ورود مشتریان، بستگی دارد. به هر حال اگر تنها به کلاسهای
همارزی- از ماتریسهای تولید شده توسط این فرایند توجه نماییم، توزیع تعویضپذیر را با مفروض بودن معادله (۲۵) بدست خواهیم آورد: ماتریسهای که از طریق این فرایند تولید میشوند به فرم مرتب از چپ یکسانی نگاشت میشوند و از طریق ﺣﺎﺻﻞضرب از معادله (۲۶) و در این کمیت، بدست می آید که فرایند تصادفی IBP تعویضپذیر[۶۲۹] نامیده می شود (گرفیث و قهرمانی، ۲۰۰۵).
۳-۱۲-۱-۱- ویژگیهای توزیع IBP تحت ساختار رستوران
دیدگاه های متفاوت که برای توزیع تصریح شده در معادله (۲۵) وجود دارد امکان استخراج ویژگیهای آن را سر راست ساخته است. نخست، بعد مؤثر مدل، ، از یک توزیع پوآسون، ، نتیجه می شود. چنین چیزی را میتوان با بهره گرفتن از فرایند مولدی که در بخش قبلی توصیف شد، به سادگی نشان داد، زیرا تحت این فرایند عبارت است از مجموع ، ، و غیره. همانطور که
میدانیم ﺣﺎﺻﻞضرب یک مجموعه از توزیعهای پوآسون، یک توزیع پوآسون میباشد به طوریکه پارامتر آن برابر مجموع پارامترهای مؤلفههای آن است. با بهره گرفتن از تعریف امین عدد هارمونیک، مقدار این پارامتر برابر با بدست می آید.
ویژگی دوم این توزیع آن است که تعداد مشخصههایی که در مالکیت هر شیء قرار دارند از یک توزیع پیروی می کنند. چنین نتیجهای از تعریف فرایند IBP نتیجه می شود. نخستین مشتری به تعداد از خوراکها را انتخاب می کند. طبق ویژگی تعویضپذیر بودن، سایر مشتریان نیز
باید به تعداد از خوراکها را انتخاب نمایند، زیرا رتبه بندی را همواره میتوان بر روی مشتریانی که با یک مشتری خاص شروع میشوند تصریح نمود.
در واقع، مشتریان خوراکها را تنها بر اساس محبوبیتشان انتخاب می کنند. بنابراین، تنها چیزی که درباره مشخصه ۱ مهم میباشد آن است که این مشخصه یکی از مشخصههای مشهورتر باشد. ارزش و مقداری که برای مشخصه ۱ انتخاب شده است مستقل از محبوبیتش است.
رفتار این فرایند توسط یک ابرپارامتر[۶۳۰] که تنها پارامتر این فرایند است، کنترل می شود. این پارامتر تعداد مورد انتظار مشخصههای موجود در هر مشاهده را کنترل می کند. به بیان دیگر، برای تعداد یکسان از مشاهدات، پارامتر بر اینکه چقدر احتمال دارد که چندین مشاهده، مشخصههای مشترکی را سهیم باشند، تأثیر
می گذارد. به همین دلیل است که به آن پارامتر تمرکز[۶۳۱] نیز میگویند.
تعداد مورد انتظار از مشخصههای نهفته،، در مشاهده برابر است؛ مدل مولد[۶۳۲] سناریوهایی را تأیید می کند که در آنها یک تعداد اندک مشخصه عمومی و مشخصههای نادر وجود دارد.
فرایند IBP فرض می کند که مشخصههای نهفته باینری هستند. بنابراین، یک شیء یا یک مشخصه را در تملک دارد یا ندارد. همچنین فرض می کند که مشخصههای نهفته از لحاظ آماری مستقل میباشند، به این معنا که دانش درباره اینکه یک شیء یک مشخصه را در مالکیت دارد هیچگونه اطلاعاتی در مورد اینکه آیا سایر مشخصهها را در مالکیت دارد یا نه فراهم نمیکند. در پایان، این فرایند فرض می کند که مشخصههای نهفته یک زیرمجموعه متناهی از یک مجموعه بیکران یا نامتناهی از مشخصهها هستند.
توجه شود که تشبیه به کافه هندی مستقیماً به نمونهگیر گیبز[۶۳۳] زیر منجر می شود. قاعده بیز بیان می کند که
جمله راستنمایی از مدل نویز به راحتی محاسبه می شود، در حالیکه برای محاسبه جمله پیشین باید به طریق زیر عمل شود: تصور کنید مشتری آخرین فردی است که به رستوران وارد شده است (این فرض به علت تعویضپذیر بودن معتبر است).
جمله پیشین برای مشخصههای فعال[۶۳۴] (خوراکهای امتحان شده یا نمونه گیری شده) برابر است. مشخصههای جدید از طریق ترکیب مدل راستنمایی با پیشین بر روی تعداد خوراکهای جدید که یک مشتری امتحان خواهد کرد، نمونه گیری می شود.
اگر پیشین مزدوج[۶۳۵] با راستنمایی باشد، با انتگرالگیری از راستنمایی ، میتوانیم را حذف کنیم و را در نظر بگیریم. این رویکرد به نمونهگیر گیبز فروپاشیده[۶۳۶] برای فرایند IBP منجر می شود. با حذف A، توزیع حاشیهای بدست می آید که به نمونهگیر گیبز فروپاشیده، سطحی از انعطافپذیری را میدهد به اینصورت که نسبت به نمونهگیر گیبز فرونپاشیده[۶۳۷] سریعتر ترکیب می شود.
موضوعات: بدون موضوع
[ 02:25:00 ب.ظ ]