دستگاههای محاسباتی
۳-فصل سوم: روش تحقیق
۳-۱-مقدمه
مهمترین مسئله در بینایی کامپیوتر لبهیابی و فهمیدن رفتار انسان است. در این محدوده مدلهای زیادی که تعامل بین کامپیوتر و انسان است ایجاد شده است. مثال: طراحی رابط کاربر، رباط یاد گیرنده، نظارت. اما از همه اینها بالاتر
آشکارسازی فعالیتهای انسان است و فهمیدن انگیزه و حرکت کردن او و مشاهده وضعیت آن است. این کار مشکل است. چون ممکن است ترجمه غلطی از رفتارها صورت گیرد. کاربردهای بینایی ماشین رو به افزایش است و هدف کلی طراحی ماشینی است که توانایی اثر متقابل هوشمندانه از خود نشان دهد و زحمت انسان را در آن زمینه کم کند. که در زیرنمونههای آن را مشاهده میکنید.
حقیقت مجازی: بازی، انیمیشن، کنفرانس از راه دور
سیستم نظارت هوشمند: کنترل دسترسی، فروشگاههای بزرگ، ترافیک، ماشین خودپرداز
رابط کاربر پیشرفته: مترجم زبان، کنترل رفتار راننده، علامت دهی محیطهایی با نویز بالا
آنالیز حرکت: تعلیم گلف و تنیس
درحال حاضر سناریوها به یک محیط هوشمنداحتیاج دارند برای اینکه بدانند شخص در حال انجام چه کاری است یا قصد انجام چه کاری را دارد. تکنولوژی ردیابی فعالیتهای انسان بر روی مشاهدات مستقیم از انسان و رفتارش وتمرکز شده است البته به وسیله دوربینهایی که شامل شتاب سنج و یا اتصالات سوئیچ است. به تازگی راههای امیدوارکننده ای برای تکمیل مشاهدات مستقیم با یک شیوه غیرمستقیم وجود دارد، از طریق تشخیص فعالیتهای افراد از روی اثراتی که روی محیط خصوصا روی اشیاء میگذارند. فعل و انفعالات افراد بر روی یکدیگر اثر متقابل دارد. برای نمایش رفتارهای انسان به طور سلسله مراتبی میتوان از گراف به عنوان یک ابزار پویا استفاده کرد. محققان ازسه تکنولوژی اصلی برای تشخیص فعالیتهای انسان استفاده می کنند: بینایی کامپیوتر،حسگرفعال دیدن وRFID.
جهت دانلود متن کامل پایان نامه به سایت azarim.ir مراجعه نمایید.
۳-۲- مقدمهای بر، برنامهنویسی اندروید
از زمانی که استفاده از حسگرهای مختلف الکترونیکی در سختافزارهای کامپیوتری رواج پیدا کرد، روح تازهای در ظاهر و نحوه استفاده از برنامههایکاربردی و تفریحی دمیده شد. استفاده از این حسگرها در ابتدا به دلیل نیازهای مختلف دستگاههای بازی کامپیوتری و سپس جهت آسانتر نمودن نحوه استفاده از دستگاه بکار برده شد. سیستم عامل اندروید قابلیت استفاده از انواع این حسگرها را در برنامه گنجانده است و بسادگی میتوان از این حسگرها در جهت بهبود کیفیت ارتباط با کاربر[۲۶] استفاده نمود [۵۱].
۳-۲-۱-مشکلات
لبهیابی،کاهش نویز، شناسایی، نظارت و کشف فعالیتها.
به طورکلی برای تشخیص حرکت نیاز به قطعهبندی و ردیابی داریم که بعد از قطعهبندی باید در صورت وجود نویز آن را از بین برده و لبهها را مشخص و تصویر را کوانتیزه میکنیم .
۳-۲-۲-کاربردها
۱٫ درک تصویر و کشف خطر در مسائل امنیتی
۲٫ طرح ریزی محیطهای شهری
۳٫ امنیت عمومی و کنترل شلوغی
۴٫ حفاظت در زمان های وقوع حوادث بحرانی
۵٫ مراقبت از بیماران و سالمندان در محیط خانه از راه دور
۶٫ عملیاتجستجو و نجات
۷٫ …
در محدوده نظارت سیستم خودکار در محلهای مورد نیاز نصب شده رفت و آمد ها را مشاهده می کند و فعالیتهای خطرناک را مشخص می کند.
در بازبینی صحنههای پر جمعیت اندازه شلوغی و ردیابی حرکتهای افراد کاربرد زیادی دارد. برای مثال:ترافیک
تقاطعها که سیستم سیگنالهای راه رفتن را مشخص می کند. تعداد افرادی که از خط عابر عبور می کنند. تعداد افراد را در منطقهای شلوغ مثل ورودی مدارس که مشخص می کند در ورودی شلوغ است یا خلوت. به طور کلی در طرح ریزی محیطهای شهری کاربرد دارد. پس با قرار دادن دوربینها در مکانهای مناسب از راه دور اندازه گروهها و تعداد مرم را میتوانیم مشخص کنیم.
برای شناسایی حرکتهای بشر در حین حرکت، حرکتها را در چندین کلاس دستهبندی میکنیم. خصوصیت حرکتی به صورت مدلهای دوبعدی و سه بعدی از بدن انسان ساخته میشوند. ما از آنالیز مولفههای اصلی که طبقه بندی میشوند استفاده میکنیم. حرکتهای انسان را در چندین فریم کوتاه بررسی میکنیم و آنچه که از حرکتها مشخص می شود را دستهبندی میکنیم. که یک ماشین برداری آن را نگه میدارد یا ممکن است با چندین دوربین از زوایای مختلف از یک شخص فیلم بگیریم و بعد ترکیب این زوایا باعث می شود که سیستم به جهان واقعی نزدیکتر شود.
حفاظت در زمان های وقوع حوادث بحرانی، مکانهایی مثل پل، سد و تونل و یا در مجتمعهای اداری، آزمایشگاهها که
می تواند مورد هدف گیری قرار گیرند. در محدودههایی که عبور و مرور زیاد است. تسهیلاتی ایجاد کنیم در این مواقع سیستم پیاده سازی شده باید محلی را که مردم در خطر هستند لبه یابی و آشکار کند. حرکتهای مشکوک و فعالیتهای نزدیک محل بحرانی با یک سری از الگوریتمها لبهها را آشکار می کند.
از ضریب Wavelet برای اندازه گیری قدرت سیگنال یا شدت نور منبع نور استفاده می شود. تصاویری که از اپراتورهای متفاوت در جهت، مکان و فواصل گوناگون گرفته شده است را فراهم می کند و به کارمیبندد. زیر مجموعه ای از نماها را انتخاب می کند. پایه رسیدگی به موضوع وابسته به نیرو و موقعیت منتشر شده از تصویر است.SVM برداری عمل
می کند.
از تکنیک قطعهبندی و ردیابی میتوان استفاده کرد که در این حالت فیلدهایی را بر اساس حرکتها ایجاد
می کند. تکنیکهایی را که به هم وابسته هستند در فریمهای متوالی قرار میگیرند با هموارسازی فضاها را به طور موقت کم می کند. در نتیجه حرکتهای انعطاف پذیری و قابل اندازه گیری مانند حرکتهای مشابه، فیلدهای که از یک تکرار خاص پیروی می کند را در یک گام ادغام کی کند. پیکسلها به وسیله تکنیکهای خوشهبندی با توجه به ترکیب
رنگهای RGB و فاصلهای با ابعاد (x,y) گروهبندی میشوند.گروههایی از پیکسلها به دست میآید؛ و تکراریها را در یک تصویربر هم منطبق می کند و در تصویر بعد از آن استفاده می کند. زیرا برای هرگروه عدد ثابتی در نظر میگیرد. یک به یک تصاویر را اجرا و ارتباط آنها را در هر زمان مشخص می کند.البته ضمانتی نیست که قسمت های باقی مانده بر روی موجودیتهای فیزیکی در طی ردیابی قفل شوند. اما اولین نتیجه ظاهرشده از ردیابی پیاده رو امید بخش است[۵۳].
پاها در آشکارسازی نسبت به بدن از ثبات بیشتری برخوردار هستند. بدون علم اولیه از نوع حرکت انجام شده ردیابی انسان لنگ از نیمرخ، با خطوط موازی ناهمسو مشکل است. ظاهرشدن، حذف، ادغام وانشعاب ازکارهایی است که
میتوان انجام داد از شکل ایجاد شده ۵ بدنه دیگر ایجاد می کند. نقطه میانی و مفصلی را علامت گذاری می کند. اما برای تصاویر از نیمرخ درست جواب نمیدهد.
۳-۲-۳-مثالی ساده از آشکارسازی فعالیتهای انسان در محیط خانه
هدف از این جستجو در اینجا به دست آوردن گزارشی مختصر و جامع از فعالیتهای بیمار است و پشتیبانی پزشک از او در واحد پزشکی خارج از منزل میباشد.
گروهی از فعالیتها دو جانبه هستند که بین دو یا چندین فرد قرار میگیرد که کاراکترهای مختلفی از الگوهای دیداری و شنیداری ایجاد می کنند. که این کار را مشکل می کند و نیاز به آنالیز گروهی از فعالیتها و رسیدگی به اثر متقابل رخ داده شده دارد.
دو حسگر اصلی وجود دارد: میکروفون و دوربین است که می تواند آرایهای از این حسگرها باشد. بینایی از یکی از حواس پنج گانه است و بیشترین راه تشخیص است و بعد از آن شنیدن. گاهی بینایی بیفایده است و باید حتما صدا شنیده شود. ذخیرهسازی و پردازش تصاویر ویدیوئی گران است. سیستم بینایی معمولا در روش ظاهرسازی حساس به نور است حسگر صدا در سلام و مکالمات مورد استفاده قرار میگیرد.
سیگنال صدا: پردازش و ذخیرهسازی سیگنال صدا سادهتر است. و سیستم صدا از نور قویتر است و می تواند جبران منابع تصویر باشد. تعدادی از الگوریتمهای توسعه و بازیابی بینایی از مکانهای ۳D جزئیات اطلاعات فعالیتها را نمایش میدهند.
۳-۳-سلسله مراتب نمایش
رکوردی از تالار ورودی اتاق به مدت ۱۰ روز گرفته می شود هر رکورد در وضوح ۴۸۰*۶۴۰ و با فرمت mpeg-2 که ۳۰ فریم در ثانیه است و دو کانال صدا هم ذخیره می شود. هر روز ۸ ساعت و در ۱۰ روز ۸۰ ساعت فیلم که در ۴ سطح آن را نمایش میدهیم.که با ۴ نام خوانده میشوند. CE عناصر ادراکی هستند. IE فعالیتهای شخصی GF ترکیبی از
فعالیتهای گروهی و GE ترکیبی از رخدادهای گروهی.
عناصر ادراکی شامل مجموعه ای از موجودیتی از اشیا به همراه خصوصیت آنها است. موجودیتها میتوانند: راه رفتن و ایستادن و یا نشستن فرد بیمار روی ویلچر باشد. خصوصیت می تواند شامل اندازه گیری حرکت و نمایش دیداری از موجودیتها باشد. پنج خصوصیت دیداری شامل: مکان، جهت حرکت، سرعت، رنگ پوست و شکل باشد. که در جدول زیر نشان داده شده است.
مکان را با در نظر گرفتن اینکه در حال حاضر کجاست مشخص می شود مثل اتاق نشیمن و راه رفتن را در چند سکانس بررسی می کند اگر جای شخص تغییر کند یعنی فرد حرکت کرده است. GE معنی سکانسهای تصویر و صدا است مثل مکالمات که در ۳ سگمنت زیر مشخص شده اند.
۱٫ فرد A و B به یکدیگر نزدیک میشوند.
۲٫ A وB صحبت می کنند.
۳٫ فرد A وB با یکدیگر یا جدا از یکدیگر خارج میشوند.
فرضیات ما تنها در ۵ مورد زیر است چون مشاهدات ما در زمان و تعداد افراد با یکدیگر محدود نیستند و ممکن است از دید ما خارج شوند.
۱٫ نزدیکی فرد A و B
۲٫ جدایی فرد A وB
۳٫ توقف A وB
۴٫ ایستادن و صحبت کردن
۵٫ راه رفتن با کمک یکدیگر
۳-۴-آشکارسازی فیلم
از الگوریتم کاهش پشت زمینه[۲۷] استفاده میکنیم. فریمهای قابل انطباق از متدهای پشت زمینه را فراهم می کند. نویز را حذف می کند گروهی از پیکسلها را (بیشتر از ۱۵ پیکسل) را میخواند یک مرز برای پیکسلها مشخص میکنیم که اختلاف فریمهای رایج و پشت زمینه است. فریم f شامل فعالیتهای دیداری باشد۱=Vfاگر هر یک از قوانین زیر برقرار باشد و گرنه Vf=0 است.
۱٫ دو شکل گرافیکی با رنگ مشخص (Region)یا بیشتر در یک فریم باشد.
۲٫ Region وجود داشته باشد که پایین فریم نباشد و عرض و ارتفاع آن نسبت به یکدیگر بیشتر از .۷ باشد.
۳-۵-رخدادهای صوتی
از انطباقهای Clarkson و Pentland استفاده می شود که نرمال سازی قدرت سیگنال صدا است.
۳-۶-خصوصیات شکل و رنگ
رنگ اغلب در تمیز دادن موجودیتها در پردازش مورد استفاده قرار میگیرد.از یک هیستوگرام ۸بیتی برا ی هر کدام از رنگهای RGB برای هر موجودیت استفاده می شود. اطلاعات شکل با قسمت بندی فاصله Manhattan نمایش داده
می شود. در این روش هر منطقه[۲۸] شامل مردم یا وسایل است که به ۹ زیرمنطقه[۲۹]تقسیم می شود.
چگالی هر زیرمنطقه بعد از محاسبه مرز آن مساوی ۱ است که بیشتر از ۵۰% است وگرنه مقدار آن صفر است. در انتها برداری با ابعاد ۱۰ داریم برداری که ۹ بلاک آن خصوصیت است و نسبت طول و عرض شکل در هر ثانیه این خصوصیت نوشته می شود. مکان یابی به صورت (x,y,z) است سرعت، جهت و حرکت در هر ثانیه مشخص می شود. رنگ وشکل از روی اولین فریم هر ثانیه تشخیص داده می شود.
۳-۷-آشکارسازی IE
از روش منحنی مخلوط [۳۰]GMMsاستفاده می شود.
۳-۸-آشکارسازی GF و GE
بعد از آشکارسازی IE ما میتوانیم گرافی بسازیم که شامل هر زوج IE باشد. داده های احتمالی GE در هر گراف
می تواند مقادیر مساوی با یک رامحاسبه کند. خروجی GE نتیجه مرتفع ترین احتمال است.
۳-۹-آشکارسازی فعالیتهای انسان از پشت موانع با بهره گرفتن از پویانمایی سیگنالهای رادار دوپلر
هااو لینگ، استاد دانشگاه تگزاس و شبها رم در تحقق بخشیدن به دید اشعهی X یک گام به جلو حرکت کردند. آنها در حال تکمیل سیستمهای راداری هستند که میتوانند فعالیتهای انسانی را از پشت موانع آشکارسازی نموده و این سیگنالها را به تصاویر مجازی شبیه به بازی ویدیئویی تبدیل نمایند.
به گزارش سرویس علم و فناوری پایگاه اطلاع رسانی صبا و به نقل از ساینس دیلی، لینگ در بارهی این پروژه گفت: “چندین برنامهی تحقیقاتی در مورد تصویربرداری از پشت دیوار در حال انجام میباشد اما آنها روی ساخت حسگرهای سخت افزاری با بسیاری از توانائیهای مشخص تمرکز دارند. این کار گران قیمت است. آنچه ما میخواهیم در این پروژه انجام دهیم این است که اول بفهمیم حرکات انسان چگونه در داده های راداری آشکار می شود. سپس این دانش را برای تولید تصویر یک انسان استفاده کنیم.”
سیستمهای راداری فرکانس رادیویی مبتنی بر دوپلر به ویژه برای دنبال کردن رد انسانهای متحرک مناسب میباشند. آنها درهم ریختگی های پس زمینه را از اشیای ساکن جدا کرده و جزئیات کافی را جهت نمایش حرکات پویای قسمت های مختلف بدن را به شکل “میکرودوپلرها” ارائه میدهند.