- فصل ششم – آزمایشات و نتایج ۱۱۳
۶-۱- مقدمه ۱۱۴
۶-۲- محیط عملیاتی ۱۱۴
۶-۳- مجموعه داده های مورد استفاده ۱۱۶
۶-۳-۱- مجموعه داده های استاندارد ۱۱۶
۶-۳-۲- مجموعه داده های واقعی ۱۱۷
۶-۴- معیارهای ارزیابی و روش های مورد استفاده برای مقایسه ۱۱۷
۶-۵- آزمایشات انجام شده ۱۱۸
۶-۵-۱- آزمایشات مربوط به فاز اول ۱۱۹
۶-۵-۲- آزمایشات مربوط به فاز دوم ۱۲۸
۶-۶- جمعبندی ۱۳۰
- فصل هفتم- جمعبندی و نتیجه گیری ۱۳۲
فهرست مراجع ۱۳۶
فهرست اشکال
- شکل ۱-۱- معماری BDI در عامل ۱۵
- شکل ۳-۱- درخت تحقیق مربوط به طبقه بندی در مبحث داده کاوی ۳۴
- شکل ۳-۲- طبقه بندی مبتنی بر Ensemble. .44
- شکل ۳-۳- چارچوب روش On-Demand. 47
- شکل ۳-۴- نمایی از سیستم OLIN 49
- شکل ۳-۵- پروسه SCALLOP. 53
- شکل ۵-۱- نمودار ترتیب عملکرد عامل پیشنهادی ۶۶
- شکل ۵-۲- معماری عامل پیشنهادی ۶۷
- شکل ۵-۳- پنجره نظاره بر روی جریان داده ها ۶۸
- شکل ۵-۴- گراف ایجاد شده از روی رشته مفهومها ۷۱
- شکل ۵-۵- محل تجمع الگوهای استخراج شده از رشته مفهومها ۷۳
- شکل ۵-۶- میزان محاسبه شده احتمالها به ازای مقادیر مختلف K 81
- شکل ۵-۷- شبه کد Plan کلی عامل ۸۳
- شکل ۵-۸- نسبت واریانس به حاصلضرب ۵۰ متغیر دارای مجموع ثابت ۸۵
- شکل ۵-۹- وزن دهی چند داده مختلف ۸۶
- شکل ۵-۱۰- نمایی کلی از سیستم چندعامله ایجاد شده ۸۸
- شکل ۵-۱۱- معماری BDI عامل دادهکاو ۹۳
- شکل ۵-۱۲- بخشی از جریان داده و قواعد استخراج شده از آن ۹۹
- شکل ۵-۱۳- بخشی از جریان داده و قواعد استخراج شده از آن ۱۰۱
- شکل ۶-۱- کد نمونه برای استفاده از بسته نرم افزاری weka. 115
- شکل ۶-۲- زمان لازم بر حسب میلی ثانیه برای داده های Stagger 120
- شکل ۶-۳- زمان مصرف شده برای تطبیق طبقهبند ۱۲۰
- شکل ۶-۴- نمودار مربوط به زمان پردازش روش های مختلف برای داده های HyperPlan 121
- شکل ۶-۵- زمان مصرف شده برای تطبیق طبقهبند ۱۲۱
- شکل ۶-۶- نمودار مربوط به زمان پردازش روش های مختلف برای داده های Nursery 122
- شکل ۶-۷- زمان مصرف شده برای تطبیق طبقهبند برای داده های Nursery 122
- شکل ۶-۸- عملکرد روش های مختلف بر روی مجموعه داده HyperPlan 124
- شکل ۶-۹- نمودار عملکرد روش های مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر ۱۲۴
- شکل ۶-۱۰- نمودار عملکرد روش های مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر ۱۲۵
- شکل ۶-۱۱- زمان مصرف شده برای تطبیق طبقهبند برای داده های HyperPlan 125
- شکل ۶-۱۲- عملکرد روش های مختلف بر روی مجموعه داده Stagger 126
- شکل ۶-۱۳- زمان مصرف شده برای تطبیق طبقهبند برای داده های Stagger 126
- شکل ۶-۱۴- عملکرد روش های مختلف بر روی مجموعه داده Nursery 127
- شکل ۶-۱۵- زمان مصرف شده برای تطبیق طبقهبند برای داده های Nursery 127
- شکل ۶-۱۶- نمودار نتایج حاصل از طبقه بندی توزیع شده مجموعه داده Nursery 130
فهرست جدولها
- جدول ۱-۱- ویژگیهای یک عامل ۱۱
- جدول ۳-۱- ماتریس حاصل از روش LWClass. 51
- جدول ۳-۲- مقایسه تکنیکهای ذکر شده ۵۴
- جدول ۵-۱- ساختار اطلاعاتی ذخیره شده برای هر مفهوم و الگو ۶۹
- جدول ۵-۲- ساختار اطلاعاتی مربوط به وقوع الگوی “CFDA” 75
- جدول ۵-۳- نمونه ای از خروجی تابع سودمندی عامل ۸۱
- جدول ۵-۴- اطلاعات مورد استفاده برای تخمین سودمندی یک قاعده ۱۰۵
- جدول ۶-۱- دقت طبقه بندی روش های مختلف ۱۲۸

- جدول ۶-۲- نتایج حاصل از طبقه بندی توزیع شده مجموعه داده Nursery در سه مفهوم مختلف ۱۳۰
فصل اول
معرفی و آشنایی با مفاهیم اولیه
فصل اول
معرفی و آشنایی با مفاهیم اولیه
۱-۱- مقدمهای بر داده کاوی
داده کاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه داده های[۵] موجود میباشد[۳۸]. داده کاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با بهره گرفتن از ابزارهای مربوطه بهره می گیرد. میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین داده های فعلی و پیش بینی موارد نامعلوم و یا مشاهده نشده عمل می کند. برای انجام عملیات داده کاوی لازم است قبلا روی داده های موجود پیشپردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصهسازی و کلیسازی داده ها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از داده های اولیه، که تحت عملیات داده کاوی نتایج تقریبا یکسانی با نتایج داده کاوی روی اطلاعات اولیه به دست دهد[۳۸]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصهسازی و کلیسازی داده ها می رسد. داده های موجود در بانکهای اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصهسازی مجموعه بزرگی از داده ها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلیسازی اطلاعات، فرایندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روش های داده کاوی به سه دسته کلی تقسیم میشوند که عبارتند از خوشهبندی، طبقه بندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی مینماییم.
۱-۱-۱- خوشهبندی
فرایند خوشهبندی سعی دارد که یک مجموعه داده را به چندین خوشه تقسیم نماید بطوریکه داده های قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با داده های خوشه های دیگر متفاوت باشند. در حال حاضر روش های متعددی برای خوشهبندی داده ها وجود دارد که بر اساس نوع داده ها، شکل خوشه ها، فاصله داده ها و غیره عمل خوشهبندی را انجام می دهند. مهمترین روش های خوشهبندی در زیر معرفی شده اند:
- روش های تقسیم بندی : روش های خوشهبندی که بروش تقسیم بندی عمل می کنند، داده های موجود در یک مجموعه داده را به k خوشه تقسیم می کنند، بطوریکه هر خوشه دو خصوصیت زیر را داراست :
- هر خوشه یا گروه حداقل شامل یک داده میباشد.
- مطلب دیگر :
- هر داده موجود در مجموعه داده دقیقا به یک گروه یا خوشه تعلق دارد.
معیار اصلی در چنین مجموعه داده هایی میزان شباهت داده های قرار گرفته در هر خوشه میباشد. در حالیکه داده های قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم می تواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشهبندی مقدار آن مشخص گردد.
- روش های سلسله مراتبی : روش های سلسله مراتبی به دو دسته کلی روش های bottom-up و روش های top-down تقسیم میگردند. روش های سلسله مراتبی bottom-up به این صورت عمل می کنند که در شروع هر کدام از داده ها را در یک خوشه جداگانه قرار میدهد و در طول اجرا سعی می کند تا خوشه هایی نزدیک به یکدیگر را با هم ادغام نماید. این عمل ادغام تا زمانی که یا تنها یک خوشه داشته باشیم و یا اینکه شرط خاتمه برقرار گردد، ادامه مییابد. روش های top-down دقیقا بطریقه عکس عمل می کنند، به این طریق که ابتدا تمام داده ها را در یک خوشه قرار میدهد و در هر تکرار از الگوریتم، هر خوشه به خوشه های کوچکتر شکسته میشود و اینکار تا زمانی ادامه مییابد که یا هر کدام از خوشه ها تنها شامل یک داده باشند و یا شرط خاتمه الگوریتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر یا خوشه میباشد.
- روش های مبتنی بر چگالی : اکثر روش های خوشهبندی که بروش تقسیم بندی عمل می کنند معمولا از تابع فاصله بعنوان تابع معیار خود بهره میبرند. استفاده از چنین معیاری باعث میگردد که الگوریتم خوشهبندی تنها قادر به ایجاد خوشه هایی با اشکال منظم باشد. در صورتیکه اگر خوشه های واقعی در داده ها دارای اشکال غیرمنظمی باشند، این الگوریتمها در خوشهبندی آنها با مشکل مواجه میگردند. برای حل اینگونه مشکلات یکسری از روشها برای خوشهبندی پیشنهاد گردیدهاند که عمل خوشهبندی را بر مبنای چگالی داده ها انجام می دهند. ایده اصلی در این روشها بر این اساس است که خوشه ها تا زمانی که داده های قرار گرفته همسایگی خوشه ها از حد معینی بیشتر باشد، رشد می کنند و بزرگ میشوند. چنین روش هایی قادرند خوشه هایی با شکلهای نامنظم نیز ایجاد نمایند.
البته دسته دیگری از روش های خوشهبندی مانند روش های مبتنی بر گرید، روش های مبتنی بر مدل و . وجود دارند که میتوانید آنها را در ]۳۸[ مطالعه نمایید.
۱-۱-۲- کشف قواعد وابستگی
بحث قواعد وابستگی به مقوله کشف عناصری یا المانهایی در یک مجموعه داده می پردازد که معمولا با یکدیگر اتفاق میافتند و بعبارتی رخداد آنها بنوعی با یکدیگر ارتباط دارد. بطور کلی هر قاعده یا rule که از این مجموعه داده بدست میآید، دارای شکل کلی بصورت میباشد که نشان میدهد چنانچه الگوی X اتفاق بیفتد، با احتمال بالایی الگوی Y نیز اتفاق خواهد افتاد. برای مطالعه بیشتر در مورد مقوله کشف قواعد وابستگی میتوانید به ]۳۸[ مراجعه نمایید.
۱-۱-۳- طبقه بندی
فرایند طبقه بندی در واقع نوعی یادگیری با ناظر میباشد که در طی دو مرحله انجام میگردد. در مرحله اول مجموعه ای از داده ها که در آن هر داده شامل تعدادی خصوصیت دارای مقدار و یک خصوصیت بنام خصوصیت کلاس میباشد، برای ایجاد یک مدل داده بکار میروند که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه داده هایی است که