دانشکده مهندسی راه آهن- عطایی شروان
نرم­افزار داده کاوی Weka

حذف تصاویر و رنگ‌ها

  نرم­افزار داده کاوی Weka

  

  1-مقدمه

  تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده­اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار می­دهند، روی الگوریتمهای خاصی متمرکز شده­اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، روشهای مصور سازی [1] ، روشهای پیش پردازش [2] داده ها، واسطهای کاربر پسند [3] ، پلت فرم [4] های سازگار برای اجرا،‌ قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، ‌نرم افزار Weka با داشتن امکانات بسیار گسترده،‌ امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامه­های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفی می­شود.

  میزکار [5] Weka ، مجموعه­ای از الگوریتم­‏های روز یادگیری ماشینی و ابزارهای پیش پردازش داده­‏ها می‏­باشد. این نرم­افزار به گونه­ای طراحی شده است که می‏­توان به سرعت، روش­‏های موجود را به صورت انعطاف­پذیری روی مجموعه­‏های جدید داده، آزمایش نمود. این نرم­افزار، پشتیبانی‏‏های ارزشمندی را برای کل فرآیند داده کاوی ­‏های تجربی فراهم می‏­کند. این پشتیبانی‏ها، آماده سازی داده­‏های ورودی، ارزیابی آماری چارچوب­‏های یادگیری و نمایش گرافیکی داده­‏های ورودی و نتایج یادگیری را در بر می­گیرند. همچنین، هماهنگ با دامنه وسیع الگوریتم­‏های یادگیری، این نرم­افزار شامل ابزارهای متنوع پیش پردازش داده­هاست. این جعبه ابزار [6] متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر می‏­تواند روش­‏های متفاوت را در آن با یکدیگر مقایسه کند و روش­‏هایی را که برای مسایل مدنظر مناسب­تر هستند، تشخیص دهد.

  نرم­افزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنین Weka ، نام پرنده­ای با طبیعت جستجوگر است که پرواز نمی‏­کند و در نیوزلند، یافت می‏­شود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر [7] GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی اجرا می‏­شود و نیز تحت سیستم عامل­‏های لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی [8] ، آزمایش شده است.

  این نرم­افزار، یک واسط همگون برای بسیاری از الگوریتم­‏های یادگیری متفاوت، فراهم کرده است که از طریق آن روش­‏های پیش پردازش، پس از پردازش [9] و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده­‏ موجود، قابل اعمال است.

  نرم افزار Weka ، پیاده سازی الگوریتم­‏های مختلف یادگیری را فراهم می‏­کند و به آسانی می‏­توان آنها را به مجموعه های داده خود اعمال کرد.

  همچنین، این نرم­افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه­‏های داده­‏ها، همانند الگوریتم­‏های گسسته سازی [10] می‏­باشد. در این محیط می‏­توان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته­بندی حاصله و کارآیی­اش را مورد تحلیل قرار داد. (همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامه­ای میسر است.)

  این محیط، شامل روش­‏هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‏بندی، خوشه­بندی، کاوش قواعد انجمنی و انتخاب ویژگی می‏­باشد. با در نظر گرفتن اینکه، داده­‏ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده­‏ها و مصورسازی آنها فراهم گشته است. همه الگوریتم­‏ها، ورودی­‏های خود را به صورت یک جدول رابطه­ای [11] به فرمت ARFF دریافت می‏­کنند. این فرمت داده­‏ها، می‏­تواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه داده­ای تولید گردد.

  یکی از راه­‏های به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‏­باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‏بینی­‏هایی در مورد نمونه­‏های جدید است. سومین راه، اعمال یادگیرنده­‏های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می‏­باشد. روش­‏های یادگیری Classifier نامیده می‏­شوند و در واسط تعاملی [12] Weka ، می‏­توان هر یک از آنها را از منو [13] انتخاب نمود. بسیاری از classifier ‏ها پارامترهای قابل تنظیم دارند که می‏­توان از طریق صفحه ویژگی‏‏ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‏گیری کارآیی همه classifier به کار می‏­رود.

  پیاده سازی­‏های چارچوب­‏های یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می‏­کند. ابزارهایی که برای پیش پردازش داده­‏ها استفاده می‏­شوند. filter نامیده می‏­شوند. همانند classifier ‏ها، می‏­توان filter ‏ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندی­‏های خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره می‏­شود.

  علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتم­‏هایی برای یادگیری قواعد انجمنی، خوشه­بندی داده­‏ها در جایی که هیچ دسته­ای تعریف نشده است، و انتخاب ویژگی‏های مرتبط [14] در داده­‏ها می‏­شود.

  2- روش استفاده از Weka

  شکل 1،‌ راههای انتخاب واسط­های مختلف Weka را نشان می­دهد.

  آسان­ترین راه استفاده از Weka ، از طریق واسطی گرافیکی است که Explorer خوانده می‏شود. این واسط گرافیکی، به وسیله انتخاب منوها و پر کردن فرم­‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، می‏­توان به سرعت یک مجموعه داده را از یک فایل ARFF خواند و درخت تصمیم‏گیری آن را تولید نمود. امادرخت­‏های تصمیم‏گیری یادگیرنده صرفاً ابتدای کار هستند. الگوریتم­‏های بسیار دیگری برای جستجو وجود دارند. واسط Explorer کمک می‏­کند تا الگوریتم­‏های دیگر نیز آزمایش شوند.

 

  AWT IMAGE

  شکل 1. Weka در وضعیت انتخاب واسط

  این واسط با در اختیار گذاشتن گزینه­‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتیب صحیح، به وسیله خاکستری نمودن گزینه­‏ها تا زمان صحیح به کارگیری آنها، و با در اختیار گذاشتن گزینه­‏هایی به صورت فرم­‏های پرشدنی، کاربر را هدایت می‏­کند. راهنمای ابزار مفیدی، حین عبور ماوس از روی گزینه­‏ها، ظاهر شده و اعمال لازم مربوطه را شرح می‏­دهد. پیش­فرض­‏های معقول قرار داده شده، کاربر را قادر می‏­سازند تا با کمترین تلاشی، به نتیجه برسد. اما کاربر باید برای درک معنی نتایج حاصله، راجع به کارهایی که انجام می‏­دهد، بیندیشد.

  Weka دو واسط گرافیکی دیگر نیز دارد. واسط knowledge flow به کاربر امکان می‏­دهد تا چنیش­‏هایی برای پردازش داده­‏های در جریان، طراحی کند. یک عیب پایه­ای Explorer . نگهداری هر چیزی در حافظه اصلی آن است. (زمانی که یک مجموعه داده را باز می‏­کنیم، Explorer ، کل آن را، در حافظ باز می‏­کند) نشان می‏­دهد که Explorer ، صرفاً برای مسایل با اندازه­‏های کوچک تا متوسط، قابل اعمال است. با وجود بر این Weka شامل تعدادی الگوریتم­‏های افزایشی است که می‏­تواند برای پردازش مجموعه های داده بسیار بزرگ مورد استفاده قرار گیرد. واسط knowledge flow امکان می‏­دهد تا جعبه [15] ­‏های نمایانگر الگوریتم­‏های یادگیری و منابع داده­‏ها را به درون صفحه بکشیم و با اتصال آنها به یکدیگر، ترکیب و چینش دلخواه خود را بسازیم. این واسط اجازه می‏­دهد تا جریان داده­ای از مؤلفه­‏های به هم متصل که بیانگر منابع داده، ابزارهای پیش پردازش، روش­‏های ارزیابی و واحدهای مصوّر سازی هستند تعریف شود. اگر فیلترها و الگوریتم­های یادگیری، قابلیت یادگیری افزایشی را داشته باشند، داده­‏ها به صورت افزایشی بار شده و پردازش خواهند شد.

  سومین واسط Weka ، که Experimenter خوانده می‏­شود، کمک می‏­کند تا به این سؤال عملی و پایه­ای کاربر حین استفاده از تکنیک­‏های رده‏بندی و رگرسیون، پاسخ دهد: "چه روش­‏ها و پارامترهایی برای مسأله داده شده، بهتر عمل می‏­کنند؟"

  عموماً راهی برای پاسخگویی مقدماتی به این سؤال وجود ندارد و یکی از دلایل توسعه Weka ، فراهم نمودن محیطی است که کاربران Weka را قادر به مقایسه تکنیک­‏های گوناگون یادگیری بنماید. این کار، می‏­تواند به صورت تعاملی در Explorer انجام شود. با این وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده­‏ها و فیلترها با پارامترهای گوناگون روی تعدادی از مجموعه­‏های داده، جمع­آوری آمار کارآیی و انجام آزمایش­‏های معنا، پردازش را خودکار می‏­کند. کاربرهای پیشرفته، می‏­توانند از Experimenter برای توزیع بار محاسباتی بین چندین ماشین، استفاده کنند. در این روش، می‏­توان آزمایش­‏های آماری بزرگی را راه­اندازی نموده و آنها را برای اجرا، رها نمود.

  ورای این واسط­‏های تعاملی، عملکرد پایه­ای Weka قرار دارد. توابع پایه­ای Weka ، از طریق خط فرمان [16] ­‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال می‏­شود، امکان انتخاب بین چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.

  اکثر کاربران، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب می‏­کنند.

  3. قابلیتهای Weka

  مستندسازی در لحظه، که به صورت خودکار از کد اصلی تولید می‏­شود و دقیقاً ساختار آن را بیان می‏­کند، قابلیت مهمی است که حین استفاده از Weka وجوددارد.

  نحوه استفاده از این مستندات و چگونگی تعیین پایه­‏های ساختمانی اصلی Weka ، مشخص کردن بخش­‏هایی که از روش­‏های یادگیری با سرپرست استفاده می‏­کند، ابزاری برای پیش پردازش داده­‏ها بکار می‏­رود و اینکه چه روش­‏هایی برای سایر برنامه­‏های یادگیری وجود دارد، در ادامه تشریح خواهد شد. تنها به لیست کاملی از الگوریتم­‏های موجود اکتفا می‏­شود زیرا Weka به طور پیوسته تکمیل می‏­شود و به طور خودکار از کد اصلی تولید می‏­شود. مستندات در لحظه همیشه به هنگام شده می‏­باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی یا نوشتن و آزمایش کردن برنامه­‏های یادگیری شخصی مورد نیاز باشد، این ویژگی بسیار حیاتی خواهد بود.

  در اغلب برنامه­‏های کاربردی داده کاوی، جزء یادگیری ماشینی، بخش کوچکی از سیستم نرم­افزاری نسبتاً بزرگی را شامل می‏­شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، می‏­توان با برنامه­نویسی اندکی به برنامه­‏های Weka از داخل کد شخصی دسترسی داشت. اگر پیدا کردن مهارت در الگوریتم­‏های یادگیری ماشینی مدنظر باشد، اجرای الگوریتم­‏های شخصی بدون درگیر جزییات دست و پا گیر شدن مثل خواندن اطلاعات از یک فایل، اجرای الگوریتم­‏های فیلترینگ یا تهیه کد برای ارزیابی نتایج یکی از خواسته­‏ها می‏­باشد. Weka دارای همه این مزیت­‏ها است. برای استفاده کامل از این ویژگی، باید با ساختارهای پایه­ای داده­‏ها آشنا شد.

  4. دریافت Weka

  نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از این طریق می‏­توان نصب کننده [17] متناسب با یک پلت فرم معین، یا یک فایل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است، دانلود [18] نمود.

  5. مروری بر Explorer

  واسط گرافیکی اصلی برای کاربران،‌ Explorer است که امکان دسترسی به همه امکانات Weka را از طریق انتخاب منوها و پر کردن فرمها فراهم می­آورد. شکل 2،‌ نمای Explorer ‌ را نشان می­دهد. در این واسط، شش پانل [19] مختلف وجود دارد که از طریق نوار [20] بالای صفحه قابل انتخاب هستند و با وظایف [21] داده کاوی پشتیبانی شده توسط Weka ‌ متناظر می­باشند.

 AWT IMAGE

  شکل 2. واسط گرافیکی Explorer

  دو گزینه از شش گزینه بالای پنجره Explorer در شکل های 3 و 4 به طور خلاصه تشریح شده است.

  به طور خلاصه، کارکرد تمام گزینه­‏ها به شرح ذیل است.

  Preprocess : انتخاب مجموعه داده و اصلاح [22] آن از راه­‏های گوناگون

  Classify : آموزش [23] برنامه­‏های یادگیری که رده‏بندی یا رگرسیون انجام می‏­دهند و ارزیابی آنها.

  Cluster : یادگیری خوشه­‏ها برای مجموعه های داده

  Associate : یادگیری قواعد انجمنی برای داده­‏ها و ارزیابی آنها

  Select attributes : انتخاب مرتبط­ترین جنبه [24] ها در مجموعه های داده

  Visualize : مشاهده نمودارهای مختلف دوبعدی داده­‏ها و تعامل با آنها

  AWT IMAGE

  شکل 3. خواندن فایل داده های آب و هوا

  Weka Exphorer امکان رده بندی دارد، چنانچه به کاربران اجازه می‏­دهد به صورت تعاملی اقدام به ساخت درخت تصمیم‏گیری کنند. Weka نمودار پراکندگی داده­‏ها را نسبت به دو ویژگی انتخاب شده، فراهم می‏­آورد. وقتی زوج ویژگی­ای که رده­‏ها را به خوبی جدا می‏­کند، پیدا شد، امکان ایجاد دو شاخه با کشیدن چند ضلعی اطراف نقاط داده­‏ها بر نمودار پراکندگی وجود دارد.

 

  AWT IMAGE

  شکل 4. نوار Classify

  هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم می­کند. در پایین هر پانل، جعبه status و دکمه log قرار دارد. جعبه status پیغام­‏هایی است که نشان می‏­دهد چه عملیاتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن یک فایل باشد، جعبه status آن را گزارش می‏­دهد. کلیک راست در هر جا داخل این جعبه یک منو کوچک با دو گزینه می‏­آورد، نمایش میزان حافظه در دسترس Weka و اجرای Java garbage collector ..

  لازم است توجه شود که garbage collector به طور ثابت به عنوان یک عمل پیش زمینه [25] در هر حال اجرا می‏­شود کلیک دکمه log ، گزارش عملکرد متنی کارهایی که Weka تاکنون در این بخش انجام داده است با برچسب زمانی ارایه می‏­کند.

  زمانیکه Weka در حال عملیات است، پرنده کوچکی که در پایین سمت راست پنجره است، بالا و پایین می‏­پرد. عدد پشت × نشان می‏­دهد که به طور همزمان چند عملیات در حال انجام است. اگر پرنده بایستد در حالیکه حرکت نمی‏­کند، او مریض است! اشتباه رخ داده است و باید Explorer از نو اجرا شود.

  1. خواندن و فیلتر کردن فایل­‏ها

  در بالای پانل Preprocess در شکل 3، دکمه­‏هایی برای باز کردن فایل، URL ‏ها و پایگاه های داده­‏ وجود دارد. در ابتدا تنها فایل­‏های با پسوند arff . در browser فایل نمایش داده می‏­شود. برای دیدن سایر فایل­‏ها یاید گزینه [26] Format در جعبه انتخاب فایل تغییر داده شود.

  2. تبدیل فایل­‏ها به فرمت ARFF

  نرم افزار Weka دارای سه مبدل فرمت فایل [27] می‏­باشد، برای فایل­‏های صفحه گسترده [28] با پسوند CSV ، با فرمت فایل C4.5 با پسوند names . و data و برای نمونه­‏های سری با پسوند bsi .

  اگر Weka قادر به خواندن داده­‏ها نباشد، سعی می‏­کند آن را به صورت ARFF تفسیر کند. اگر نتواند جعبه نشان داده شده در شکل 5 (الف) ظاهر می‏­شود.

  AWT IMAGE

  (الف)

AWT IMAGE

(ب)

AWT IMAGE

(ج) 

     شکل 5. ویرایشگر عمومی اشیاء (الف) ویرایشگر (ب) اطلاعات بیشتر (فشردن دگمه More ) (ج) انتخاب یک مبدل

  این، یک ویرایشگر عمومی [29] اشیاء است که در Weka برای انتخاب و تنظیم اشیا بکار می‏­رود. به عنوان مثال وقتی پارامتری برای Classifier تنظیم می‏­شود، جعبه­ای با نوع مشابه بکار برده می‏­شود. CSV Loader برای فایل­‏های با پسوند CSV . به طور پیش فرض انتخاب می‏­شود. دکمه More اطلاعات بیشتری در مورد آن می‏­دهد که در شکل 5 (ب) نشان داده شده است.

  همیشه مطالعه مستندات [30] ارزشمنداست! در این حالت نشان می‏­دهد که ردیف نخست صفحه گسترده، نام ویژگی را تعیین می‏­کند. برای استفاده از این مبدل باید بر Ok کلیک شود. برای مورد مختلف لازم است بر choose کلیک شود تا از لیست شکل 5 (ج) انتخاب انجام شود.

  گزینه اول، Arffloader است و فقط به دلیل ناموفق بودن به این نقطه می‏­رسیم. CSVLoader پیش فرض است و در صورت نیاز به فرض دیگر، choose کلیک می‏­شود. سومین گزینه، مربوط به فرمت C4.5 است که دو فایل برای مجموعه داده وجود دارد یکی اسم­‏ها و دیگـری داده­‏های واقعـی می‏­باشد. چهارمین برای نمونه­‏های سریالی [31] ، برای بازخوانی [32] مجموعه داده­ای است که به صورت شیئ سریالی شده جاوا ذخیره شده است. هر شیء در جاوا می‏­تواند در این شکل ذخیره و بازخوانی شود. به عنوان یک فرمت بومی جاوا [33] ، سریع­تر از فایل ARFF خوانده می‏­شود چرا که فایل ARFF باید تجزیه [34] و کنترل شود. وقتی یک مجموعه داده بزرگ مکررا بازخوانی می‏­شود، ذخیره آن در این شکل سودمند است.

  ویژگی‏های دیگر ویرایشگر عمومی اشیا در شکل 5 (الف)، save و open است که به ترتیب برای ذخیره اشیای تنظیم شده و بازکردن شیئی که پیش از این ذخیره شده است، به کار می­رود. اینها برای این نوع خاص شیئ مفید نیستند. لکن پانل­‏های دیگر ویرایشگر عمومی اشیاء، خواص قابل ویرایش زیادی دارند. به دلیل مشکلاتی که ممکن است حین تنظیم مجدد آنها رخ دهد، می‏­توان ترکیب اشیاء ایجاد شده را برای استفاده­‏های بعدی، ذخیره کرد.

  تنها منبع [35] مجموعه­‏های داده برای Weka ، فایل­‏های موجود روی کامپیوتر نیستند. می‏­توان یک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن یک فایل Arff از شبکه استفاده کند. همچنین می‏توان یک پایگاه داده­‏ها را باز نمود ( open DB ـ هر پایگاه داده­ای که درایور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد.) و به وسیله دستور select زبان SQL ، نمونه­‏‏ها را بازیابی نمود. داده­‏ها می‏­توانند به کمک دگمه save به همه فرمت­‏های ذکر شده، ذخیره شوند. جدای از بحث بارگذاری و ذخیره مجموعه­‏های داده، پانل preprocess به کاربر اجازه فیلتر کردن داده­‏ها را می‏­دهد. فیلترها، اجزای مهم Weka هستند.

  3. بکارگیری فیلترها

  با کلیک دگمه choose (گوشه بالا و سمت چپ) در شکل 3 می‏­توان به لیستی از فیلترها دست یافت. می‏­توان از فیلترها برای حذف ویژگی‏های مورد نظری از یک مجموعه داده و انتخاب دستی ویژگی‏‏ها استفاده نمود. مشابه این نتیجه را می‏­توان به کمک انتخاب ویژگی‏های مورد نظر با تیک زدن آنها و فشار دادن کلیه Remove به دست آورد.

  4. الگوریتم­‏های یادگیری

  زمانی که یک الگوریتم یادگیری با استفاده از دگمه choose در پانل classify انتخاب می‏­شود، نسخه خط فرمانی رده بند در سطری نزدیک به دگمه ظاهر می‏­گردد. این خط فرمان شامل پارامترهای الگوریتم است که با خط تیره مشخص می‏­شوند. برای تغییر آنها می‏­توان روی آن خط کلیک نمود تا ویرایشگر مناسب شیء، باز شود. جدول شکل 6، لیست اسامی رده بندهای Weka را نمایش می‏­دهد. این الگوریتم­‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهایی شامل روش­‏های متفرقه تقسیم شده­اند.

  4-1. Trees

  Decision stump که برای استفاده توسط روش­‏های boosting طراحی شده است، برای مجموعه­‏های داده عددی یا رده­ای، درخت تصمیم‏گیری یک سطحی می‏­سازد. این الگوریتم، با مقادیر از دست رفته، به صورت مقادیر مجزا برخورد کرده و شاخه سومی از درخت توسعه می‏­دهد.

  4-2. Rules

  Decision Table یک رده بند بر اساس اکثریت جدول تصمیم‏گیری می‏­سازد. این الگوریتم، با استفاده از جستجوی اولین بهترین، زیر دسته­‏های ویژگی‏‏ها را ارزیابی می‏­کند و می‏­تواند از اعتبارسنجی تقاطعی برای ارزیابی بهره ببرد (1995، Kohavi ).

  یک امکان این است که به جای استفاده از اکثریت جدول تصمیم‏گیری که بر اساس دسته ویژگی‏های مشابه عمل می‏­کند، از روش نزدیکترین همسایه برای تعیین رده هر یک از نمونه­‏ها که توسط مدخل [36] جدول تصمیم‏گیری پوشش داده نشده­اند، استفاده شود.

  Conjunctive Rule قاعده­ای را یاد می‏­گیرد که مقادیر رده­‏های عددی را رده­ای را پیش‏بینی می‏­کند. نمونه­‏های آزمایشی به مقادیر پیش فرض رده نمونه­‏های آموزشی، منسوب می‏­شوند. سپس تقویت اطلاعات (برای رده­‏های رسمی)، یا کاهش واریانس (برای رده­های عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش یافته [37] ، قواعد هرس می‏­شوند.

  ZeroR برای رده­‏های اسمی، اکثریت داده­‏های مورد آزمایش و برای رده­‏های عددی، میانگین آنها را پیش‏بینی می‏­کند. این الگوریتم بسیار ساده است.

  M5Rules ، به کمک M5 از روی درخت­‏های مدل، قواعد رگرسیون استخراج می‏­کند.

  AWT IMAGE

  شکل 6.الف. الگوریتمهای رده بندی در Weka

 AWT IMAGE

    شکل 6.ب. الگوریتمهای رده بندی در Weka

 در این بخش به شرح مختصری برخی از این الگوریتمها و پارامترهایشان که قابلیت کار با ویژگی های عددی را دارند، پرداخته می‏­شود. 

  4-3. Functions

  Simple Linear Regresion مدل رگرسیون خطی یک ویژگی مشخص را یاد می‏­گیرد. آنگاه مدل با کمترین خطای مربعات را انتخاب می‏­کند. در این الگوریتم، مقادیر از دست رفته و مقادیر غیرعددی مجاز نیستند [38] .

  Linear Regression رگرسیون خطی استاندارد کمترین خطای مربعات را انجام می‏­دهد می‏تواند به طور اختیاری به انتخاب ویژگی بپردازد، این کار می‏­تواند به صورت حریصانه [39] با حذف عقب رونده [40] انجام شود، یا با ساختن یک مدل کامل از همه ویژگی‏‏ها و حذف یکی یکی جمله­‏ها با ترتیب نزولی ضرایب استاندارد شده آنها، تا رسیدن به شرط توقف مطلوب انجام گیرد.

  Least Med sq یک روش رگرسیون خطی مقاوم است که میانه [41] (به جای میانگین [42] ) مربعات انحراف از خط رگرسیون را کمینه می‏­کند. این روش به طور مکرر رگرسیون خطی استاندارد را به زیرمجموعه­‏هایی از نمونه­‏ها اعمال می‏­کند و نتایجی را بیرون می‏­دهد که کمترین خطای مربع میانه را دارند.

  SMO teg الگوریتم بهینه سازی حداقل ترتیبی را روی مسایل رگرسیون اعمال می‏­کند. ( Scholkopf, 1998 ، Smola )

  Pace Regression ، با استفاده از تکنیک رگرسیون pace ، مدل­‏های رگرسیون خطی تولید می‏­کند (2002 ، Wang و Witten ). رگرسیون pace ، زمانی که تعداد ویژگی‏‏ها خیلی زیاد است، به طور ویژه­ای در تعیین ویژگی‏‏هایی که باید صرف‏نظر شوند، خوب عمل می‏­کند. در واقع در صورت وجود نظم و ترتیب خاصی، ثابت می‏­شود که با بی­نهایت شدن تعداد ویژگی‏‏ها، الگوریتم بهینه عمل می‏­کند.

  RBF Network ، یک شبکه با تابع پایه­ای گوسی شعاعی را پیاده سازی می‏­کند. مراکز و عرض­‏های واحدهای مخفی به وسیله روش میانگین K [43] تعیین می‏­شود. سپس خروجی­‏های فراهم شده از لایه­‏های مخفی [44] ، با استفاده از رگرسیون منطقی در مورد رده­‏های اسمی و رگرسیون خطی در مورد رده­‏های عددی، با یکدیگر ترکیب می‏­شوند. فعال سازی­‏های توابع پایه پیش از ورود به مدل­‏های خطی، با جمع شدن با عدد یک، نرمالیزه می‏­شوند. در این الگوریتم می‏­توان، K تعداد خوشه­‏ها، بیشترین تعداد تکرارهای رگرسیون­‏های منطقی برای مسأله­‏های رده­‏های رسمی، حداقل انحراف معیار خوشه­‏ها، و مقدار بیشینه رگرسیون را تعیین نمود. اگر رده­‏ها رسمی باشد، میانگین K به طور جداگانه به هر رده اعمال می‏­شود تا K خوشه مورد نظر برای هر رده استخراج گردد.

  4-4. رده بندهای Lazy

  یادیگرنده­‏های lazy نمونه­‏های آموزشی را ذخیره می‏­کنند و تا زمان رده بندی هیچ کار واقعی انجام نمی‏­دهند.

  IB1 یک یادگیرنده ابتدایی بر پایه نمونه است که نزدیک­ترین نمونه­‏های آموزشی به نمونه­‏های آزمایشی داده شده را از نظر فاصله اقلیدسی پیدا کرده و نزدیکترین رده­ای مشابه رده همان نمونه­‏های آموزشی را تخمین می‏­زند.

  IBK یک رده بند با K همسایه نزدیک است که معیار فاصله ذکر شده را استفاده می‏­کند. تعداد نزدیکترین فاصله­‏ها (پیش فرض 1= K ) می‏­تواند به طور صریح در ویرایشگر شیء تعیف شود. پیش‏بینی­‏های متعلق به پیش از یک همسایه می‏­تواند بر اساس فاصله آنها تا نمونه­‏های آزمایشی، وزن­دار گردد.

  دو فرمول متفاوت برای تبدیل فاصله به وزن، پیاده سازی شده­اند. تعداد نمونه­های آموزشی که به وسیله رده بند نگهداری می‏­شود، می‏­تواند با تنظیم گزینه اندازه پنجره محدود گردد. زمانی که نمونه­‏های جدید اضافه می‏­شوند، نمونه­‏های قدیمی حذف شده تا تعداد کل نمونه­‏های آموزشی در اندازه تعیین شده باقی بماند.

  Kstar ، یک روش نزدیکترین همسایه است که از تابع فاصله­ای عمومی شده بر اساس تبدیلات استفاده می‏­کند.

LWL یک الگوریتم کلی برای یادگیری وزن دار شده به صورت محلی است. این الگوریتم با استفاده از یک روش بر پایه نمونه، وزن­‏ها را نسبت می‏­دهد و از روی نمونه­‏های وزن­دار شده، رده بند را می‏­سازد. رده بند در ویرایشگر شیء LWL انتخاب می‏­شود. Nave Bayes برای مسایل رده بندی و رگرسیون خطی برای مسایل رگرسیون، انتخاب­‏های خوبی هستند. می‏­توان در این الگوریتم، تعداد همسایه­‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی، معکوس، یا گوسی) مشخص می‏­کند، تعیین نمود. نرمال سازی ویژگی‏‏ها به طور پیش فرض فعال است[ Data Mining, witten et Al. 2005 ].

  [1] Visualization

  [2] Preprocessing

  [3] User friendly

  [4] Platform

  [5] Workbench

  [6] T ool kit

  [7] GNU General Public License

  [8] Personal Digital Assistant

  [9] Postprocessing

  [10] D iscretization

  [11] Relational

  [12] Interactive interface

  [13] Menu

  [14] Related attribute

  [15] Box

  [16] Command-line

  [17] Installer

  [18] Download

  [19] Panel

  [20] Tab

  [21] Tasks

  [22] Modify

  [23] Train

  [24] Aspect

  [25] Background task

  [26] Item

  [27] File format converter

  [28] Spreadsheet

  [29] Generic

  [30] Documentation

  [31] Serialized instances

  [32] Reloading

  [33] Native Java format

  [34] Parse

  [35] Source

  [36] Entry

  [37] R educed-error pruning

  [38] Not allowed

  [39] Greedily

  [40] Backward elimination

  [41] Median

  [42] Mean

  [43] K-means

  [44] Hidden layer

نشانی مطلب در وبگاه دانشکده مهندسی راه آهن:
http://idea.iust.ac.ir/find-18.1995.1592.fa.html
برگشت به اصل مطلب