جزوه وب کاوی ارشد دانشگاه علم و صنعت

بخشی از متن فایل
تشخیص مشابهت document ها :
کدام صفحات با هم مشابه هستند که مشابهت را میتوان با معیارهای مختلفی تعریف کرد .
فرق clustering با classification
در classification داده ها برچسب ) label )دارند، پس پیش بینی میکنیم که این صفحه جزو کدام گروه است.
در clustering برچسبی وجود ندارد و با توجه به معیارهای مشابهت دسته بندی میکنیم. مثال صفحاتی که در خوشه
خاصی هستند را می آوریم.
یک بخش دیگر تحلیل دنباله یا analysis sequence هست. مثال ترتیب وقوع کلمات مهم است مثال کلمه سرما
خوردگی که اول باید سرما بیاید و بعد خوردگی، باید باهم و به ترتیب بیایند تامعنی درستی بدهند. مثال یک سری اتفاقات
ترتیب خاصی دارند مثال افزایش قیمت یا دما بر اساس روزها یا ماه های مختلف، یک روند (Trend (را نشان میدهد.
پس ترتیب مهم می باشند، از ترتیب الگو های بهتر و خاص تری میتوان بدست آورد.که میتوان برای پیش بینی با یک
احتمال باال از آن استفاده کرد.
تشخیص رفتار ناهنجاری ) detection Anomaly: )
یعنی رفتاری که با رفتار کلی نمیخواند. لزوما این رفتار مطابق با الگوی کلی نیست. با تمرکز روی کسانی که رفتار این
چنینی دارند میتوان به نتایج جالبی رسید.
اینها بحث هایی است که در mining text است .
: frequent phrases
تشخیص عبارات مکرر که خیلی وقوع دارند )phrases frequent ) مثال در جستجو اگر صفحه ای هست که عبارت
مورد نظر تعداد باالیی تکرار شده است احتماال میتوان گفت آن صفحه به هدف ما نزدیک است. عبارت مورد جستجوی
شما چند بار تکرار شده است، باید بتوانیم اینهارا بدست بیاوریم.
: Text segmentation
شبیه cluster است ، تقسیم بندی متون به تعدادی زیر متن که برای کوچک کردن دیتابیس میباشد. جایی انجام
میدهیم که دیتای خیلی بزرگ داریم و میخواهیم به صورت parallel بر روی آن کار کنیم. نحوه تقسیم بندی هم مهم
است.
: Event detection and tracking
از روی نحوه ی وقوع کلمات و تعداد و ترتیبشان میتوان برخی وقایع و رویدادها را کشف کرد.
به صورت خالصه
ما باید mining text را انجام دهیم تا mining content را انجام دهیم.
محتوای وب را به متن تبدیل کنیم و mining text انجام دهیم .
مستندات وب را تبدیل به متون کنیم وآن متن را mine کنیم .
Content وب را با دید text ببینیم و آن را mine کرده و از نتیجه آن در Search استفاده می کنیم .
به طور کلی گفتیم یه بخش از درس به بازیابی اطالعات )IR )بر میگردد. اینجا کلیاتی از IR را میگوییم .
یک سیستم بازیابی اطالعات چه چیزی میگیرد و چه چیزی میدهد؟
همانطور که مشخص است یکسری document میگیرد که در بحث ما این document ها text هستند. اگر search
engine باشد باید crawl کند و یک دیتابیسی از text نتیجه میدهد.
در وب یکسری document ها وجود دارد که page web ها ما هستند .
document Source ها ی شما در سرور هاست ) ورودی document هاست (
خروجی معموال به صورت کلی document های باید به شما بدهد که به جستجوی شما مرتبط اند، باید نسبت
به query شما بر اساس مکانیزمی ، ranking انجام دهد .
با توجه به محتویات جستجوی شما آن صفحات باید رتبه بندی شود ، آن صفحه ای که rank آن باالتر است به
جستجوی شما مرتبط تر است …….

در صورتی که اثری از شما در سایت قرار گرفته است و راضی به انتشار ان نمی باشید لطفا برای حذف به شماره 09015733998 پیام دهید