مجموعهداده فارسی برای تشخیص شخصیت در بستر توییتر
نام دانشجو: زهرا انوریان
استاد راهنما: دکتر صالح اعتمادی
دانشگاه علم و صنعت ایران�اردیبهشت ۱۴۰۰
فهرست
مقدمه
مروری بر کارهای مرتبط
جمعآوری مجموعهداده
آمادهسازی مجموعهداده
تحلیل و ارزیابی مجموعهداده
نتیجهگیری و کارهای آینده
۳
۱
۲
۴
۵
۶
مقدمه
۱
مقدمه
۳
شرح مسئله
۴
برای دستیابی به سیستمی هوشمند که ویژگیهای شخصیتی افراد را بتواند تشخیص دهد، نیازمند مجموعهدادهای از متون نوشته شده توسط افراد با برچسب ویژگی شخصیتیشان میباشیم.
برای جمعآوری این مجموعهداده، ما برای متون از توییتهای افراد در بستر توییتر و همچنین ویژگی شخصیتی مایرز-بریگز (MBTI) را برای برچسب دادهها استفاده کردیم.
مدل مایرز-بریگز (MBTI)
۵
I
introvert
E
extrovert
Focus of Attention
Acquiring Information
N
intuition
S
sensing
Making Decisions
Orientation to outside world
F
feeling
T
thinking
P
perceiving
J
judging
مروری بر کارهای مرتبط
۲
مروری بر کارهای مرتبط
توییتر
۷
مروری بر کارهای مرتبط
ردیت
۸
مروری بر کارهای مرتبط
پاندورا
۹
مروری بر کارهای مرتبط
فیسبوک
۱۰
دلیل عدم انتخاب مدل پنجعامله
شهرت کم
نداشتن کلید واژه
عدم وجود آزمون اصلی به زبان فارسی
عدم وجود حمایت مالی
۱۱
جمعآوری مجموعهداده
۳
جمعآوری مجموعهداده
۱۳
۱
۲
۳
جستجو کلید واژه
پرسشنامه
مقایسه روشهای پیشنهادی
جستجو کلید واژه
۱۴
پرسشنامه
۱۵
نتایج پرسشنامه
۱۶
ارسالیهای نامعتبر
ارسالیهای معتبر
ارسالیهای تکراری
ارسالیهای معتبر
ارسالیهای نامعتبر
آمار کلی روشهای جمعآوری دادهها
۱۷
| روش ۲ | | | |
کل | پرسشنامه | توییت | بیو | |
۱۵۵۲۵۳۲ | ۱۰۸۸۷۴ | ۱۱۳۴۲۹۴ | ۳۰۹۳۶۴ | شمار توییتها |
۹۳۸ | ۷۵ | ۶۵۳ | ۲۱۰ | شمار کاربران |
روش ۱
مقایسه روشهای پیشنهادی
۱۸
چالش: یافتن جامعه هدفی که علاقهمند به این موضوع هستند ویا آگاهی و دانشی در این باره دارند.
راهحل: درخواست توزیع مجدد پرسشنامه از افرادی که دارای دنبالکنندگان بالایی هستند.
چالش: متقاعد کردن افراد برای تکمیل کردن پرسشنامه
راهحل: استفاده از روشهای انگیزشی و گاهاً اجباری
آمادهسازی مجموعهداده
۴
جمعآوری توییتها
۲۰
تمیز کردن دادهها
۲۱
تحلیل و ارزیابی مجموعهداده
۵
تحلیل مجموعهداده
۲۳
تعداد توییتها به ازای ویژگی شخصیت و جنسیت
تحلیل مجموعهداده
۲۴
آمادهسازی مجموعهداده برای ارزیابی
۲۵
معرفی مدل پایه
۲۶
۲۵۶
نتایج بدست آمده بر حسب معیار f1-score
۲۷
شمار تکرار
I/E
P/J
T/F
N/S
۱
۲
۳
۴
۵
میانگین
۵۶.۹۳
۵۷.۷۵
۵۶.۶۹
۵۸.۱۵
۵۶.۲۷
۵۸.۱
۵۷.۵۱
۵۶.۳۱
۵۵.۳۲
۵۵.۹۲
۵۵.۹۳
۵۵.۱۴
۵۷.۲۱
۵۷.۷۸
۵۷.۲۴
۵۷.۹۳
۵۸.۴۱
۵۶.۹۷
۵۵.۱۲
۵۸.۴۸
۵۷.۲
۵۶.۵۵
۵۷.۳
۵۶.۷۶
نتیجهگیری و کارهای آینده
۶
۲۹
نتیجهگیری
۳۰
کارهای آینده
با سپاس از توجه شما
منابع