1 of 33

مجموعه‌داده فارسی برای تشخیص شخصیت در بستر توییتر

نام دانشجو: زهرا انوریان

استاد راهنما: دکتر صالح اعتمادی

دانشگاه علم و صنعت ایران�اردیبهشت ۱۴۰۰

2 of 33

فهرست

مقدمه

مروری بر کارهای مرتبط

جمع‌آوری مجموعه‌داده

آماده‌سازی مجموعه‌داده

تحلیل و ارزیابی مجموعه‌داده

نتیجه‌گیری و کارهای آینده

۳

۱

۲

۴

۵

۶

3 of 33

مقدمه

۱

4 of 33

مقدمه

۳

  • شخصیت و ویژگی‌های شخصیتی تأثیر زیادی بر زندگی ما، انتخاب‌ها، ترجیحات و خواسته‌های ما دارد.
  • شخصیت، مجموعه مشخصه‌های رفتار، شناخت‌ و الگوهای عاطفی است که از عوامل بیولوژیکی و محیطی نشأت می‌گیرد.
  • اغلب این ویژگی‌های شخصیتی توسط روان‌شناسان و با استفاده از پرسشنامه بدست می‌آید.
  • در دنیای امروز، وجود متون نوشته شده توسط افراد، به خصوص در فضای مجازی، این فرصت را برای روان‌شناسان و محققان فراهم نموده که با استفاده از این متون، ویژگی شخصیتی افراد را بدست آوردند.

5 of 33

شرح مسئله

۴

برای دستیابی به سیستمی هوشمند که ویژگی‌های شخصیتی افراد را بتواند تشخیص دهد، نیازمند مجموعه‌داده‌ای از متون نوشته شده توسط افراد با برچسب ویژگی شخصیتی‌شان می‌باشیم.

برای جمع‌آوری این مجموعه‌داده، ما برای متون از توییت‌های افراد در بستر توییتر و همچنین ویژگی شخصیتی مایرز-بریگز (MBTI) را برای برچسب داده‌ها استفاده کردیم.

6 of 33

مدل مایرز-بریگز (MBTI)

۵

  • مدل روان‌شناختی مایرز-بریگز دارای چهار ویژگی شخصیتی می‌باشد:
    • درون‌گرا - برون‌گرا
    • حسی - شمی
    • منطقی - احساسی
    • ادراکی - قضاوتی

I

introvert

E

extrovert

Focus of Attention

Acquiring Information

N

intuition

S

sensing

Making Decisions

Orientation to outside world

F

feeling

T

thinking

P

perceiving

J

judging

7 of 33

مروری بر کارهای مرتبط

۲

8 of 33

مروری بر کارهای مرتبط

توییتر

۷

  • پژوهشگران
    • آقایان باربارا و دیرک
  • اندازه مجموعه‌داده
    • ۱.۲ میلیون توییت از ۱۵۰۰ کاربر توییتر
  • نحوه جمع‌آوری مجموعه‌داده
    • جمع‌آوری توییت‌های کاربرانی که ویژگی شخصیتی خود را اعلام کردند.
    • جمع‌آوری توییت‌هایی که دارای یکی از ۱۶ویژگی شخصیتی MBTI بودند.

9 of 33

مروری بر کارهای مرتبط

ردیت

۸

  • پژوهشگران
    • ماتژ جورکوویچ و یان اشنایدر
  • اندازه مجموعه‌داده
    • ۳۵۴۹۹۶ پست از ۹۸۷۲ کاربر ردیت
  • نحوه جمع‌آوری مجموعه‌داده
    • جمع‌آوری فلیرزهایی که دارای یکی از ۱۶ویژگی شخصیتی MBTI بودند.
    • تمیز کردن اطلاعات بدست آمده از روش اول
    • جستجوی عبارت "I am an <TYPE>" در نظرهای پست‌های مربوطه و جمع‌آوری کاربران

10 of 33

مروری بر کارهای مرتبط

پاندورا

۹

  • پژوهشگران
    • ماتژ جورکوویچ و همکاران
  • اندازه مجموعه‌داده
    • ۱۷میلیون نظر از بیش از ۱۰هزار کاربر ردیت
  • نحوه جمع‌آوری مجموعه‌داده
    • برای ویژگی شخصیتی MBTI از مجموعه‌داده MBTI9K استفاده کردند.
    • برای ویژگی شخصیتی Enneagram به طور دستی کاربرانی که ویژگی خود را در فلیرزهایشان اعلام کرده بودند را جمع‌آوری کردند.
    • برای ویژگی شخصیتی پنج‌عامله، جستجو در نظرهایی که در زیر پست‌های مربوطه از کاربران بوده، جمع‌آوری کردند.

11 of 33

مروری بر کارهای مرتبط

فیس‌بوک

۱۰

  • پژوهشگران
    • دیوید استیلول و میشال کوسینسکی
  • اندازه مجموعه‌داده
    • بیش از ۶ میلیون داوطلب فیس‌بوک
  • نحوه جمع‌آوری مجموعه‌داده
    • طراحی پرسشنامه
  • در سال ۲۰۱۸ انتشار این مجموعه‌داده متوقف شد.

12 of 33

دلیل عدم انتخاب مدل پنج‌عامله

شهرت کم

نداشتن کلید واژه

عدم وجود آزمون اصلی به زبان فارسی

عدم وجود حمایت مالی

۱۱

13 of 33

جمع‌آوری مجموعه‌داده

۳

14 of 33

جمع‌آوری مجموعه‌داده

۱۳

۱

۲

۳

جستجو کلید واژه

پرسشنامه

مقایسه روش‌های پیشنهادی

15 of 33

جستجو کلید واژه

۱۴

  • از طریق دو منبع اصلی که افراد ویژگی شخصیتی خود را ذکر کردند.
    • بیو
    • توییت‌ها
  • نحوه جمع‌آوری داده از طریق بیو
    • جمع‌آوری چند کاربر که دارای دنبال‌کننده و دنبال‌شوندگان زیادی هستند، به عنوان گره‌های اصلی
    • شروع جستجو از گره‌های اصلی و بررسی بیوهایی که دارای یکی از ۱۶ ویژگی شخصیتی MBTI هستند.
  • نحوه جمع‌آوری داده از طریق توییت
    • جستجو ۱۶ ویژگی شخصیتی MBTI با استفاده از ویژگی جستجو پیشرفته توییتر و جمع‌آوری توییت‌های مربوطه

16 of 33

پرسشنامه

۱۵

  • طراحی پرسشنامه و توزیع آن در کانال‌های دانشگاهی و گروه‌های متفرقه تلگرامی
  • شرط تکمیل پرسشنامه، داشتن حساب کاربری عمومی توییتر
  • اطمینان دادن به افراد برای حفظ اطلاعات شخصی آن‌ها مانند آیدی حساب کاربری
  • چالش:
    • دریافت حجم قابل توجهی از داده‌های نامعتبر به دلیل عدم مطالعه‌ کامل توضیحات داده شده در پرسشنامه توسط افراد
  • راه‌حل:
    • طراحی پرسشنامه‌ای جدید با منطق انشعاب با استفاده از فرم‌های مایکروسافت
    • تغییر محیط توزیع پرسشنامه به بستر توییتر

17 of 33

نتایج پرسشنامه

۱۶

ارسالی‌های نامعتبر

ارسالی‌های معتبر

ارسالی‌های تکراری

ارسالی‌های معتبر

ارسالی‌های نامعتبر

18 of 33

آمار کلی روش‌های جمع‌آوری داده‌ها

۱۷

روش ۲

کل

پرسشنامه

توییت

بیو

۱۵۵۲۵۳۲

۱۰۸۸۷۴

۱۱۳۴۲۹۴

۳۰۹۳۶۴

شمار توییت‌ها

۹۳۸

۷۵

۶۵۳

۲۱۰

شمار کاربران

روش ۱

19 of 33

مقایسه روش‌های پیشنهادی

۱۸

چالش: یافتن جامعه هدفی که علاقه‌مند به این موضوع هستند ویا آگاهی و دانشی در این‌ باره دارند.

راه‌حل: درخواست توزیع مجدد پرسشنامه از افرادی که دارای دنبال‌کنندگان بالایی هستند.

چالش: متقاعد کردن افراد برای تکمیل کردن پرسشنامه

راه‌حل: استفاده از روش‌های انگیزشی و گاهاً اجباری

  • عدم حمایت مالی
  • کمبود ابزار مناسب
  • تجربه ناکافی

20 of 33

آماده‌سازی مجموعه‌داده

۴

21 of 33

جمع‌آوری توییت‌ها

۲۰

  • فیلتر کردن کاربران نامعتبر
    • نداشتن حساب کاربری عمومی
    • نداشتن بیشتر از ۱۰۰ توییت
  • استفاده از سلنیوم
    • خلاف قوانین توییتر بودن
    • استفاده از روش reCAPTCHA هر چند دقیقه یکبار => مانع جمع‌آوری توییت‌ها
    • زمان‌بر بودن
  • استفاده از API توییتر

22 of 33

تمیز کردن داده‌ها

۲۱

  • باید توییت‌های جمع‌آوری شده را تمیز و تاحدودی ناشناس و قابل استفاده کنیم.
    • جایگزینی تمام حساب‌های کاربری با کلمه منحصر به فرد <"USERNAME">
    • جایگزینی تمام لینک‌ها با کلمه منحصر به فرد <"LINK">
    • جایگزینی تمام هشتگ‌ها با کلمه منحصر به فرد <"HASHTAG">
    • استخراج توییت‌های فارسی زبان با استفاده از ویژگی API توییتر
  • در نظر داشتیم که تمام شکلک‌های موجود در متن توییت‌ها را با کلمه منحصر به فرد <"EMOJI"> جایگزین کنیم اما به دلیل اهمیت بالای آن در متن این کار را به عهده‌ی استفاده‌کننده از این مجموعه داده گذاشتیم با بر اساس نیاز خود و پژوهش مورد نظرش تصمیم گیری کند.

23 of 33

تحلیل و ارزیابی مجموعه‌داده

۵

24 of 33

تحلیل مجموعه‌داده

۲۳

  • ۹۳۸ کاربر و توییت‌های جمع‌آوری شده ١۵۵٢۵٣٢ و به طور متوسط هر کابر دارای ۱۶۵۵ توییت
  • برچسب‌ها را به ۴ دسته تقسیم کردیم: I/E , N/S , T/F , P/J
  • با این فرض که این چهار ویژگی مستقل از هم‌ هستند.

تعداد توییت‌ها به ازای ویژگی شخصیت و جنسیت

25 of 33

تحلیل مجموعه‌داده

۲۴

  • مقایسه با نتایج بدست آمده از جمعیت ایران
    • جمعیت ایران دارای بیش از ۸۲ میلیون نفر، ۶۲۵۱۹ نفر در سایت آزمون MBTI شرکت کرده‌اند.
    • ما مقایسه‌ای میان درصد تشکیل‌‌دهنده‌ هر یک از چهار ویژگی جمعیت ایران و مجموعه‌داده‌ی جمع‌آوری شده انجام دادیم.
    • افراد درون‌گرا کمتر از شبکه‌های مجازی در جامعه حضور دارند زیرا راحت‌تر می‌توانند ابراز احساسات در فضای مجازی کنند.
    • در بستر توییتر افراد به طور غیر مستقیم و از کنایه و تشبیه در صحبت‌هایشان استفاده می‌کنند.

26 of 33

آماده‌سازی مجموعه‌داده برای ارزیابی

۲۵

  • تقسیم داده‌ها به چند بخش به دلیل محدودیت شمار توکن‌های قابل پردازش مدل برت
  • برای تقسیم داده‌ها به ۲ دسته: آموزش و آزمایش، باید همه توییت‌های یک کاربر در یک دسته قرار داشته باشند.
  • روند تقسیم داده‌ها را ۵ بار با تقسیم‌بندی تصادفی مختلف تکرار کردیم تا از تأثیرگذاری ترتیب داده‌ها بر روی ارزیابی مدل جلوگیری کنیم.
  • برای کاهش تأثیر عدم تعادل برخی از دسته‌ها بر تقسیمات، ابتدا از روش stratified استفاده نمودیم و در هنگام آموزش و آزمایش داده‌های هر برچسب‌ را با استفاده از subsampling یکسان نمودیم.
  • در نهایت تصمیم گرفتیم:
    • حداکثر طول برای هر ورودی مدل برت را ۲۵۶ توکن در نظر بگیریم.

27 of 33

معرفی مدل پایه

۲۶

  • مدل پارس‌برت
    • مبتنی بر مدل برت
    • از قبل بر روی متون فارسی آموزش دیده
  • استفاده از یک دسته‌بند لاجستیک رگرسیون در بالای رمزگذاری [CLS]
  • استفاده از subsampling به صورت تصادفی حجم ورودی مدل را به قدری کاهش دادیم که مدت اجرای هر آموزش به ۱۵ الی ۲۰ دقیقه برسد.

۲۵۶

28 of 33

نتایج بدست آمده بر حسب معیار f1-score

۲۷

شمار تکرار

I/E

P/J

T/F

N/S

۱

۲

۳

۴

۵

میانگین

۵۶.۹۳

۵۷.۷۵

۵۶.۶۹

۵۸.۱۵

۵۶.۲۷

۵۸.۱

۵۷.۵۱

۵۶.۳۱

۵۵.۳۲

۵۵.۹۲

۵۵.۹۳

۵۵.۱۴

۵۷.۲۱

۵۷.۷۸

۵۷.۲۴

۵۷.۹۳

۵۸.۴۱

۵۶.۹۷

۵۵.۱۲

۵۸.۴۸

۵۷.۲

۵۶.۵۵

۵۷.۳

۵۶.۷۶

29 of 33

نتیجه‌گیری و کارهای آینده

۶

30 of 33

۲۹

نتیجه‌گیری

  • باتوجه به جالب بودن و مورد توجه قرار گرفتن این موضوع یعنی تشخیص شخصیت افراد، در حوزه پردازش زبان طبیعی، ما نیز در این پژوهش سعی کردیم تا اولین مجموعه‌داده فارسی این زمینه را جمع‌آوری کنیم تا دیگر محققان بتوانند از آن استفاده و مدل‌هایی با مجموعه‌داده فارسی طراحی کنند و به نتایج مناسب برسند ویا افراد علاقه‌مند به این زمینه با استفاده از روش‌ها و تحلیل‌های انجام شده و همچنین چالش‌های مطرح شده در این پژوهش، راه آسان‌تری برای جمع‌آوری مجموعه‌داده فارسی در پیش داشته باشند.

31 of 33

۳۰

کارهای آینده

  • ما قصد داریم برای بهبود داده‌های جمع‌آوری شده، عکس‌های افراد را به مجموعه‌داده جمع‌آوری شده اضافه کنیم تا از ویژگی‌های صورت نیز برای بهبود مدل‌سازی و درصد دقت بدست آمده، استفاده کنیم. علاوه‌براین غلبه بر چالش‌های موجود در جمع‌آوری داده‌ها با استفاده از آزمون‌های شناخته شده شخصیتی پنج‌عامله، می‌تواند دروازه‌ای برای پیشرفت بیشتر در عملکرد مدل‌سازی ویژگی‌های روانشناختی یک متن به زبان فارسی در نظر گرفته شود و همچنین جمع‌آوری داده‌های بیشتر به بهبود عملکرد مجموعه‌داده کمک می‌کند.

32 of 33

با سپاس از توجه شما

33 of 33

منابع