1 of 23

ارزيابی بدون مرجع كيفيت ويديو با بهره گيری از همبستگی نقشه های ويژگی

عرفان اسدي، پارميدا پورمتين، آزاده منصوري

دپارتمان مهندسي برق و كامپيوتر دانشگاه خوارزمي

ارائه های علمی-تخصصی گروه همرسا�پاییز 1404

1

2 of 23

2

1. مقدمه

2. مفاهیم و مروری بر تحقیقات

3. روش پیشنهادی

4. پیاده سازی و نتایچ

5. منابع

فهرست

3 of 23

3

1. مقدمه

4 of 23

4

تخریب های موجود در ویدیو

تخریب‌ ویدیو

  • در دنیای دیجیتال، ویدیوها ممکن است به دلایلی تخریب و کیفیت اولیه خود را از دست دهند.

تخریب‌های واقعی

  • منابع ناشناخته
    • ضبط
    • انتقال
  • تولید ویدیو کاربران
  • عدم دسترسی به ویدیو مرجع

تخریب‌های ساختگی

  • فشرده‌سازی
  • تارشدگی اجسام در حرکت
  • تخریب رنگی

5 of 23

5

ارزیابی کیفیت ویدیو

ارزیابی کیفیت ویدیو

تشخیص میزان تخریب در ویدیوها و نسبت دادن یک معیار میزان کیفیت به آن‌ها

  • میانگین نظرات انسانی (MOS)

ارزیابی با عامل انسانی

مشاهده ویدیو توسط افراد و اعلام میانگین نظرات برای ویدیو

✔️دقت بالا

❌ زمانبر و هزینه‌بر

❌ عدم استفاده در مقیاس بالا

ارزیابی با روش محاسباتی

استفاده از توان پردازشی رایانه‌ها جهت ارزیابی کیفیت

✔️ سرعت بالا

✔️ قابل اجرا در مقیاس بالا

❌ دقت کمتر

❌ پیچیدگی بالا

6 of 23

6

انواع روش های ارزیابی کیفیت ویدیو

ارزیابی کیفیت ویدیو

با مرجع

  • لزوم حضور ویدیو تخریب نشده
  • مناسب برای الگوریتم‌های فشرده سازی و بهبود کیفیت
  • پیشینه‌ی قوی‌تر

ارزیابی کیفیت ویدیو

با مرجع کاهشی

ارزیابی کیفیت ویدیو

بدون مرجع

  • عدم حضور کامل ویدیو مرجع
  • وجود برخی از ویژگی‌ها مانند اطلاعات حرکتی
  • عدم حضور ویدیو مرجع
  • پیچیدگی بالا
  • لزوم شباهت به سیستم بینای بشر
  • نامحدود بودن ذهن انسان

7 of 23

7

2. مفاهیم و مروری بر تحقیقات

8 of 23

8

معیارهای ارزیابی کیفیت ویدیو

ضریب همبستگی خطی پیرسون (PLCC)

 

ضریب همبستگی رتبه اسپیرمن (SROCC)

 

9 of 23

9

ارزیابی کیفیت ویدیو

به طور کلی این روش‌ها را می‌توان به سه دسته تقسیم نمود:

  • روش اول: روش‌هایی بر اساس اطلاعات موجود در فریم‌های مجاور

روش‌هایی با استفاده از اطلاعات دو فریم مجاور (اختلاف فریم‌ها و جریان نوری) مانند روش VBLIINDS

  • روش دوم: روش‌هایی بر اساس مکعب برش‌های ویدیویی

روش هایی که از برش‌های ویدیویی برای استخراج اطلاعات مکانی، زمانی و مکانی-زمانی استفاده می‌کنند. مانند VIDEVAL

  • روش سوم: روش‌هایی بر اساس اطلاعات موجود در سطح فریم‌ها

ویژگی‌ها را از سطح فریم‌ها استخراج کرده و سپس در محور زمان ادغام می‌کنند تا برای ارزیابی کیفیت، ویژگی‌های کلی سطح ویدیو را بیان کنند.

ارزیابی کیفیت ویدیو

به طور کلی این روش‌ها را می‌توان به سه دسته تقسیم نمود:

  • روش اول: روش‌هایی بر اساس اطلاعات موجود در فریم‌های مجاور

روش‌هایی با استفاده از اطلاعات دو فریم مجاور (اختلاف فریم‌ها و جریان نوری) مانند روش VBLIINDS

  • روش دوم: روش‌هایی بر اساس مکعب برش‌های ویدیویی

روش هایی که از برش‌های ویدیویی برای استخراج اطلاعات مکانی، زمانی و مکانی-زمانی استفاده می‌کنند. مانند VIDEVAL

  • روش سوم: روش‌هایی بر اساس اطلاعات موجود در سطح فریم‌ها

ویژگی‌ها را از سطح فریم‌ها استخراج کرده و سپس در محور زمان ادغام می‌کنند تا برای ارزیابی کیفیت، ویژگی‌های کلی سطح ویدیو را بیان کنند.

10 of 23

10

3. روش پیشنهادی

11 of 23

11

تنظیم دقیق شبکه و استخراج ویژگی های مکانی

تنظیم دقیق شبکه‌های از پیش‌آموزش دیده شده برای هدفی مشخص و مشابه با هدف اصلی بر روی مجموعه داده متفاوت

  • بالابودن تعداد پارامترها برای آموزش تمام پارامترهای شبکه
  • آموزش و به روز رسانی وزن‌های برخی از لایه‌ها

تنظیم شبکه‌های پیچشی عمیق از پیش آموزش دیده بر روی مجموعه داده ارزیابی کیفیت تصویر

    • زمان کمتر نسبت به آموزش مدل از ابتدا
    • شناخت بهتر ویژگی‌های مکانی(تخریب‌های مکانی) برای فرایند ارزیابی کیفیت ویدیو

12 of 23

12

ماتریس گرام

یک نوع خاص از ماتریس است که می‌تواند ضرب داخلی بین تمام جفت های یک مجموعه‌بردار را نمایش دهد.

  • به دست آوردن میزان شباهت بین تمام جفت بردارها
  • ماتریس متقارن

Available from: https://www.arxivvanity.com/papers/1910.06180

13 of 23

13

ماتریس گرام و ارزیابی کیفیت ویدیو�

Bakhtiari, A.H. and A. Mansouri. No Reference Video Quality Assessment by Deep Feature Maps Relations . in 2022 12th International Conference on Computer and Knowledge Engineering ( ICCKE). 2022. IEEE

  • محاسبه ماتریس گرام ویژگی‌های استخراج شده از هر لایه
  • برداری کردن ویژگی‌های استخراج شده
  • محاسبه ماتریس گرام و استفاده از آن‌ها در فرآیند ارزیابی کیفیت

14 of 23

14

ساختار روش پیشنهادی

  1. استخراج ویژگی‌های مکانی با استفاده از شبکه پیچشی عمیق(تنظیم دقیق شده)
  2. ساخت ماتریس گرام (قسمت بالامثلثی)
  3. تجمیع زمانی(میانگین گیری و بیشینه‌گیری ویژگی‌ها)
  4. استفاده از ماشین بردار پشتیبان خطی برای
  5. ارزیابی کیفیت ویدیو (میانگین نظرات انسانی)

15 of 23

15

4. پیاده سازی و نتایج

16 of 23

16

جزئیات پیاده سازی

  1. تنظیم شبکه‌ی InceptionV3 بر روی مجموعه داده TID2013
  2. ساخت ماتریس گرام (قسمت بالامثلثی)
  3. تجمیع زمانی(میانگین گیری و بیشینه‌گیری ویژگی‌ها)

17 of 23

17

تنظیم دقیق شبکه‌های عصبی پیچشی عمیق�

  • نتایج فرآیند تنظیم دقیق شبکه‌های بر روی مجموعه داده TID2013

18 of 23

18

عملکرد شبکه ها

  • عملکرد شبکه بر روی مجموعه‌داده KonVid-1K

  • عملکرد شبکه بر روی مجموعه‌داده LiveVQC

19 of 23

19

عملکرد شبکه ها

  • عملکرد شبکه بر روی مجموعه‌داده KonVid-1K

  • عملکرد شبکه بر روی مجموعه‌داده LiveVQC

20 of 23

20

مقایسه با سایر روش روش ها

21 of 23

21

5. منابع

22 of 23

22

  • Saad, M.A., A.C. Bovik, and C. Charrier, Blind prediction of natural video quality. IEEE Transactions on image Processing, 2014.
  • Varga, D. and T. Szirányi, No-reference video quality assessment via pretrained CNN and LSTM networks. Signal, Image and Video Processing, 2019. 13(8): p. 1569-1576.
  • Tu, Z., et al. Video quality assessment of user generated content: A benchmark study and a new model . in 2021 IEEE International Conference on Image Processing (ICIP) ICIP). 2021. IEEE .
  • A. Farooq, X. Jia, J. Hu and J. Zhou , Multi-resolution weed classification via convolutional neural network and superpixel based local binary pattern using remote sensing images, Remote Sensing 2019 Vol. 11 Issue 14 Pages 1692
  • Abdari, A., P. Amirjan, and A. Mansouri, Speeding Up Action Recognition Using Dynamic Accumulation of Residuals in Compressed Domain. arXiv preprint arXiv:2
  • https://www.arxivvanity.com/papers/1910.06180
  • Bakhtiari, A.H. and A. Mansouri. No Reference Video Quality Assessment by Deep Feature Maps Relations . in 2022 12th International Conference on Computer and Knowledge Engineering ( ICCKE). 2022. IEEE
  • Götz-Hahn, F., V. Hosu, and D. Saupe, Comment on" no-reference video quality assessment based on the temporal pooling of deep features". arXiv preprint arXiv:2005.04400, 2020.

23 of 23

23

کارهای آتی

  • لزوم کار بیشتر بر مدل تجمیع کننده زمانی
  • استفاده از شبکه های عصبی کانولوشنی یک بعدی به عنوان تجمیع کننده ویژگی‌های زمانی
  • با توجه به رشد مدل‌های زبانی بزرگ و واحد‌های سازنده آن‌ها، استفاده از ترنسفورمرها به عنوان تجمیع کننده زمانی می‌تواند ما را به نتیجه مطلوب برساند.
  • یکی از چالش ترنسفورمرها نیاز به پرداز در حجم بسیار بالاست.
  • استفاده از VLM ها برای تشخیص تخریب