برت (مدل زبانی)انکودر دو طرفه نمایشی از ترانسفورماتور (BERT) یک روش برای NLP (پردازش زبان طبیعی) بهصورت یک مدل از قبل آموزش داده شده است که توسط گوگل طراحی و توسعه داده شده است. برت در سال ۲۰۱۸ توسط یعقوب Devlin و همکاران او در گوگل ایجاد و منتشر شده است.[۱] ابزار برت گوگل برای اعمال نفوذ برای درک بهتر پرسوجوهای کاربران است.[۲] مدل اصلی از قبل آموزش داده شده برت به زبان انگلیسی بر روی دو پیکره شامل پیکره کتاب و ویکیپدیای انگلیسی آموزش داده شده است.[۳] معماریبرت در هستهٔ خود دارای یک مدل زبانی مبتنی بر ترنسفورمر با تعداد زیادی از انکودرها و لایههای self-attention هست.[۴]برت به صورت از پیش آموزش دادهشده روی دو تسک هست. اولی تسک مدل کردن زبانی (Language Modeling) است که ۱۵ درصد از توکنها را به صورت ماسکشده قرار داده بودهاند که برت آموزش داده شده است تا بر اساس محتوا آنها را پیشبینی نماید. تسک دوم هم مرتبط با تسک پیشبینی عبارت بعدی (Next Sequence Prediction) است. در این تسک برت آموزش داده شده است تا اگر یه جملهٔ بعدی به صورت احتمالاتی داده شدهباشد یا اصلاً جملهٔ بعدی را نداشته باشیم چطور بتوانیم از روی یک جمله جملهٔ بعدی را پیشبینی نماییم. هردوی این مسئلهها مسائل پایهای و رایج در پردازش زبانهای طبیعی هستند و به صورت کاربردی در مسائل زیادی در پردازش زبانهای طبیعی کاربرد دارند. به عنوان نتیجه از یادگیری مدل برت میتوان گفت که برت میتواند به صورت محتوایی کلمات را در جملات و محتواهای خاص یاد بگیرد. مزیت این مدل این است که پس از اینکه به صورت از پیشآموزش دادهشده روی وظایف فوق آماده شد، حال میتوان آن را روی هر تسک دلخواهی از پردازش زبانهای طبیعی فاینتیون (Finetune) کرد و امروزه با دیتاستهای به نسبت کوچک روی وظایف دلخواه پردازش زبانهای طبیعی هم میتوان به نتایج خوب با دقتهای بالایی رسید و به صورت محاسباتی هم هزینهٔ کمتری دارند چراکه قبلا برت روی دادههای زیادی آموزش داده شده است.[۵] کارایی مدلهنگامی که برت به عنوان یک مدل زبانی منتشر شد توانست به عنوان یک مدل لبهٔ علم روی برخی از وظایف پردازش زبانهای طبیعی عمل نماید. برخی از این دیتاستها عبارتند از:
تحلیل مدلدلایلی که توانسته است مدل زبانی برت را به یک مدل زبانی لبهٔ علم در پردازش زبانهای طبیعی تبدیل نمایند همچنان به صورت خوبی قابل توجیه و درک نیستند.[۷][۸] در حال حاضر بسیاری از پژوهشها روی این تمرکز دارند که رابطهای بین ورودی برت و خروجی که میتواند تولید کند را پیدا کنند که این رابطه میتواند خود را با استفاده از وزنهای ماتریس Attention نشان دهد. تاریخچهٔ مدلپیش از برت تاریخچهٔ اینگونه مدلها به روشهای نیمهنظارتی یادگیری ماشین[۹] و مدلهایی دیگر نظیر ELMo[۱۰] و ULMFit[۱۱] برمیگردد. برخلاف مدلهای پیشین برت یک مدل دوطرفه (Bidirectional) بدون نظارت (Unsupervised) است که روی متن خام آموزش داده شده است. برخی از مدلهای دیگر نظیر Word2vec یا GloVe همگی به صورت مستقل از زمینه (Context free) هستند که برای هر کلمه مستقل از محتوا میتوانند یک نمایش (Embedding) ایجاد نمایند ولی برخلاف آنها برت با تمرکز روی زمینه (Context) میتواند بر اساس محتوا برای یک کلمه نمایشهای مختلفی داشته باشد و این ما را یک قدم به فهمیدن مفهوم یک کلمه در جمله فارز از معنی کلمه نزدیکتر میکند. به عنوان نمونه اگر دو جمله به صورت «He is running a comapny» و «He is running a marathon» داشته باشیم که در اولی «running» به معنای «اداره کردن» و در دومی «running» به معنای «دویدن» است برای این دو کلمه میتواند بر اساس محتوای جمله تفاوت قائل شود و آنها را به یک صورت نمیبیند ولی مدلهای پیشین که به صورت مستقل از محتوا عمل میکنند این مشکل را نمیتوانند حل نمایند. در تاریخ ۲۵ اکتبر ۲۰۱۹ شرکت گوگل سرچ (Google Search) اعلام کرد که آنها شروع به استفاده از مدل زبانی برت برای جستجوهای انگلیسی کاربران آمریکایی شدهاند.[۱۲] همچنین در تاریخ ۹ دسامبر ۲۰۱۹ برت بر روی بیش از ۷۰ زبان زندهٔ دنیا پیادهسازی شدهبود[۱۳] و در اکتبر ۲۰۲۰ هر جستجوی انگلیسی با استفاده از برت انجام میشد و بر روی آن برت پردازشی برای تشخیص مفهوم انجام میداد.[۱۴] مقالهٔ برتمقالهای که مدل زبانی برت را برای اولین بار معرفی نمود در سال ۲۰۱۹ جایزهٔ بهترین بلندترین مقالهٔ سال (Best Long Paper Award) را در قسمت آمریکای شمالی کنفرانس NAACL را برنده شد و به عنوان بهترین مقاله در این زمینه در سال ۲۰۱۹ شناخته شد.[۱۵] منابع
پیوند به بیرون |