برت (مدل زبانی)

انکودر دو طرفه نمایشی از ترانسفورماتور (BERT) یک روش برای NLP (پردازش زبان طبیعی) به‌صورت یک مدل از قبل آموزش داده شده است که توسط گوگل طراحی و توسعه داده شده است. برت در سال ۲۰۱۸ توسط یعقوب Devlin و همکاران او در گوگل ایجاد و منتشر شده است.^[۱] ابزار برت گوگل برای اعمال نفوذ برای درک بهتر پرس‌وجوهای کاربران است.^[۲]

مدل اصلی از قبل آموزش داده شده برت به زبان انگلیسی بر روی دو پیکره شامل پیکره کتاب و ویکی‌پدیای انگلیسی آموزش داده شده است.^[۳]

معماری

برت در هستهٔ خود دارای یک مدل زبانی مبتنی بر ترنسفورمر با تعداد زیادی از انکودرها و لایه‌های self-attention هست.^[۴]برت به صورت از پیش آموزش داده‌شده روی دو تسک هست. اولی تسک مدل کردن زبانی (Language Modeling) است که ۱۵ درصد از توکن‌ها را به صورت ماسک‌شده قرار داده بوده‌اند که برت آموزش داده شده است تا بر اساس محتوا آنها را پیش‌بینی نماید. تسک دوم هم مرتبط با تسک پیش‌بینی عبارت بعدی (Next Sequence Prediction) است. در این تسک برت آموزش داده شده است تا اگر یه جملهٔ بعدی به صورت احتمالاتی داده شده‌باشد یا اصلاً جملهٔ بعدی را نداشته باشیم چطور بتوانیم از روی یک جمله جملهٔ بعدی را پیش‌بینی نماییم. هردوی این مسئله‌ها مسائل پایه‌ای و رایج در پردازش زبان‌های طبیعی هستند و به صورت کاربردی در مسائل زیادی در پردازش زبان‌های طبیعی کاربرد دارند. به عنوان نتیجه از یادگیری مدل برت می‌توان گفت که برت می‌تواند به صورت محتوایی کلمات را در جملات و محتواهای خاص یاد بگیرد. مزیت این مدل این است که پس از اینکه به صورت از پیش‌آموزش داده‌شده روی وظایف فوق آماده شد، حال می‌توان آن را روی هر تسک دلخواهی از پردازش زبان‌های طبیعی فاین‌تیون (Finetune) کرد و امروزه با دیتاست‌های به نسبت کوچک روی وظایف دلخواه پردازش زبان‌های طبیعی هم می‌توان به نتایج خوب با دقت‌های بالایی رسید و به صورت محاسباتی هم هزینهٔ کمتری دارند چراکه قبلا برت روی داده‌های زیادی آموزش داده شده است.^[۵]

کارایی مدل

هنگامی که برت به عنوان یک مدل زبانی منتشر شد توانست به عنوان یک مدل لبهٔ علم روی برخی از وظایف پردازش زبان‌های طبیعی عمل نماید. برخی از این دیتاست‌ها عبارتند از:

دیتاست GLUE که مجموعه‌ای از دیتاست‌هایی است که در پردازش زبان‌های طبیعی به عنوان وظایف معروف به کار می‌روند.
دیتاست SQuAD که یک دیتاست از سمت دانشگاه استنفورد برای پرسش و پاسخ است.
دیتاست SWAG که موقعیت‌هایی از پردازش زبان‌های طبیعی است که یک سازندهٔ متخاصم آنها را درست کرده است.
تحلیل احساسات که به کمک برت توانستند روی تعداد زیادی از زبان‌ها به کارایی بسیار خوبی برسند.^[۶]

تحلیل مدل

دلایلی که توانسته است مدل زبانی برت را به یک مدل زبانی لبهٔ علم در پردازش زبان‌های طبیعی تبدیل نمایند همچنان به صورت خوبی قابل توجیه و درک نیستند.^[۷]^[۸] در حال حاضر بسیاری از پژوهش‌ها روی این تمرکز دارند که رابطه‌ای بین ورودی برت و خروجی که می‌تواند تولید کند را پیدا کنند که این رابطه می‌تواند خود را با استفاده از وزن‌های ماتریس Attention نشان دهد.

تاریخچهٔ مدل

پیش از برت تاریخچهٔ اینگونه مدل‌ها به روش‌های نیمه‌نظارتی یادگیری ماشین^[۹] و مدل‌هایی دیگر نظیر ELMo^[۱۰] و ULMFit^[۱۱] برمی‌گردد. برخلاف مدل‌های پیشین برت یک مدل دوطرفه (Bidirectional) بدون نظارت (Unsupervised) است که روی متن خام آموزش داده شده است. برخی از مدل‌های دیگر نظیر Word2vec یا GloVe همگی به صورت مستقل از زمینه (Context free) هستند که برای هر کلمه مستقل از محتوا می‌توانند یک نمایش (Embedding) ایجاد نمایند ولی برخلاف آنها برت با تمرکز روی زمینه (Context) می‌تواند بر اساس محتوا برای یک کلمه نمایش‌های مختلفی داشته باشد و این ما را یک قدم به فهمیدن مفهوم یک کلمه در جمله فارز از معنی کلمه نزدیک‌تر می‌کند. به عنوان نمونه اگر دو جمله به صورت «He is running a comapny» و «He is running a marathon» داشته باشیم که در اولی «running» به معنای «اداره کردن» و در دومی «running» به معنای «دویدن» است برای این دو کلمه می‌تواند بر اساس محتوای جمله تفاوت قائل شود و آنها را به یک صورت نمی‌بیند ولی مدل‌های پیشین که به صورت مستقل از محتوا عمل می‌کنند این مشکل را نمی‌توانند حل نمایند.

در تاریخ ۲۵ اکتبر ۲۰۱۹ شرکت گوگل سرچ (Google Search) اعلام کرد که آنها شروع به استفاده از مدل زبانی برت برای جستجوهای انگلیسی کاربران آمریکایی شده‌اند.^[۱۲] همچنین در تاریخ ۹ دسامبر ۲۰۱۹ برت بر روی بیش از ۷۰ زبان زندهٔ دنیا پیاده‌سازی شده‌بود^[۱۳] و در اکتبر ۲۰۲۰ هر جستجوی انگلیسی با استفاده از برت انجام می‌شد و بر روی آن برت پردازشی برای تشخیص مفهوم انجام می‌داد.^[۱۴]

مقالهٔ برت

مقاله‌ای که مدل زبانی برت را برای اولین بار معرفی نمود در سال ۲۰۱۹ جایزهٔ بهترین بلندترین مقالهٔ سال (Best Long Paper Award) را در قسمت آمریکای شمالی کنفرانس NAACL را برنده شد و به عنوان بهترین مقاله در این زمینه در سال ۲۰۱۹ شناخته شد.^[۱۵]

منابع

↑ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (به انگلیسی). Retrieved 2019-11-27.
↑ "Understanding searches better than ever before". Google (به انگلیسی). 2019-10-25. Retrieved 2019-11-27.
↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
↑ Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017-06-12). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
↑ Horev, Rani (2018). "BERT Explained: State of the art language model for NLP". Towards Data Science. Retrieved 27 September 2021.
↑ Chiorrini, Andrea; Diamantini, Claudia; Mircoli, Alex; Potena, Domenico. "Emotion and sentiment analysis of tweets using BERT" (PDF). Proceedings of Data Analytics solutions for Real-LIfe APplications (DARLI-AP) 2021.
↑ Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (به انگلیسی). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.
↑ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.
↑ Dai, Andrew; Le, Quoc (4 November 2015). "Semi-supervised Sequence Learning". arXiv:1511.01432 [cs.LG].
↑ Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 February 2018). "Deep contextualized word representations". arXiv:1802.05365v2 [cs.CL].
↑ Howard, Jeremy; Ruder, Sebastian (18 January 2018). "Universal Language Model Fine-tuning for Text Classification". arXiv:1801.06146v5 [cs.CL].
↑ Nayak, Pandu (25 October 2019). "Understanding searches better than ever before". Google Blog. Retrieved 10 December 2019.
↑ Montti, Roger (10 December 2019). "Google's BERT Rolls Out Worldwide". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.
↑ "Google: BERT now used on almost every English query". Search Engine Land. 2020-10-15. Retrieved 2020-11-24.
↑ "Best Paper Awards". NAACL. 2019. Retrieved Mar 28, 2020.

پیوند به بیرون

گیتهاب رسمی

[1] "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (به انگلیسی). Retrieved 2019-11-27.

[2] "Understanding searches better than ever before". Google (به انگلیسی). 2019-10-25. Retrieved 2019-11-27.

[:0-3] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].

[vaswani-4] Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017-06-12). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].

[5] Horev, Rani (2018). "BERT Explained: State of the art language model for NLP". Towards Data Science. Retrieved 27 September 2021.

[chiorrini-6] Chiorrini, Andrea; Diamantini, Claudia; Mircoli, Alex; Potena, Domenico. "Emotion and sentiment analysis of tweets using BERT" (PDF). Proceedings of Data Analytics solutions for Real-LIfe APplications (DARLI-AP) 2021.

[:1-7] Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (به انگلیسی). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.

[:2-8] Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.

[9] Dai, Andrew; Le, Quoc (4 November 2015). "Semi-supervised Sequence Learning". arXiv:1511.01432 [cs.LG].

[10] Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 February 2018). "Deep contextualized word representations". arXiv:1802.05365v2 [cs.CL].

[11] Howard, Jeremy; Ruder, Sebastian (18 January 2018). "Universal Language Model Fine-tuning for Text Classification". arXiv:1801.06146v5 [cs.CL].

[12] Nayak, Pandu (25 October 2019). "Understanding searches better than ever before". Google Blog. Retrieved 10 December 2019.

[13] Montti, Roger (10 December 2019). "Google's BERT Rolls Out Worldwide". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.

[14] "Google: BERT now used on almost every English query". Search Engine Land. 2020-10-15. Retrieved 2020-11-24.

[15] "Best Paper Awards". NAACL. 2019. Retrieved Mar 28, 2020.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]