Word2vec
Word2vec word embedding-ak sortzeko erabiltzen diren eredu multzoa da. Bi geruzez osatutako neurona sarea da, zeinen testu corpus erraldoiak emanda hitzen bektore distibuzionalak bueltatzen ditu. Normalean, dimentsio askotako bektoreak izan ohi dira, non corpuseko hitz bakoitzari espazioko bektore bat esleitzen zaio. Corpusean sarritan elkarren ondoan agertzen diren hitzak espazioan gertu egongo dira.
Word2vec Tomas Mikolov buru zen ikertzaile taldeak sortu zuen Googlen.[1] Algoritmo hau erabiliz sortutako bektore distribuzionalak aurretik zeuden ereduekin konparatuz zenbat hobekuntza zituen, ezkutuko semantikaren analisia adibidez.[2]
CBOW eta skipgram
Word2vec-ek bi arkitektura erabili ditzake hitzen errepresentazio distribuzionalak sortzeko: CBOW edo skip-gram. CBOW, testuinguruko hitzen batezbestekoa sarrera izanik, erdikoa aurresan. Skip-gram, erdiko hitza sarrera izanik, testuingurukoa aurresan.

Parametrizazioa
Arkitektura
Aurretik aipatu bezala bi eredu ezberdin erabili daiteke errepresentazio bektoreak lortzeko. Skipgram, motelagoa da baina ez ohiko hitzetan emaitza interesgarria sortzen ditu. CBOW, aurreko eredua baino azkarragoa da entrenatzerako orduan.
Entrenamendurako algoritmoa
Word2vec eredua softmax hierarkikoa edo laginketa negatiboaren bidez entrenatu ohi da. Softmax hierarkikoak Huffman zuhaitza erabiltzen du kalkuluak murrizteko. Laginketa negatiboak testuinguru desberdineko hitzen probabilitatea minimizatzen du; hitzen sakabanaketa eraginez bektore-espazioan.
Dimentsionalitatea
Oro har, bektoreen kalitatea hauen dimentsioekin egiten du gora, baina ez da beti betetzen. Normalean, bektoreen dimentsionalitatea 50-500 artean kokatzen da.
Leihoa
Leihoaren luzerak emandako hitzaren ondoan dauden zenbat hitzak sartu behar diren honen testuinguruan. Autoreek, skipgram-en 10 eta CBOWn 5 erabiltzea gomendatzen dute.
Hedapenak
Dokumentu osoen embedding-ak sortzeko word2vec-en hedapen desberdinak proposatu ziren. Hedapen hauek paragraph2vec edo doc2vec, zeinen C, Python eta Java/Scala-n dauden inplementatuta.
Analisia
Word2vec-ek sortzen duen word embedding-en arrakasta ez da oraindik ongi ulertzen. Goldberg eta Levy-k esan bezala, word2vec-ek antzeko testuinguruan dauden hitzek antzeko bektoreak izan ohi dituztela eta hau J.R. Firth's-n hipotesi distribusionalareik bat dator. Hala eta guztiz ere, azalpen hau ez dela nahikoa eta azalpen formalago bat eman zuten.
Erreferentziak
- ↑ Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey. (2013-01-16). «Efficient Estimation of Word Representations in Vector Space» arXiv:1301.3781 [cs] (kontsulta data: 2018-02-27).
- ↑ Goldberg, Yoav; Levy, Omer. (2014-02-15). «word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method» arXiv:1402.3722 [cs, stat] (kontsulta data: 2018-02-27).
Ikus, gainera
Kanpo estekak
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.









