Eustagger
| Eustagger | |
|---|---|
| Jatorria | |
| Sorrera-urtea | 2002 |
| Argitaratze-data | 2002 |
| Ezaugarriak | |
| Hizkuntza | euskara |
| Euskarria | EDBL |
| ixa2.si.ehu.eus… | |
Eustagger 2002an Ixa Taldeak sortutako euskararako lematizatzaile bat da, alegia, euskarazko testuetako hitzen lema identifikatzen duen tresna informatikoa da. Lemaz gain hitzaren kategoria gramatikala ere ematen du. Euskararen prozesamendu automatikorako tresna garrantzitsua da lematizatzailea, hainbat testu-corpusetan lemak etiketatzeko erabili da Eustagger; besteak beste, XX. mendeko corpus estatistikoa,[1] EPEC[2] eta Lexikoaren Behatokia.[3]
Sorrera
Iñaki Alegria informatikariak eta Miriam Urkia hizkuntzalariak 1994an eta 1997an aurkeztutako beren doktore-tesietan Xuxen zuzentzaile ortografikoa eta Morfeus analizatzaile morfologikoa sortu zituzten.[4][5] Geroago Nerea Ezeizaren tesia haren jarraipena izan zen, EUSLEM euskararen lematizatzailea sortu zuen, geroago EUSTAGGER izena hartu zuena.[6][7] Programa informatiko horrek esaldi bateko hitz bakoitza zein kategoria (izena, adjektibo, aditza...) duen zehazten du. Morfeusek hitz bakoitzaren kategoria eta analisi morfologiko posible guztiak lortzen zituen, hitzaren testuingurua kontuan hartu gabe. EUSTAGGERrek esaldi bateko aurreko eta atzeko hitzak zein diren kontuan hartuz, gauza zen testuinguru horretan hitzak duen lema eta kategoria asmatzeko.[8][9]
- Esaldi baten analisia: Amagoiaren lagunak Galizian egiten du lan
Testu-corpus lematizatuak


Lematizatzaile hori hainbat tresnatan erabili da geroago, esaterako, UZEIk Euskaltzaindiaren enkarguz osatutako XX. mendeko corpus estatistikoa automatikoki lematizatzeko oinarria izan zen.[9]
Geroago EPEC corpusean haruntzago joan zen etiketatze mailan, kategoria morfologiko bakarrik ez, esaldi mailako informazio sintaktikoa ere etiketatu zen 300.000 hitzeko testu-bilduma batean [2] Euskararen Prozesamendurako Erreferentzia Corpuseko (EPEC) etiketazioa Dependentzia-Gramatikaren Teorian oinarrituta dago. Basque Dependency Treebank ere esaten zaio.
Lexikoaren Behatokia proiektua Euskaltzaindiaren ekimenez abiatu zen, 2007an, Hiztegi Batuko Lantaldeak egindako proposamen bati erantzunez, eta lankidetzan Ixa Taldearekin, UZEIrekin eta Elhuyarrekin. Lankide nagusiak hauek dira: Andoni Sagarna, Miriam Urkia, Xabier Artola, Antton Gurrutxaga eta Nerea Ezeiza bera. Proiektuaren emaitza da izen bera duen corpusa, zeina web bidez kontsultatu baitaiteke. 65 milioi hitzeko testu-corpus bat eratu zuten 2018ra arte.[14] Corpusa automatikoki prozesatuta dago, eta linguistikoki etiketatuta, eta hizkuntza-corpusek ohikoa duten kontsulta-funtzionalitatea eskaintzen dio erabiltzaileari.[3][13]
Euskarazko hitzen kategoria-sistema
Eustagger lematizatzaileren oinarri lexikala Euskararen Datu-Base Lexikala (EDBL) da, euskarazko hitz eta morfemei buruzko informazio zabala biltzen duen datu-basea, Internet bidez arakatu daitekeena. Euskarazko lemez gain, atzizkiak-eta hartzen ditu. Esanahia barik, bakoitzaren propietate lexiko eta morfologikoak zehazten ditu definizio bakoitzak. Informazio hori Xuxen zuzentzaile ortografikoan eta Morfeus analizatzaile morfologikoan ere erabiltzen da.
Analisi morfologikoan eta lematizazioan euskarazko hitzak etiketatu ahal izateko, EDBL datu basean guztira 27 kategoria lexikal hauek definitu zituen Ixa Taldeak:[10][9]
Kategoria Nagusiak eta Azpikategoriak (10)
- IZE izenak
- ARR arruntak (zuhaitz)
- IZB pertsona-izen bereziak (Mikel)
- LIB leku-izen bereziak (Donostia)
- ZKI zenbakia (bat)
- ADJ adjektiboak
- ARR arruntak (handi, benetako)
- GAL galdetzaileak (nongo)
- ADI aditzak
- SIN sinpleak (ekarri)
- ADK konposatuak (lo egin)
- ADP perifrastikoak (ahal izan)
- FAK faktitiboak (etorrarazi)
- ADB adberbioak
- ARR arruntak (gaur, negarrez)
- GAL galdetzaileak (noiz)
- DET determinatzaileak
- ERK erakusleak
- ERK ARR arruntak (hau)
- ERKIND indartuak (berori)
- NOL nolakotzaileak
- NOLARR arruntak (edozein)
- NOLGAL galdetzaileak (zein)
- ZNB zenbatzaileak
- DZH zehaztuak (bi)
- BAN banatzaileak (bina)
- ORD ordinalak (bigarren)
- DZG zehaztugabeak (zenbait)
- ORO orokorrak (guzti)
- IOR izenordainak
- PER pertsonalak
- PERARR arruntak (ni)
- PERIND indartuak (neu)
- IZG zehaztugabeak
- IZGMGB mugagabeak (norbait)
- IZGGAL galdetzaileak (nor)
- BIH bihurkariak (-(r)en burua)
- ELK elkarkariak (elkar)
- LOT loturazkoak
- LOK lokailuak (hala ere)
- JNT juntagailuak (edo)
- PRT partikulak (omen, ote, ...)
- ITJ interjekzioak (alajaina!)
- BST bestelakok (baldin)
Kategoria lagungarriak (5)
- ADL ADITZ LAGUNTZAILEAK (du)
- ADT ADITZ SINTETIKOAK (dator)
- SIG SIGLAK (EHU)
- SNB SINBOLOAK (km, cm, g,...)
- LAB LABURDURAK (etab.)
Kategoria Morfologikoak (9)
- AMM ADITZ-MOTA MORFEMAK (-tu, -t(z)e,...)
- ASP ASPEKTU-MORFEMAK (Ø, -ko,...)
- ATZ ATZIZKIAK (-pe)
- AUR AURRIZKIAK (ber-)
- DEK DEKLINABIDE MORFEMAK (-aren)
- ELI ELIPSIA (Ø)
- ERL ERLAZIO ATZIZKIAK (-(e)la)
- GRA GRADUATZAILEAK (-ago)
- MAR MARRA (-)
Puntuazio-zeinuak (3)
- PNT PUNTUA
- BPM BESTE PUNTUAZIO ZEINUAK (puntuaren pareko izan daitezkeenak)
- PSB PUNTUAZIO SINBOLOAK (parentesiak, marra luzea, kak
Erreferentziak
- ↑ «Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia. – Hizkuntza-teknologiak» www.unibertsitatea.net (kontsulta data: 2018-11-26).
- ↑ a b «EPEC-DEP (BDT) | Ixa taldea» ixa.si.ehu.eus (kontsulta data: 2018-11-26).
- ↑ a b Xabier Artola, Andoni Sagarna, Miriam Urkia, Nerea Ezeiza eta Antton Gurrutxaga. (2017). Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari - IXA Taldea (Atal berezia: Besterena nuen neuregana) - EIZIE. SENEZ aldizkaria, 48. zk., 201-209 or. ISBN ISSN:1132-2152. (kontsulta data: 2017-12-11).
- ↑ Alegria Loinaz, Iñaki. (1994). Euskal morfologiaren tratamendu automatikorako tresnak. UPV/EHU (kontsulta data: 2026-04-28).
- ↑ Urkia Gonzalez, Miriam. (1997). Euskal morfologiaren tratamendu informatikorantz. UPV/EHU ISBN 978-84-8438-579-0. (kontsulta data: 2026-04-28).
- ↑ Ramos, Nerea Ezeiza. (2002). Corpusak ustiatzeko tresna linguistikoak. Euskararen etiketatzaile morfosintaktiko sendo eta malgua. UPV/EHU ISBN 978-84-8438-060-3. (kontsulta data: 2024-03-08).
- ↑ a b ×10{{{1}}} Mendiola, Ainara. (2000-07-26). «Bost tesi berri euskara automatizatzeko» Euskaldunon Egunkariaren hemeroteka. 1990-2003. (berria.eus) (kontsulta data: 2024-03-08).
- ↑ Ezeiza, Nerea; Alegria, Iñaki; Arriola, Jose Mari; Urizar, Rubén; Aduriz, Itziar. (1998). «Combining stochastic and rule-based methods for disambiguation in agglutinative languages» COLING 1998 Volume 1: The 17th International Conference on Computational Linguistics (kontsulta data: 2024-03-06).
- ↑ a b c d Aldezabal Roteta, Izaskun; Aranzabe Urruzola, María Jesús; Díaz de Ilarraza Sánchez, Arantza; Estarrona Ibarloza, Ainara; Ezeiza Ramos, Nerea; Uria Garin, Larraitz. (2009). Corpusen etiketatze linguistikoa. ISSN 0582-6152. (kontsulta data: 2024-03-08).
- ↑ a b c Arantzabe, Maxux; Sarasola, Kepa. (2009-04-29). «Morfologia eta sintaxiko ariketak konputagailuaren bidez — Unibertsitatea.Net» www.unibertsitatea.net (UEU - Ixa Taldea) (kontsulta data: 2024-03-07).
- ↑ «Analizatzaile morfologikoa probatzeko webgunea - Ixa Taldea» ixa2.si.ehu.eus (kontsulta data: 2024-03-07).
- ↑ Ixa Taldea. «Eustagger lematizatzailea probatzeko webgunea» ixa2.si.ehu.eus (kontsulta data: 2024-03-07).
- ↑ a b UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. Lexikoaren Behatokiaren Corpusa. (kontsulta data: 2017-12-11).
- ↑ irudia, Komunikazioa eta. «Gaurtik, Lexikoaren Behatokiak 65 milioi testu-hitz eta bilaketa-aukera gehiago ditu» www.euskaltzaindia.eus (kontsulta data: 2019-07-19).
Bibliografia
- Aduriz I., Aranzabe M.J., Arriola J.M., Atutxa A., Díaz de Ilarraza A., Ezeiza N., Gojenola K., Oronoz M., Soroa A., Urizar R. 2006 Methodology and steps towards the construction of EPEC, a corpus of written Basque tagged at morphological and syntactic levels for the automatic processing. In Wilson A., Rayson P. eta Archer D. (arg.), Corpus Linguistics Around the World, 1-15. Rodopi (Netherland).
- Alegria I., Aranzabe M., Ezeiza A., Ezeiza N., Urizar R. 2002 Robustness and customisation in an analyser/lemmatiser for Basque LREC-2002 Customizing knowledge in NLP applications workshop, pages 1-6, Las Palmas de Gran Canaria, 28th May 2002
Ikus, gainera
Kanpo estekak
- Nerea Ezeizaren argitalpen zientifikoak. Ixa Taldearen webgunean.
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.









