The Perugia Corpus (PEC) is a corpus of contemporary written and spoken Italian of more than 26 million words. Its aim is to fill the gap of the lack of an Italian reference corpus. This paper describes its composition and organiza- tion in 10 sections and sub-sections, and its multilevel annotation and evaluation.
Il Perugia Corpus (PEC) è un corpus dell’italiano contemporaneo scrit- to e parlato, che comprende oltre 26 mi- lioni di parole. L’obiettivo che ha guidato la sua costituzione è quello di ovviare al- la mancanza di un corpus di riferimento dell’italiano. In questo articolo vengono descritti i criteri alla base della sua com- posizione, la sua strutturazione in 10 se- zioni e sottosezioni e la sua annotazione multilivello, con la relativa valutazione.
Il Perugia Corpus: una risorsa di riferimento per l’italiano. Composizione, annotazione e valutazione
Spina S
2014-01-01
Abstract
The Perugia Corpus (PEC) is a corpus of contemporary written and spoken Italian of more than 26 million words. Its aim is to fill the gap of the lack of an Italian reference corpus. This paper describes its composition and organiza- tion in 10 sections and sub-sections, and its multilevel annotation and evaluation.File | Dimensione | Formato | |
---|---|---|---|
Il_Perugia_Corpus.pdf
non disponibili
Licenza:
Non specificato
Dimensione
1.47 MB
Formato
Adobe PDF
|
1.47 MB | Adobe PDF | Visualizza/Apri Richiedi una copia |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.