|
Lou
projèt TELOC
De
mai en mai de lengo an sa baso testualo (Cf. Frantext,
The
Corpus British National Corpus, El Corpus Textual Informatizat
de la Llenga Catalana, Mendeko Euskararen Corpus estatistikoa,
Base de Datos Sintásticos des español actual…)
pèr n’en cita que quàuquis eisèmple.
Es de ressourço indispensablo à touto entre-presso
leissicougrafico e à touto descripcioun scientifico
de la lengo dins si dimencioun leissicalo, mourfoulougico,
sintassico, sementico e discurcivo. |
Lou
proujèt TELOC (Textes En Langue Occitane) a
pèr ambicioun de baia à la lengo nostro uno
memo ressourço, valènt-à-dire qu’a
pèr amiro la coustitucioun d’uno baso de dounado
testualo recampant d’obro escricho, de touto meno
(literaturo, tiatre, conte, tèste teini, journalisti…).
Lou travai es mena pèr l’ERSS que mesclo li
coumpetènci en linguistico óucitano, en
linguistico de corpus e en tratamen autoumati di lengo.
La baso testualo de TELOC sara counsacrado à la
lengo d’Oc mouderno e countempourano escricho. Lou
corpus à recampa es inmènse. Es estima à mai
d’un milié d’obro prouducho en lengo
d’Oc despièi lou siècle XVI°. Pèr
lis obro d’avans, l’ensèn dóu
corpus es en trin d’èstre recampado dins la
baso dóu projèt Concordance de l’Occitan
Médiéval sous la beilié dóu
Pr. Ricketts.
La proumiero estapo dóu projèt es la coustrucioun
d’uno baso esperimentalo moudèsto aguènt
un miloun de mot. Basto de recampa d’obro countempourano,
adounc adeja souto lou fourmat numerique, e de li couda
en .XML segound la formo internaciounalo (Text Encoding
Iniciative P5). Aquesto partido esperimentalo es menado
en partenariat emé l’ATILF à Nancy
sus lou moudèle d’uno baso testualo de tipe
Frantext. La baso sara acessiblo au publi dins lou CNRTL
(Centre National de Ressources Textuelles et Lexicales).
Lou proujèt TELOC beneficira d’uno mutualisacioun
di teinico e dis óutis d’interrougacioun de
la baso testualo. Dins aquesto versioun, esperimentalo,
la baso poudra èstre esplechado pèr de requisto
simplo: sourtido de mot, uno partido de mot, recerco de
d’oucurrènci, carcul de frequènci
de mot…
Diferèntis estapo permetran uno aumentacioun prougressivo
e significativo de la baso: i’a proun de matèri
pèr passa à court e long terme à mai
d’uno centenau de milié de mot. L’aumentacioun
dóu voulume di dounado s’acoumpagnara d’uno
estruturo de la baso: classamen pèr gènre,
e pèr doumaine, pèr tipe de suport, pèr
epoco o pèr dato, pèr dialèite e varianto,
pèr tipe de grafìo… Se vihara que la
baso respetèsse à terme, li règlo
de coustitucioun d’un vertadié corpus: representivita
equilibrado di gènre, di doumaine, di dialèite,
de la presènci de tèste ourau. Uno baso de
tèste ourau, que sara interfacia emé lou
TELOC, es en cours de bastisoun dins lou cadre dóu
THESOC (THEsorus Occitan) mena pèr l’UMR 6039 à Niço
e l’ERSS.
Pamens, dins li estapo que seguiran la faso esperimetalo,
saren estaca à fissa d’ùni paramètre,
pèr eisèmple coumença pèr recampa
e couda de tèste en lengadoucian de l’epoco
countempourano. Sus la baso alargado, poudren passa à uno
faso de tratamen linguisti que permetra d’endrudi
la baso emé d’enfourmacioun pèr n’en
faire uno baso categourisado. Lou travai d’etiquetage
de la moufoulougìo sintassico dóu corpus
permetra d’esplecha la baso emé de requisto
mai coumpleisso: pèr eisèmple cerca tóuti
li formo d’un verbe, d’un noum, d’un
ajeitiéu, recerco de deriva de mot, seleiciouna
de tros de fraso counjugado unicamen emé d’ùni
tèms verbau. Lou moutour de recerco déura
integra lou naut degrad de variacioun especifico à nosto
lengo: la grafìo.
En deforo di labouratòri adeja cita, TELOC a pèr
partenaàri l’IEO-IDECO e lou Cènte
de ressourço óucitano e meridiounalo. De
coulabouracioun soun souvetado emé li travaiaire
de proujèt proche coume la Biblioutèco virtualo
dóu CIEL d’OC e de l’Universita de Prouvènço,
lou diciounàri enfourmatisa dóu GILIDOC e
mai largamen emé tóuti li cercaire moutiva
pèr aquest proujèt.
En dela de sis utilisacioun pèr la linguistico de
la lengo nostro, pèr d’estùdi literàri,
etnoulougico, istourico, pèr la sauvo-gardo dóu
patrimòni escrich e de la meso à dispousicioun
au publi dis escrich en lengo nostro.
|