Base Textes (BIOULE)

Base Textes (MARMANDE)

Base Textes (SAINT GAUDENS 1203)

Base Textes (SAINT GAUDENS 1542 1665 1527)

Base Textes (RISCLE)

Base Textes (OSSAU)

Base Textes (AGEN)

Base Textes (HERMENT)

Base Textes (ST-PONS)

Base Textes (ORTHEZ 1)

Base Textes (ORTHEZ 2)

Base Textes (REQUISTA)

Base Textes (MONTSAUNES)

Base Textes (Recettes médicales)

VISU_TEXTES (ROMANS, OCCITANS).

Le répertoire TEXTES comporte deux sections
- textes historiques et juridiques anciens (exemple: CART_OSSAU, CART_REQUISTA, CART ST-Haudens
- textes écrits modernes et contemporains: ex contes Bladé, Fabre, Loddo
- textes transcrits, préédités à partir d'arcive sonore transcrite [corpus-parole]
-classification exploratoire(Alceste) à partir d'une indexation couplée à concordancier
exemple: mesure de la clise pronominale en ancien gascon
insert_exemple CART_ST-Gaudens; LIVRET_VERT Bénac –X. Ravier et J.F. Le Nail
lien à LEXIQUE-GRAMMAIRE

BUT
Le but est de constituer une base de textes occitans électroniques en plein texte qui permette la description, l'analyse, et qui soit réutilisable dans le cadre de projets de traitement documentaires (lexiques et dictionnaires électroniques ; analyse morphologique ; analyse syntaxique ; analyse géolinguistique de la variation).
* textes de la communication écrite
* textes de la communication orale
OBJECTIF
L'objectif est de vaincre, par un ensemble de méthodes, un ensemble de réticences qui se sont exprimées avec plus ou moins de netteté :
- réticences devant les textes en graphies phonologisantes et la représentation de l'émiettement
- réticence devant la codification excessive (la tentation unitariste)
- réticence devant l'appareil de la lexicographie électronique sur corpora occitans, fondée sur l'inexistence dans le plan de recherche d'un projet scientifique unifié au plan national
- réticences devant le traitement phonique de la parole occitane, qui peut nécessiter des investissements importants utilisant les outils d'analyse du signal
- réticences par rapport au caractère inadéquat, inapproprié des outils et méthodes, nécessitant l'exécution de phases prélexicales, prémorphologiques et présyntaxiques
CONTENU ET MATERIEL : DRAWCARTE.base_textes.occitan
La base de textes porte en principe de manière centrale sur des textes oraux de l'occitan contemporain, dans ses variétés spatiales, des Alpes aux Pyrénées; la base peut abriter des éléments de textes anciens, antérieurs à 1550, dans la mesure où leur utilisation est nécessitée par le projet de description et la démonstration; tous les textes peuvent comporter une version sonore; le son analogique est digitalisé dans le module Textes sonores romans , en rapport avec la création d'une documentation réutilisable, accessible sous forme de CD_ROM (ou disque optique)
La taille prévisible de la base documentaire est de 3000 CD_ROM de textes sonores en 5 ans, par collections (contact : J. Azéma, J.- L. Fossat, J. Allières pour le CLID; et X. Ravier pour UMR 5610 FRAMESPA)
METHODES UTILISES par la méthode DRAWCARTE
Lexico (A. Salem)
Termino (Québec)
Sato (Québec)
Tact (USA, Québec)
Naturel (Québec)
Hyperbase (E. Brunet)
Alceste (Max Reinert)
Stablex (André Camplong) : indexeur
word_crunch (microsoft)
Méthode spécifique développée par le CLID
drawcarte.base_textes (1993 © CLID J. L. Fossat et Société Image Toulouse
* dictionnaire de formes graphiques normées et non normées
* dictionnaires de formes sonores transcrites : syllabation; prosodie; rythme; intonation
* concordances drawcarte_base.textes sonorisables; alceste; hyperbase; tact; Naturel
* contextes marqués sonorisables
* dictionnaires de lemmes
* dictionnaires de suffixes, préfixes, lexiques composés
* dictionnaires d'expressions et phrases figées
* prédictionnaires catégoriels alceste
* prédictionnaires catégoriels drawcarte-base_textes
* Préanalyseur phonologique et phonétique
* Préanalyseur morphologique (préfixation; suffixation; composition; conjugaison)
* Préanalyseur syntaxique (connecteurs; temps, modes et aspects; prosodie, rythme et intonation de la phrase occitane)
* Préanalyseurs sémantiques : sémantique des composés, des juxtaposés; sens attestés; sens potentiels; domaines; causatifs; traitement de l'information relationnelle)
* Vérification de propriétés pragmatiques par analyse numérique (alceste etc...)
* tutoriel, système auteur, base de connaissances accédant à une base de données générale; appropriation des connaissances
* Forum international de la base de textes occitans (projet INTERNET) : base de textes couplée à un dictionnaire de taille réelle par domaines, catégories, contextes;
* Exploitation d'une base de textes par un didactiel et appropriation des connaissances.
DESCRIPTIF DE LA METHODE
DRAWCARTE.BASE_TXT.OC
La base relationnelle, réalisée en environnement relationnel 4D, permet à tout usager, non débutant, de niveau élémentaire, moyen ou avancé
* d'accéder à une base de données évolutive, constituée de collections de textes romans (occitan) écrits et oraux, quelles que soient les conventions graphiques des auteurs
* de constituer, par acquisition de l'outil, à tarif réduit préférentiel, sa propre base de données de textes occitans, à des fins d'exploitation (description, analyse; utilisation didactique); par exemple traitement des textes occitans de la collection PLUMALHON Centre de ressources du CRDP de Toulouse.
* de traiter les données de cette base de renseignements à partir d'une indexation automatique des formes (formes visuelles; formes sonores)
* de traiter la variation dans les textes dans une perspective dialectologique et géolinguistique, grâce au couplage de la méthode à des outils d'analyse numérique (EDA, alceste, carte données d'Arctique; Carte ZZZ de CLID © J. - L. Fossat, Zouheir Sandouk, développement Soc. Image
* d'apporter une aide à la prononciation (en approche améliorative plus que corrective)
* d'apporter une aide à l'amélioration de l'expression écrite
* d'exporter tout texte, toute concordance, tout contexte, toute séquence extraite en direction d'outils d'analyse numérique ou didactique
* d'importer, à partir de toute base de textes existante, en environnement UNIX, tout texte, toute image, toute séquence de parole (SON/CHANT), toute collection de textes juridiquement accédés; rendus accessibles à la manipulation, à des fins de traitement.
* de procéder (version de février 1997) aux opérations de segmentation par lemmatisation, description grammaticale, description linguistique, analyse linguistique (prémorphologie; présyntaxe; prélexique général et spécialisé; préphonétique et préphonologie); catégories fonctionnelles; catégories discursives.
Nous offrons, pour le domaine pan-occitan, par sous-domaines géographiques (gascon; languedocien; occitan alpin etc...)
* un service de formation aux méthodes d'enquête
* un service d'indexation
* un service d'extraction de contextes et concordances
* un service d'aide à la lemmatisation
* un service d'analyse numérique : la carte
* un service de dialogue avec les usagers : FORUM de drawcarte.base_TXT.OC, mis en place par des ingénieurs linguistes du GRIL (UTM) qui fonctionne sur site Internet à compter de janvier 1997.