Textes

PaLaFraLat

Le sous-corpus latin (sommaire) est composé de 187 textes de la période mérovingienne (398.149 tokens) qui datent du 6ème jusqu’au milieu du 8ème siècle. Il comprend des vies de saints, chroniques, chartes, recueils de lois, lettres et formulaires. Le sous-corpus PaLaFraLat est librement accessible sous licence CC BY-NC-SA 4.0.

Documentation:

  • Les metadonnées: Pour plus d'informations sur la structure du corpus et des metadonnées, veuillez consulter les Metadata Guidelines (angl.). Toutes les metadonnées sont accessibles en détail via le portail de la BFM (pour l'accès voir ci-dessous) et permettent de créer des sous-corpus.
  • Le jeu d'étiquettes lapos: Le corpus est entièrement étiqueté en morphosyntaxe avec le jeu PaLaFra et le jeu lapos spécialisé pour le latin tardif. Pour plus d'informations veuillez consulter la documentation du jeu d'étiquettes lapos (angl.).
  • Le jeu d'étiquettes UD-pos: Veuillez consulter la documentation du jeu d'étiquettes commun (angl.).
  • Les principes d'annotation: cf. les Annotation Guidelines (angl.)

PaLaFraFro

La partie française du corpus PaLaFra contient 42 textes d’ancien français (1 054 000 mots, sommaire). Elle a été pensée dans la continuité avec la partie latine, et les principes de sélection et de description des textes sont communs. Le corpus français privilégie les textes très anciens (avant le 13ème s.), les textes non littéraires et les textes en prose. Le corpus a été constitué à partir des ressources de la Base de Français Médiéval et il est accessible sous licence CC BY-NC-SA 3.0 FR.

Documentation:

PaLaFraPar

Le corpus aligné PaLaFraPar permet d’étudier de manière très fine les transpositions du latin au français. Il comporte un petit nombre de traductions françaises de sources latines. Les versions bilingues sont très proches et sont alignées au niveau des paragraphes. Elles vont être étiquetées en morphosyntaxe et lemmatisées chacune dans sa langue. Les textes français font partie du corpus BFM2016 et sont accessibles sous licence CC BY-NC-SA 3.0 FR.

Accès aux textes (via TXM)

txm Le logiciel open-source TXM donne accès au deux sub-corpus PaLaFraFro-V2-1 et PaLaFraLat-V-2 et propose la possibilité d'une analyse qualitative ainsi qu'une exploitation quantitative. La plateforme est basée sur Unicode ainsi que XML et offre une vaste choix d'outils d'analyse (p. ex. le langage de requête CQL et le logiciel statistique R.

>>> Le corpus peut être consulté via le portail TXM de la Base de Français Médiéval.