Texte

PaLaFraLat

Das lateinische Teilkorpus (Textübersicht) besteht aus 187 Quellen (398.149 Wörter inkl. Zeichensetzung) der Merowingerzeit (6. bis Mitte 8. Jhd.). Es umfasst Heiligenlegenden, Chroniken, Urkunden, Rechtstexte sowie Brief- und Formelsammlungen. Das Subkorpus PaLaFraLat ist unter der Lizenz CC BY-NC-SA 4.0 verfügbar.

Dokumentation:

  • Metadaten Guidelines: Informationen zum Aufbau und den im Korpus erfassten Metadaten erhalten Sie in den Metadata Guidelines (Engl.). Alle Metadaten lassen sich im Detail über das TXM-Portal (Zugang siehe unten) abrufen und für die Zusammenstellung von Subkorpora und Partitionen nutzen.
  • Lapos-Tagset: Das gesamte Korpus ist mit den Part-Of-Speech-Tags und morphosyntaktischen Annotationen des eigens für das Korpus konzipierten lapos-Tagsets ausgezeichnet. Außerdem wurde für sprachvergleichende Abfragen ein übergreifendes weiteres Tagset ud-pos hinzugefügt, basierend auf dem Annotationssystem von Universal Dependencies. Mehr Informationen zum lapos-Tagset erhalten Sie in dieser Dokumentation des Tagsets (Engl.).
  • UD-pos-Tagset: Mehr Informationen zum gemeinsamen PaLaFra-Korpus-Tagset und den Unterschieden zu lapos erhalten Sie in dieser Dokumentation des Tagsets (Engl.).
  • Annotation Guidelines: Mehr Informationen zu den Richtlinien des Annotationsprozesses, sind in den Annotation Guidelines (Engl.) abrufbar.

PaLaFraFro

Der französische Teil des PaLaFra-Korpus beinhaltet 42 altfranzösische Texte (1.054.000 Wörter, Übersicht). Das Korpus wurde als zeitliche Fortsetzung des lateinischen Teilkorpus angelegt, die Auswahlkriterien und Kategorien der Metadaten sind für beide dieselben. Bei der Zusammenstellung lag das besondere Augenmerk auf den ältesten Texten (datierend vor dem 13. Jhd.) sowie auf nicht-literarischen Texten und Prosa. Das Gesamtkorpus PaLaFra stellt einen Teil der Base de Français Médiéval (BFM) dar. Das Subkorpus PaLaFraFro ist unter der Lizenz CC BY-NC-SA 3.0 FR verfügbar.

Dokumentation:

PaLaFraPar

Das PaLaFraPar-Parallelkorpus erlaubt genaue vergleichende Analysen zwischen Latein und Altfranzösisch. Es umfasst drei lateinische Texte aus dem religiösen Bereich und ihre eng an den Vorlagen orientierten, abschnittsweise alignierten altfranzösischen Übersetzungen. Das Korpus wird zur Zeit mit morphosyntaktischen Annotationen versehen und lemmatisiert. Die französischen Texte sind auch Teil des BFM2016-Korpus und unter der Lizenz CC BY-NC-SA 3.0 FR verfügbar.

Zugang zu den Texten (via TXM)

txmDie Open-Source-Software TXM ermöglicht den Zugang zu den beiden Teilkorpora PaLaFraFro und PaLaFraLat sowie qualitative und quantitative Untersuchungen. Auf der Basis von Unicode und XML bietet sie neben einer graphischen Oberfläche für die Betriebssysteme Windows, Linux und Mac OS X eine große Auswahl an eingebauten Analysetools (Abfragesprache CQL und Statistik via R).

>>> Aktuell kann das Gesamtkorpus über das TXM-Portal der französischen Base de Français Médiéval abgerufen werden.