Segmentation automatique des textes

 

        •  
      • 03. Texte “Mbaroodi e Fowru e Rawaandu”  (Lion, Hyène et Chien)
      • 04. Texte “Fowru e fayannde teewu e mbaroodi ɓesndi” (Hyène, une marmite de viande et une lionne qui a mis bas)

Présentation du projet peul

 

Le projet a pour but d’amener les apprenants à une compréhension élémentaire de textes peuls. Il s’agira essentiellement d’une lecture-compréhension de niveau morphosyntaxique auquel s’ajoutera une initiation au vocabulaire.

La progression sera parallèle à la mise en place d’une analyse automatique qui fournira une stratégie algorithmique permettant d”élaborer les référentiels nécessaires à l’ensemble du projet. Ces études seront basées sur des textes réels provenant de la tradition orale.

La toute première étape est donc la constitution du corpus d’étude. Elle s’appuiera sur le site ELLAF (Encyclopédie des Littératures en Langues AFricaines) (http://ellaf.huma-num.fr) géré par les membres de l’équipe. La section peule de ce site abrite pour le moment des textes issus de 3 zones dialectales qui seront utilisées dans le présent projet: Foûta Tôro [FT] (Sénégal, Mauritanie, ouest du Mali), Foûta Djallon [FJ] (Guinée et États limitrophes) et Adamâwa [Ad] (Cameroun, est du Nigeria,  RCA, Tchad). Ce corpus comprend 55 textes et une vingtaine en attente. Ces textes sont pour la plupart oraux ou oralisés, transcrits et traduits (traduction juxtalinéaire pour la plupart), souvent accompagnés de bandes son ou même de vidéos qui pourront être découpées en divers sujets d’étude. Les textes actuels seront complétés par d’autres, des textes littéraires (nouvelles, romans, poésie, proverbes,…) qui seront traduits, éventuellement lus et/ou enregistrés.

Le parallèle avec l’analyse automatique forcera un ordre d’appréhension des phénomènes qui ne sera pas classique. En fait, le premier pas consistera à savoir segmenter le texte d’après la ponctuation. Deux niveaux de ponctuation seront appréhendés: une ponctuation “forte” et une ponctuation “fine”, notamment la virgule qui fournira une segmentation plus abondante. Dans ce cadre, la première étude consistera tant pour l’apprenant que pour le système automatique de savoir faire apparaître la proposition ou la phrase simple.

C’est dans cette limite syntaxique que seront conduites les études de morphologie avant de revenir à des études syntaxiques abordées de manière progressive: groupes verbaux ou nominaux, phrases verbales ou nominales, phrases complexes: complétive, relative, circonstancielle de lieu, de temps, de manière, de comparaison.

L’analyse automatique sera conduite par les phénomènes linguistiques et leur facilité à être reconnus par la machine notamment d’après des critères de forme, ce qui est bienvenu également pour l’apprentissage humain. Pour s’aider dans son apprentissage, l’étudiant pourra se reporter au site ELLAF qui met à sa disposition le texte découpé avec une traduction juxtalinéaire. Les phénomènes linguistiques seront reconnus de manière positive, c’est-à-dire par des critères non ambigus et, de manière annexe, de manière négative, ne pouvant pas être afférents à une autre catégorie.

Une attention particulière sera portée au découpage morphématique et à la lemmatisation. A partir du découpage morphématique et de la reconnaissance des morphèmes verbaux, nominaux et dérivatifs, on pourra mettre en exergue les radicaux et les racines, nécessaires à l’appréhension du vocabulaire et de ses significations. Cela peut permettre la comparaison de différents parlers et d’entrevoir une organisation structurelle du vocabulaire. La lemmatisation intègre l’alternance consonantique à l’initiale des dérivés d’une même racine. C’est un procédé qui s’ajoute au découpage morphématique pour pouvoir manipuler correctement le vocabulaire. De plus, la lemmatisation est au centre même de l’organisation des dictionnaires. Le peul étant à la fois agglutinant et flexionnel (exemple du verbe), des exercices porteront sur les paradigmes flexionnels.

L’étude du vocabulaire sera conduite sur des textes permettant à l’apprenant, muni des connaissances relatives au découpage morphématique et à la lemmatisation, d’user des diverses occurrences de mots sous des formes variées pour appréhender une unité lexicale ou une famille de mots et en préciser les différentes acceptions grâce aux traductions et au contexte en langue source. On tentera dans ce cadre d’extraire les collocations. Les descriptions contrastives, qui seront menées sur les 3 parlers sont très importantes, car quasiment inexistantes ou insuffisamment fondées et approfondies.

L’ordre dans lequel les phénomènes linguistiques seront abordés et présentés aux apprenants pourra varier en fonction de l’avancement de nos recherches.

Présentation du peul

 

Le peul se caractérise par une très grande extension géographique, présent dans 18 États africains, en Afrique de l’Ouest, en Afrique centrale (Cameroun, Tchad, RCA) et au Soudan (zone de confluence du Nil Bleu et du Nil Blanc). On estime à 30 millions le nombre de locuteurs du peul, répartis en six aires dialectales.

Les 3 zones dialectales qui seront étudiées dans le présent projet sont le Foûta Tôro [FT] (Sénégal, Mauritanie, ouest du Mali), le Foûta Djallon [FJ] (Guinée et États limitrophes) et l’Adamâwa [Ad] (Cameroun, est du Nigeria,  RCA, Tchad).

En ce qui concerne la morphologie, le peul, langue ouest-atlantique, est une langue à classes (27 classes nominales marquées par des classificateurs suffixés possédant en moyenne 4 allomorphes). Langue agglutinante, le peul possède une douzaine de suffixes dérivatifs qui peuvent s’additionner (jusqu’à 3) et qui sont suivis de morphèmes verbaux et / ou nominaux.

Les termes lexicaux nominaux se répartissent en noms, adjectifs qualificatifs, idéophones et numéraux (cardinaux et ordinaux). L’adjectif peut être simple ou dérivé ; il se distingue des participes par l’absence de marqueur aspectuel. Adjectifs et participes sont accordés aux noms.

Le système verbal est aspectuel et possède des formes personnelles et impersonnelles. Il distingue trois voix (voix active, moyenne et passive) qui sont marquées par des suffixes.

La syntaxe du peul fait apparaître une structure SVO.

WordPress et site PEAPL - hébergé par Huma-Num © 2021