Stadt: Dijon, Frankreich

Frist: 2020-06-07

Gehalt: 1818

Stellenumfang: 100%

URL: https://www.adum.fr/sujetT?id=31663

Titre du projet de thèse :
Implémentation de la frame semantics pour le Français facile à lire et à comprendre (FALC) à destination des personnes présentant des déficits cognitifs : construction d’un corpus d’apprentissage et modélisation des règles

1. Contexte scientifique

Le “français facile à lire et à comprendre” (FALC) est une forme de français à destination de locuteurs présentant des troubles cognitifs et/ou n’ayant pas développé une compétence suffisante en matière de lecture/compréhension pour faire sereinement face à toutes les sollicitations écrites du quotidien en français standard. Il repose sur un ensemble de règles permettant, soit la rédaction directe, soit la traduction intralinguale de documents initialement rédigés en français standard. Si ces règles permettent effectivement une simplification de la rédaction, elles restent essentiellement ancrées au niveau de la surface de la phrase, sans forcément prendre en compte les opérations de compréhension qui reposent sur des mises en relations pragmatiques et sémantiques qu’apportent les frames.
Le projet de thèse s’attaque à ce problème à partir du modèle de la “sémantique des cadres” (frame semantics) qui trouve son point de départ dans la mise au jour des scénarios sous-jacents aux signes linguistiques dont les constituants, quand ils sont évidents et cognitivement reconstructibles, ne sont le plus souvent pas explicités : ainsi toute phrase comprenant le verbe “acheter” ne comprendra pas forcément d’indication de prix même si cette données est indispensable à la compréhension de l’action d’ “acheter”. C’est là une dimension fondamentale pour la bonne accessibilité cognitive des contenus telle que la vise le FALC. On propose donc ici un ré-examen et une reformulation des règles de FALC à un niveau intrinsèquement sémantique à travers l’implémentation de ce modèle dans un outil développé dans un projet antérieur de l’EPNAK. Il s’agira ainsi 1) de constituer un corpus de textes représentatifs de ceux utilisés au quotidien, dans les structures d’accueil ou en dehors, par le public cible, 2) de l’annoter en matière de frames et 3) d’implémenter, par une approche qualitative, cette dimension sémantique dans les règles d’écriture / de traduction en FALC utilisés par les praticiens.

2. Argumentaire technique et scientifique : Problématique, enjeux, méthodologie.

Sous sa forme courante actuelle, le FALC opère essentiellement sur des structures morphosyntaxiques dites « de surface », c’est-à-dire telles qu’elles se présentent dans la linéarité de la langue et à partir de règles essentiellement décontextualisées (longueur des mots et des phrases, difficulté supposée de la diathèse passive, etc.). Or l’accessibilité aux contenus sémantiques des messages repose, par-delà le décodage de ces structures morphosyntaxiques de surface, sur la (re)connaissance des structures conceptuelles sous-jacentes, entre autres sous la forme de « scénarios » (frames) inscrits en mémoire et activés par les unités linguistiques.
Ces scénarios sont des mises en lien conceptuelles entre des positions génériques (slots) – par exemple <classe sémantique des fruits> pour le verbe découper dans un texte instructionnel présentant une recette de gâteau –, d’éléments de remplissage (fillers) – par exemple dans l’exemple précédent et de relations – par exemple ici une relation chronologique entre éplucher et découper la pomme. En fonctionnement standard, seuls les slots pertinents pour le message sont réalisés par un filler et seules les relations non reconstructibles sont marquées explicitement par une unité de langue (connecteur), tout le reste étant considéré comme « valeurs/relations par défaut » et supposé rester implicite dans l’encodage, mais nécessaire au décodage pour la bonne compréhension du contenu. Les valeurs/relations par défaut sont accessibles au locuteur sur la base de ses acquis mémoriels et expérientiels et sa « fréquentation » de la langue en usage. Des difficultés d’accès cognitif peuvent donc limiter les valeurs/relations par défaut disponibles, renforçant l’impression de jargon qui est le point de départ du mouvement “plain languages”.

Verrous scientifiques et technologiques à lever
Le modèle des frames a, jusqu’à maintenant, essentiellement été mis en œuvre à des fins soit lexicographiques, (projet FrameNet à Berkeley : https://framenet.icsi.berkeley.edu/fndrupal/), soit d’analyse du discours et essentiellement sur l’anglais. Par ailleurs, il n’a jamais été développé à grande échelle sur le français, si bien qu’il n’existe pas de jeu de données comparables au corpus amont décrit en O1 pouvant servir de base de travail.
Les verrous à lever sont donc au nombre de trois :
- V1 : Constituer un corpus de référence de textes instructionnels en français non simplifié potentiellement utilisés avec les publics visés et modéliser le moule textuel sous-jacent ;
- V2 : Annoter intégralement les scénarios à partir d’une extraction des verbes et des noms prédicatifs avec identification, en lien avec les professionnels de l’EPNAK, des valeurs et relations par défaut ;
- V3 : Réinvestir les règles traditionnelles de FALC en intégrant le niveau conceptuel, a minima pour ces textes instructionnels.

Méthodologie :
• En amont (phase d’analyse des textes-sources complexe) : Compilation d’un corpus de référence de textes instructionnels / Identification du moule textuel sous-jacent / Identification des frames constitutifs / Annotation systématique des frames avec identification (en lien avec l’expert/le praticien) des valeurs/relations par défaut / Annotation des réalisations morphosyntaxiques prototypiques des fillers du frame et étalonnage de leur degré de complexité en termes d’accessibilité cognitive.
• En aval (phase de reformulation en FALC) : Réintroduction des valeurs par défaut quand elles sont nécessaires / Encodage des valeurs par défaut dans une phrase simple / Ré-encodage des constituants du frame décompacté /
Rédaction d’un échantillon test, validation

3. Objectifs et résultats escomptés

Les trois objectifs de la thèse sont donc, à partir d’un corpus inédit de textes instructionnels authentiques et utilisés avec les publics visés fourni par l’EPNAK dans ses établissements de l’Yonne, mais aussi au-delà, de :
- O1 : mettre en œuvre une procédure de reconnaissance et annotation des scénarios sous-jacents avec enrichissement de toutes les valeurs par défaut débouchant sur un corpus amont inédit ;
- O2 : proposer des règles de simplification / réécriture des textes implémentant les résultats de l’enrichissement sémantique de O1 ;
- O3 : reconstituer un corpus aval en FALC devant servir l’apprentissage supervisé pour une montée en puissance du modèle.

Livrables :
- Corpus de référence inédit tagué et lemmatisé sous txm
- Base de données xls des frames constitutifs du corpus
- Répertoire des règles de simplification conceptuelle
- Échantillon de textes de départ reformulés
- Guide de bonnes pratiques à destination des professionnels du secteur

Communication :
- une communication à un congrès international de linguistique cognitive (type International Association for Cognitive Linguistics)

Publications :
- un article sur le modèle d’implémentation de la “frame semantics” pour le FALC soumis à Constructions & Frames (John Benjamins Publishing)
- un article sur le corpus et son utilisation à des fins de simplification textuelle soumlis à Behavior Research Methods (Springer),
- un article destiné au professionnels soumis à la revue Enfance.

4. Laboratoire de rattachement et Insertion du projet dans les axes de recherche du labo

Centre Interlangues « Texte Image Langage », EA4182
Equipe Modèles & Discours

5. Partenariats éventuels, environnement scientifique

La thèse, qui se situe à l’intersection entre sciences du langage (linguistique de corpus, sémantique) et psychologie cognitive, sera préparée en synergie entre deux laboratoires (Dijon, Paris 8). Des partenariats autres sont envisagés en Europe (Allemagne : FAST Germesheim ; Université de Leipzig ; Espagne : Université de Valencia ; Finlande : Jyväskylä).

6. Bibliographie indicative
Bisang, Walter 2014: « Overt and hidden complexity – two types of complexity and their implications », Poznan Studies in Contemporary Linguistics, 50/2, 127-143. DOI: https://doi.org/10.1515/psicl-2014-0009
Bredel, Ursula/Maaß, Christiane 2016: Leichte Sprache. Theoretische Grundlagen, Orientierung für die Praxis, Berlin: Duden.
Gautier, Laurent/Kasmi, Afef (2020): « Easy-to-read approach based on frame semantics for the benefit of person with cognitive impairments », paper presented at the 3rd Swiss Conference on Barrier-free Communication (June 2020).
Gutermuth, Silke 2019: One for all? Eine zielgruppenorientierte Rezeptionsstudie zu Leichter und Einfacher Sprache. Manuscrit d’HDR, sous presse chez Frank & Timme.
Hansen-Schirra, Silvia/Gutermuth, Silke 2018: « Modellierung und Messung Einfacher und Leichter Sprache », in: Jekat, Susanne/Kappus, Martin/Schubert, Klaus (eds.): Barrieren abbauen, Sprache gestalten. Winterthur: ZHAW Züricher Hochschule für Angewandte Wissenschaften, 7-23.
Hansen-Schirra, Silvia/Gutermuth, Silke 2019: « Empirische Überprüfung von Verständlichkeit », in: Maaß, Christiane/Rink, Isabel (eds.): Handbuch Barrierefreie Kommunikation, Berlin: Frank & Timme, 163-182.
Hansen-Schirra, Silvia/Maaß, Christiane 2019: Translation proper: Kommunikationsbarrieren abbauen, Uni Hildesheim. https://doi.org/10.25528/015
Varga, Simon 2019: Frames und Argumentation Integrative Beschreibung semantischer und argumentativer Bedeutungsstrukturen am Beispiel des parlamentarischen Kernenergiediskurses in Deutschland und Frankreich. Docorat en cotutelle Dijon/Mayence, sous presse chez Peter Lang.

7. Calendrier prévisionnel

Année 1 : Travail bibliographique sur les trois domaines (FALC, frame semantics, compréhension humaine), constitution qualitative du corpus en lien avec les professionnels de l’EPNAK, annotation d’un échantillon-test, validation de la procédure, rédaction du guide d’annotation
Année 2 : Annotation du corpus complet, analyse qualitative des résultats, implémentation dans les règles de FALC, test sur un échantillon, validation, rédaction d’un premier article pour la revue “Construction and Frames” (Benjamins)
Année 3 : Rédaction de la thèse, présentation des résultats à une conférence internationale, rédaction d’articles fondamentaux (e.g., Behavior Research Methods, Springer) et appliqués (e.g., Enfance)

Renseignements administratifs sur la direction de thèse :

Directeur de thèse (HDR) :
Nom : Gautier
Prénom : Laurent
Âge : 47 ans
Grade : PR1
Section CNU : 7/12ème
Coordonnées (adresse, courriel, téléphone) : laurent.gautier@u-bourgogne.fr

Unité d’appartenance (intitulé, label, n°, directeur) : Centre Interlangues Texte Image Langage (EA4182)

Beitrag von: Laurent Gautier

Redaktion: Robert Hesselbach