Projet ANR Autogramm •••

drawing

Autogramm (Induction de grammaires descriptives à partir de corpus annotés) est un projet financé par l’ANR (Agence Nationale de la Recherche), Projet-ANR-21-CE38-0017. Il a débuté début 2022 et va durer 4 ans.

Résumé

Le but de ce projet est d’automatiser, dans la mesure du possible, l’extraction de grammaires descriptives et de descriptions grammaticales à partir de corpus annotés, à des fins d’études linguistiques et typologiques. Nous visons des descriptions qui

  1. mettent en évidence les principales propriétés du corpus (et par extension la langue ou la variété que le corpus représente) ;
  2. sont facilement compréhensibles pour un linguiste ;
  3. peuvent être visualisées par des textes, des diagrammes ou des tableaux, y compris les bases de données grammaticales généralement orientées vers les études comparatives et typologiques ;
  4. et peuvent varier en taille.

Comme ces descriptions grammaticales sont induites à partir d’un corpus, elles contiennent des informations quantitatives associées à chaque observation faite sur ce corpus, ainsi que des exemples pertinents extraits de celui-ci.

Le projet promeut également le développement de treebanks pour des langues sous-dotées, afin d’extraire des grammaires descriptives quantitatives pour ces langues. Le projet utilise le schéma d’annotion SUD (Surface-syntactic Universal Dependencies), l’outil de requête Grew-match et l’outil d’annotation ArboratorGrew.

Événements

Contact

sylvain arobase kahane.fr