Projet ANR Autogramm •••
Autogramm (Induction de grammaires descriptives à partir de corpus annotés) est un projet financé par l’ANR (Agence Nationale de la Recherche), Projet-ANR-21-CE38-0017. Il a débuté début 2022 et va durer 4 ans.
Résumé
Le but de ce projet est d’automatiser, dans la mesure du possible, l’extraction de grammaires descriptives et de descriptions grammaticales à partir de corpus annotés, à des fins d’études linguistiques et typologiques. Nous visons des descriptions qui
- mettent en évidence les principales propriétés du corpus (et par extension la langue ou la variété que le corpus représente) ;
- sont facilement compréhensibles pour un linguiste ;
- peuvent être visualisées par des textes, des diagrammes ou des tableaux, y compris les bases de données grammaticales généralement orientées vers les études comparatives et typologiques ;
- et peuvent varier en taille.
Comme ces descriptions grammaticales sont induites à partir d’un corpus, elles contiennent des informations quantitatives associées à chaque observation faite sur ce corpus, ainsi que des exemples pertinents extraits de celui-ci.
Le projet promeut également le développement de treebanks pour des langues sous-dotées, afin d’extraire des grammaires descriptives quantitatives pour ces langues. Le projet utilise le schéma d’annotion SUD (Surface-syntactic Universal Dependencies), l’outil de requête Grew-match et l’outil d’annotation ArboratorGrew.
Événements
Contact
sylvain arobase kahane.fr