Une nouvelle ressource basée sur du français parlé est disponible à l’adresse suivante : http://cnrtl.fr/corpus/perceo/
Elle est composée :
de transcriptions annotés automatiquement et corrigées manuellement au format Treetagger => une unité par ligne décomposée comme suit : mot puis POS puis lemme, le tout séparé par des tabulations. Cette ressource fait un peu plus de 100.000 mots et elle s’appuie sur le corpus TCOF, également disponible à l’adresse : http://cnrtl.fr/corpus/tcof/
d’un lexique composé pour une part de Morphalou 2.0 (ressource exogène) et pour une autre du corpus annoté lui-même (ressource endogène).
d’un fichier paramètre à utiliser avec Treetagger. L’intégralité de ces fichiers (encodés en utf-8) sont utilisables librement pour des applications non commerciales. A noter que la ressource ne pouvant pas être exempte d’erreurs, les futurs utilisateurs pourront envoyer leurs relevés afin de l’améliorer.
Le laboratoire CRISCO est ravi d’annoncer la mise en ligne de nouvelles ressources pour l’histoire du français. Partant de la période la plus ancienne, les textes légaux proposés sont susceptibles de répondre à de nouvelles questions sur la forme d’un français plus proche de l’échange quotidien. Librement téléchargeable à des fins de recherche scientifique à l’adresse : http://www.crisco.unicaen.fr/Francais-legal-ancien-de-Normandie.html
Ce corpus d’une variété centrale de la langue d’oïl entend contribuer au mouvement de prise en compte des données non-littéraires en linguistique, en synergie avec les collègues des sciences humaines concernées.
Nous avons le plaisir d’annoncer que les numéros 1 à 103 (1851 contributions, 1997-2004) de la revue "L’information grammaticale" sont, depuis le jeudi 14 juin 2012, en ligne sur le site Persée : http://www.persee.fr/web/revues/home/prescript/revue/igram