Mesure du sens et sens de la mesure

Mardi 18 octobre 2016

Demi-journée d'études organisée par la plateforme DATA

Des chercheurs issus de différentes disciplines exposent leurs travaux en matière de production et d'analyse statistique de données textuelles et livrent leur réflexion sur les apports et les limites de leurs diverses approches.

À destination des profanes comme des initiés, cette manifestation sera animée par Jérôme Foncel (économie, LEM, université de Lille - sciences humaines et sociales) et Laurence Broze (mathématiques appliquées, RIME Lab, université de Lille - sciences humaines et sociales). Elle  se veut inspirante pour le plus grand nombre.

Les résumés et diaporamas des interventions présentées ci-dessous sont disponibles sur le site de la MESHS.

 

  • Mathieu Brugidou (sociologie, PACTE, université de Grenoble Alpes) : L'analyse des données textuelles de questions ouvertes : une forme de pluralisme méthodologique
    Différentes familles de méthodes se rattachent à l'analyse des données textuelles (ADT). Elles peuvent être caractérisées à la fois par la définition et la place qu'elles donnent au langage dans le projet scientifique des sciences sociales [Leimdorfer, 2010],  par le type de faits et de données socio-linguistiques qu'elles construisent et par les formes de raisonnement qu'elles autorisent. Ces différents types de « preuves » peuvent en effet relever d'une statistique descriptive ou inférentielle, d'une linguistique de la signification - privilégiant la représentation - ou d'une linguistique du sens - la langue étant conçue d'abord comme un moyen de communication -  ou encore des différents programmes épistémologiques mis en œuvre par les sciences sociales. Ces approches s'incarnent de manière privilégiée dans des programmes informatiques qui s'avèrent ainsi indissociablement des programmes épistémologiques.
    La communication se propose d'exposer des stratégies d'analyse s'appuyant sur certaines des propositions épistémologiques embarquées dans les algorithmes. L'analyse de questions ouvertes de sondage par les logiciels Alceste [Reinert,1993] et Tropes [Guiglione et al., 1998] sera ainsi l'occasion d'expliciter un cheminement relevant du pluralisme méthodologique aux différents paliers de l'analyse (constitution des data, calcul et mises en relation des faits, formes de raisonnement).
  •  
  • Thomas Soubiran (statistiques, CERAPS, université de Lille - droit et santé) : Constitution d'une base de données issue de greffes de tribunaux de grande instance
    Cette communication a pour objet la présentation des différentes étapes d'une opération de collecte de données effectuée dans cinq greffes de tribunaux de grande instance du Nord Pas-de-Calais. Cette collecte réalisée dans le cadre d'un contrat de recherche avec la mission de recherche Droit et Justice du ministère de la Justice visait à constituer une base de données permettant l'analyse des facteurs de l'orientation des prévenus en comparution immédiate ainsi que les déterminants des peines prononcées sur une période de dix ans (2000-2009).
    Pour ce faire, plus de 8 000 minutes de jugements ont été numérisées puis passées à l'OCR pour en extraire les informations pertinentes pour l'analyse. Les minutes ont été au préalable sélectionnées suivant un plan de sondage reposant sur une méthode de coordination négative des échantillons. Cette méthode a été retenue pour pallier au défaut de données auxiliaires. En effet, le tirage aléatoire des minutes devait produire une représentation satisfaisante de l'évolution de la distribution du recours aux différentes procédures pénales pendant la période observée et ce, en l'absence de données connues a priori sur chaque document. De plus, cette approche, en ce qu'elle est équivalente à un tirage stratifié par la méthode de Sunter, permet le traitement des données avec les logiciels courants d'analyse de données de sondages complexes.
    Une fois la numérisation des minutes achevée, les informations ont été extraites au moyen de scripts implémentant un analyseur syntaxique ad hoc reposant sur des expressions régulières selon une stratégie de divide-and-conquer. Les minutes ont ainsi été découpées en sous-blocs successifs jusqu'à l'information recherchée tout en prenant en compte les variations dans le formatage, qu'il s'agisse de l'organisation des minutes ou le formatage des unités temporelles et monétaires pour le prononcé des peines. Au final, la base renseigne notamment le type de procédure, le nombre de prévenus par jugement, différentes caractéristiques démographiques et sociales des prévenus, leur(s) chef(s) d'inculpation ainsi que la décision du tribunal les concernant. Et pour ce qui est de l'échantillon, la distribution du recours aux différentes procédures pénales par tribunal correspond globalement aux chiffres diffusés par le ministère de la Justice.
    La présentation détaillera donc les différentes étapes de la collecte en les illustrant par des exemples concrets des problèmes rencontrés et des solutions qui ont pu y être apportés. Elle se conclura par la présentation de résultats issus de la base de données ainsi constituée.
     
  • Jean-Marc Leblanc (sciences du langage, CEDITEC, université Paris-Est Créteil) : L'expérimentation en lexicométrie: les vœux présidentiels sous la cinquième République (1959-2015)
    En prenant pour terrain d'expérimentation un corpus de discours politiques fortement ritualisés, nous illustrerons différentes méthodes quantitatives fréquemment mobilisées en analyse de discours et plus largement en SHS et proposerons  une réflexion sur l'apport d'une démarche expérimentale dans la mise au jour des phénomènes liés à la variation, plus particulièrement des formules politiques rituelles.
    Nous présenterons succinctement l'approche que nous privilégions dans ce cadre (comparaison et mise en œuvre de plusieurs outils logiciels) et montrerons en quoi ces différents outils permettent de porter des éclairages complémentaires sur ce corpus.
    Enfin, nous ferons état des développements d'un outil d'exploration des données textuelles multidimensionnelles et multimodales, TextObserver qui a été conçu pour mettre au jour les phénomènes liés à la variation et pour proposer de nouveaux modèles de visualisation.
     
  • Thomas Delclite (méthodologie, direction générale statistique - Statistics Belgium) : Observer de près ou de loin? Le choix de la focale dans l'analyse lexicométrique d'un corpus de documents
    Lorsque l'on souhaite faire une analyse lexicométrique d'un corpus de documents, le choix de la focale semble déterminant : analyser l'intégralité d'un document informe vraisemblablement davantage que se restreindre au résumé de celui-ci. De même, un résumé devrait informer davantage qu'un titre. Dans l'idéal, nous devrions disposer de l'ensemble des documents de notre corpus dans leur intégralité. Mais, lorsque le corpus est imposant, les contraintes techniques sont nombreuses et l'analyse doit parfois se limiter à une focale plus large : uniquement le résumé, ou parfois même uniquement le titre du document.
    Quelles peuvent être les conséquences de ce choix de focale sur les résultats obtenus ?
    Je partirai ici d'un précédent article (Berthonnet et Delclite, 2014), dans lequel nous avions étudié l'évolution de l'appellation du critère de Pareto. En théorie économique, le critère de Pareto a été nommé "optimalité au sens de Pareto" ou "efficacité au sens de Pareto" au cours du temps. Certains auteurs (Lockwood, 2008) affirment qu'un seul terme est valide, quand d'autres (Newman, 2008) expliquent que les deux termes sont synonymes et peuvent être utilisés indifféremment l'un de l'autre. Dans notre précédent article, nous avions quantifié l'usage de ces deux appellations et analysé l'évolution des usages pour en comprendre les raisons.
    Ce travail avait été réalisé avec l'intégralité des textes d'environ 10000 articles scientifiques. Dans cette présentation, je reprends l'idée initiale tout en proposant 3 focales : le texte intégral, le résumé et le titre de l'article scientifique. Je montrerai quels auraient été les résultats si nous avions choisi une focale plutôt qu'une autre, et je mettrai ces résultats en perspective avec le travail technique nécessaire pour choisir telle ou telle focale.

    - Berthonnet, I. et T. Delclite (2014), Pareto-optimality or Pareto-efficiency: same concept, different names? An analysis over a century of economic literature, Research on the history of economic thought and methodology, vol. 32, p. 129-145.
    - Lockwood, B. (2008), Pareto efficiency. In S. N. Durlauf & E. B. Lawrence (Eds.), The new Palgrave dictionary of economics online.
    - Newman, P. (2008), Optimality and efficiency. In S. N. Durlauf & E. B. Lawrence (Eds.), The new Palgrave dictionary of economics online.