mardi 20 novembre 2012

La proximité des voyelles, épisode 1

Bonjour amis passionnés de linguistique ! (Si si, on y croit) Aujourd'hui un petit sondage préliminaire, dans le but de mener une pseudo-étude phonologique dans un futur proche. (J'espère)

Qu'est-ce que je raconte en bref ? A la suite d'un passionnante conversation avec mon cher et tendre (et non lingologue) je me suis prise de curiosité pour une drôle de question :

Comment les locuteurs du Français classifient-ils les voyelles de leur langue ?

Pour être plus précise, est-ce que les locuteurs, sans aucune connaissance phonétique, ont tendance à considérer certaines voyelles comme plus proches que d'autres ? Et si oui, selon quelle classification ?

On peut raisonnablement penser qu'un "é" et un "è" paraitront plus proche à un Français qu'un "é" et un "i", pour ne citer que l'exemple le plus évident. Mais qu'en est-il d'un "i", d'un "ou" et d'un "u" ? Est-ce que l'influence de l'orthographe pousse les locuteurs à rapprocher "u" et "ou" ? De quoi rapprocheraient-ils "in" ? Tant de passionnants mystères à élucider !

Pour en venir au sujet de ce post, je recueille quelques idées et suggestions quand au protocole. Tout d'abord, tout ceci n'est pas sérieux. C'est juste pour satisfaire ma curiosité. Mais tant qu'à faire, autant établir un protocole clair et rigoureux, ce sera mieux.

Mes objectifs :
-Faire une petite page web de recueil de données, où le visiteur pourra laisser son avis sur la proximité entre telle ou telle voyelle. Les modalités exactes seront abordées plus bas
-En résultats, un jugement de proximité pour tous les couples de voyelles possibles. (Le couple "a-é" a été jugé "assez proche", le couple "é-è" a été jugé très proche, le couple "un"-"in" a été jugé "sérieux ya une différence ?" Quelque chose comme ça)
-Éventuellement, permettre au visiteur de renseigner son âge, son origine géographique, sa langue maternelle... Mais je doute recevoir les données de plus de 3-4 péquenots parisiens, cette précision n'est donc pas forcément utile.

Et comment on pose la question alors ?
Voilà pourquoi j'aimerais quelques avis. J'hésite entre deux méthodes :

-Le choix entre plusieurs couples possible.
Ici, on aurait une voyelle à gauche, deux voyelles à droite, et l'utilisateur doit choisir entre les deux voyelles de droite laquelle lui semble la plus proche de la voyelle de gauche. Naturellement, les trio sont choisis aléatoirement.
inconvénients : j'arrive même pas à expliquer la chose clairement. Peut-être un biais, puisqu'on ne sait pas à quel couple a été comparé le couple choisi par l'utilisateur. Si l'utilisateur est en face de deux voyelles qu'il considère identiques, il est obligé de choisir au hasard
avantages : pas de gradation possible. Ca peut être vu comme un inconvénient, mais je trouve ça plus "facile" pour l'utilisateur, et plus "objectif".

-variante de la proposition précédente : choix libre du couple
On donne une voyelle à l'utilisateur, assortie d'une liste de toutes les voyelles du français, et l'utilisateur sélectionne simplement la voyelle qui lui semble la plus proche de celle donnée.
inconvénients : là encore, problème si dans la liste certaines sont considérées comme identiques. On obtient uniquement "le" couple le plus plébiscité pour chaque voyelle, et si on demande à l'utilisateur de choisir également la 2nd voyelle la plus proche, on retombe dans le problème des voyelles considérées identiques. Et puis c'est encombrant pour les yeux, d'avoir la liste complète des voyelles sur la page.
avantages : on peut obtenir un résultat """"""fiable"""""" avec très peu de données.

-Le jugement d'un couple donné.
Là, on donnerait un couple déjà formé à l'utilisateur, et on lui demanderait de juger la proximité de ces deux voyelles, sur une échelle de 1 à 5, de "totalement différentes" à "très proches", voire "je vois aucune putain de différence"
inconvénients : la gradation est plus sujette à être biaisée, je pense. Le locuteur n'est pas toujours aussi "sévère" après avoir comparé 40 voyelles.
avantages : plus facile à comprendre pour l'utilisateur ? pas de comparaison avec une 3ème voyelle. Résultat plus fin ?


Si vous avez d'autres idées, des suggestions, je suis preneuse.

Il est déjà prévu de fournir à l'utilisateur des exemples de mots contenant la voyelle ciblée. On n'attend pas d'eux qu'ils sachent lire l'API pour des raisons évidentes.

Si vous avez compris quelque chose à ce que je raconte, merci de le signaler, ce sera déjà remarquable.


12 commentaires:

  1. J'ai tout compris mais je pense que j'aurai pas le droit de participer à ce sondage :(
    (il semblerait qu'il y ait un lien entre les deux).
    Sinon je ne suis d'aucune aide sur la méthodo à adopter ^^

    RépondreSupprimer
    Réponses
    1. Merci quand même pour la compréhension.

      Un lien entre les deux ? Tu parles du sondage sur les vêtements ? Non, celui là il n'a rien à voir, et je ne sais pas si je le mènerai un jour, car il est autrement plus compliqué à mettre en place. Ou du moins plus long.

      Tu dois quand même bien avoir un avis sur quelle méthode te semble être la meilleure é_è *agite un panneau NEED ADVICE*

      Supprimer
  2. La réponse simple est qu'il faut ne pas choisir. Faire de chacun de ces différents protocoles une étape du sondage.

    En faisant le sondage de telle sorte, on aura plus de données différentes, donc des résultats expérimentaux plus variés/surprenants.

    Le vrai problème, c'est de savoir la gueule qu'aura le backend. Une fois qu'on a les résultats bruts, on les stocke comment ?

    Typhon

    RépondreSupprimer
    Réponses
    1. "Faire de chacun de ces différents protocoles une étape du sondage. "
      Ouaip, sauf que je voyais le sondage comme une page qui se rechargerait indéfiniment, proposant des voyelles à juger à l'utilisateur jusqu'à ce qu'il en ait marre. Si on commence à parler d'étapes, on part dans l'idée de "t'en fais 10 comme ça, 10 comme ça, et après merci c'est fini". Pourquoi pas remarque. Mais ça suppose là encore que beaucoup de personnes différentes répondent é_è (Ce serait cool ma foi)

      Pour le backend, j'en parle avec mon homme. C'est un domaine auquel je n'ai jamais touché, et c'est aussi pour ça que j'ai envie de le faire ce sondage, pour découvrir le monde mystérieux et effrayant du traitement de données *cris d'enfants*

      Donc, pour te répondre, j'en sais encore rien de précis. Ca dépendra de la solution que je choisirai pour le sondage lui-même de toute façon. Là encore je suis ouverte aux suggestions, étant donné que le dvlp web n'est pas non plus la tasse de thé de ma moitié.

      Supprimer
    2. Je peux pondre un prototype dans mon langage incompréhensible. Ça devrait pas être très compliqué techniquement. Mais je n'ai pas de serveur sur lequel le faire tourner, et mine de rien ça coûte du pognon. Ah, Science, que ne ferait-on pas en ton nom ?

      Tu crois qu'on peut demander des subventions ?

      Pour ce qui est du sondage, je ne pense pas que ça pose un problème. On peut parfaitement faire en sorte que les gens répondent à *minimum* dix (ou 5, ou 50) de chaque et plus s'ils en ont envie.

      La vraie question c'est surtout "Quels sont nos choix méthodologique".
      Et à mon avis elle doit précéder toute tentative d'implémentation sérieuse.

      Typhon

      Supprimer
    3. "Quels sont nos choix méthodologiques" Je suis bien d'accord, c'est la première question à se poser, et c'est d'ailleurs ce qu'on fait en ce moment même =o Mais plus ça va et plus j'ai l'impression de cerner les mauvaises questions, buh.

      Supprimer
  3. J'ai essayé de lire au début, mais mon cerveau s'est mis en mode off et j'ai perdu le fil.
    Je vais néanmoins apporter ma contribution :
    POTATOE.
    Voilà, j'espère que ça aide à faire avancer le débat =o

    RépondreSupprimer
    Réponses
    1. Merci de ta glorieuse participation. Elle ne sera pas oubliée. o7

      Supprimer
  4. Oh je viens seulement de voir ça =) Je trouve que c'est une très bonne idée et je pourrais même te trouver pas mal de monde de France, Belgique voire Algérie et Maroc :D Parce que je suis un Yaourt international !
    Je voterais pour la première méthode, avec les trios de voyelles mais avec peut être une solution "je ne peux pas différencier les deux" pour le cas où il serait tenté de répondre au hasard.
    Le coup des notes c'est vraiment chiants au bout d'un moment. Je suis une grande habituée des sondages et sans rire au bout de dix trucs à noter t'en a juste plein le cul :D Donc c'est mieux de pas prendre ça (mais c'est pas nul si tu le choisi :3)
    Encore une fois super bonne idée !

    RépondreSupprimer
    Réponses
    1. Un yaourt international ! Trop bien ! Si tu penses pouvoir amener un nombre significatif de personnes hors métropole, ça peut être intéressant de demander cette précision.

      Pour les notes, c'est aussi ce qui me semblait. Chaque méthode a ses avantages et ses inconvénients >.<

      Merci de ton avis *câlin*

      Supprimer
  5. Je pense que la première proposition est la plus complète. Il y a une graduation en fait parce que à force de fusionner les résultats obtenus avec les réponses des différentes personnes on aura une graduation, en vérité.

    Par exemple si avec des questions aléatoires on avait ce schéma suivant : on compare 'ai' à 'u' et 'é'; puis on compare 'ai' à 'é' et 'è',
    Première question : 0 'u', 5 'é'
    Deuxième question : 1 'é', 4 'è'
    On voit que 'é' ressemble à 'ai' mais 'è' en est plus proche. Comme ça on aurait, j'invente des nombres au pif, on peut attribuer après une petite formule à 'è' un 5/5, 'é' 4/5 et 'u' 0/5.

    Le problème de la deuxième solution c'est que c'est beaucoup plus contraignant pour l'utilisateur et finalement il risque de passer à côté de quelques voyelles. Sans oublier ceux qui auront la flemme de fournir un travail qui durera au moins une dizaine de secondes par voyelle contre une seconde pour la première version.

    Et le défaut de la dernière c'est que la perception de chacun peut changer. Je veux dire, quelqu'un pourrait considérer qu'un 3/5 est déjà très proche alors que pour un autre ce sera 5/5. Du coup les résultats seront pas forcément vrais vu que ça dépendra du point de vue de chacun.


    Ensuite dans mon idée le choix des couples serait aléatoire, ce qui permettrait une plus grande diversité. Et évidemment, ça permettrait à une même personne de refaire plusieurs fois le sondage pour rendre les résultats plus fiables.

    Par contre il faudrait mettre la possibilité côté administrateur de supprimer certains résultats que des utilisateurs "malveillants" pourraient envoyer. Enfin, pas fusionner tout de suite les résultats quoi. En plus ça permettrait de faire des statistiques sur les utilisateurs. Genre "tiens, les ménagères de 40 ans trouvent que 'ou' est proche de 'u' alors que les enfants de 12 ans trouvent que 'au' en est plus proche". Ce genre de truc.

    RépondreSupprimer
    Réponses
    1. Tu résumes bien les avantages et inconvénients de l'une ou l'autre méthode. J'ai reçu la confirmation d'une amie habituée des sondages que les notes à donner, c'est très chiant.

      Les couples seront bien entendu aléatoires.

      Côté antispam malheureusement ce n'est vraiment pas de mon ressort, je confierai ce travail là au bon Ryugi les yeux fermés. Mais dans ce genre de travail statistique on coupe de toute façon les valeurs trop éloignées de la moyenne. Je pense aussi supprimer les utilisateurs qui ont trop répondu par rapport aux autres (de façon vraiment extrême on s'entend) pour ne pas déséquilibrer la moyenne.

      Par contre on ne pourra pas avoir de résultats en fonction des différentes catégories de personnes. Il serait très facile de demander ce genre d'info en début de test, mais je ne pense pas qu'assez de personnes répondront pour que ça en vaille la peine ^^" Et puis la grosse majorité des sondés seront probablement des étudiants autour de 20 ans vivant dans des grandes villes françaises, faut pas se leurrer.

      Supprimer