It’s only datascience, but I like it

La « science des données » nous permet elle d’apercevoir des patterns qui échappent à notre perception commune ? Dans le domaine des humanités numériques ou de l’anthropologie computationelle, on utilise de massifs corps de textes pour dégager des structures qui pourraient nous permettre une compréhension accrue de la culture … Ou pas. Un intéressant papier publié récemment dans Arxiv (et remarqué par l’excellent « Scoop it » sur la science de la complexité, Complexity Digest) applique ces méthodes à l’histoire de la musique populaire aux US entre 1960 et 2010, en gros donc depuis l’explosion du rock’n’roll.

02081Bien entendu, les chercheurs ne se sont pas servis de textes, mais d’un ensemble de données audio, ce qui est plus difficile. Ils ont donc recouru au Billboard Hot 100 américain et ont collecté 17094 chansons qui ont connu la gloire de ce hit-parade et en ont extrait des échantillons de 30 secondes sur lesquels ont porté leur analyse. Comme il ne s’agissait pas de textes, ils ont dû créer des « mots » basés sur les caractéristiques musicales des morceaux étudiés. Ils ont donc élaboré deux corpus, l’un de « thèmes harmoniques » et l’autre de « types de timbres ». Les thèmes concernent les successions d’accords utilisés. Par exemple, le thème nommé H1 dans l’étude concerne l’usage de la septième de dominante, un accord largement utilisé dans le blues et les musiques qu’il a directement inspiré. H8 représente une succession d’accords majeurs. Les « timbres », quant à eux, représentent plutôt le type d’instrumentation et de sonorité, par exemple, « batterie, agressif, percussion », ou « voie féminine, mélodique, vocale « . On analyse pour chaque morceau la présence des 8 thèmes harmoniques et des timbres. A noter que pour effectuer cette analyse, les chercheurs se sont basés sur un algorithme utilisé en général sur des corpus de textes.

Pour interpréter ces données très abstraites, les chercheurs ont employé les tags entrés par les utilisateurs de lastfm. Ils ont ensuite cherché à définir les styles de musique, mais ont trouvé que les termes usuels, rock, rap, disco, etc. étaient trop vagues pour capturer la diversité musicale, et que de surcroît ces appellations recouvraient bien souvent plus des notions d’âge ou d’origine ethnique et géographique que des différences purement musicales. Ainsi, la pop coréenne (k-pop) et le « rock classique » partagent en fait les mêmes caractéristiques ; utilisant cette fois un algorithme issu de la bio-informatique, ils ont partagé les « tags » en 13 styles différents, où les appellations traditionnelles peuvent se retrouver dans diverses catégories : ainsi, dans le style 1 , on trouve le rap et le hip-hop associé, entre autres, à la house, la soul ou la dance. Mais on trouve le hip-hop et le rap également dans le style 2, cette fois en compagnie cette fois du reggae, des tags « urban » et même « comedy » (ce que je trouve un peu bizarre).

L’usage de technologies employées tant dans l’analyse de texte qu’en biologie nous montre en tout cas que cette nouvelle science des data se montre définitivement transdisciplinaire. Rappelons pour exemple les recherches de Marcello Montemurro dont les recherches couvrent à la fois la structure de l’ADN, le code informatique, la structure du cerveau ou l’étude de manuscrits anciens.

L’histoire de la musique revisitée

CaptureA partir de ces lexiques, les chercheurs ont cherché à comprendre l’évolution des tendances musicales de ces dernières décennies. Par exemple, le thème harmonique « bluesy », H1, a vu sa fréquence diminuer de 75 % entre 1960 et 2009, ce qui signe, selon les auteurs du papier, « la mort lente du blues et du jazz au sein du Billboard ». D’autres thèmes restent stables, comme H8, qui représente les accords majeurs : deux tiers des morceaux du Billboard recourent à ces accords.

A partir de ces données, les auteurs tentent de reconstituer une histoire de la musique populaire, et les résultats sont parfois tout à fait contre-intuitifs.

Par exemple, si les chercheurs sont d’accord avec l’opinion commune selon laquelle la musique populaire aurait connu une série de révolutions, les dates qu’ils donnent pour ces phases de transformation sont plutôt inattendues : 1964, 1984 et 1991, la dernière étant la plus importante, selon eux. Donc, pas trace ni de la révolution psychédélique de 1967, ni de l’explosion punk de 1975-1977…

1964 peut se comprendre. N’est-ce pas la période qui a vu l’apparition de la fameuse British Invasion, avec les Beatles ou les Stones ? Mais pour les chercheurs, justement cette « invasion » a été largement surestimée. Pour eux, la multiplication des styles était déjà en bonne route à cette date : donc, les groupes anglais n’auraient pas initié cette révolution, ils l’auraient exploitée.
1983 se caractériserait par le leadership des styles new wave, disco et hard rock, au détriment des morceaux tagués soft rock, country et soul-Rn’B. Enfin 1991 verrait une explosion des styles associés aux tags rap et hip-hop, tandis que ceux assimilés au Rock connaissent une éclipse.

Enfin, les auteurs cherchent à répondre à la question piège : la variété musicale s’est-elle appauvrie au cours des dernières années ? La réponse serait négative. Il existe toujours aujourd’hui un grand nombre de styles. La variété musicale a bien connu une période de resserrement, mais c’était au début des années 80, avec une réduction du nombre de timbres utilisés : en effet, à cette époque, le timbre T1 («  »batterie, agressif, percussion ») lié à la fois au disco et à la new wave, et T5 (« guitare, son élevé, énergétique ») comme dans le hard rock, trustent les sommets des charts. Ces deux tendances allaient ensuite d’effacer devant T3, le hip-hop et le rap. L’histoire de T1 est digne d’intérêt, car elle montre l’interaction entre technologie et style artistique. Ce timbre continue à être populaire jusqu’en 1990, et est lié à la popularisation des boites à rythmes ; à partit de 1990, il reflue : « le règne des boites à rythmes était terminé », nous disent les chercheurs.

La science des data est-elle mûre pour expliquer la culture ?

Évidemment lorsqu’on consulte de telles recherches, on ne peut que se demander si elles capturent réellement des évolutions qui nous sont imperceptibles, ou si au contraire elles constituent l’équivalent de classer les grandes œuvres littéraires en fonction du nombre de caractères, de la fréquence de la lettre « e » ou le classement des ventes chez Amazon. Les choses sont probablement plus complexes : ce type de travaux nous permet de remettre en perspective certains présupposés : le rappel que la variété musicale ne s’est pas appauvri ces dernières années contribue par exemple à faire taire le vieux con qui sommeille en chacun de nous.

Cela dit, on ne peut s’empêcher de se poser certaines questions et de mettre en lumière des limites. Les auteurs du papier en sont conscients : leur étude est biaisée, reconnaissent-ils, par le choix du Billboard comme source. Il est bien sûr normal de devoir choisir un échantillon au milieu d’une telle masse de données, on ne peut faire autrement. Mais cet échantillon est-il représentatif, significatif ? Lorsqu’on regarde les archives du Billboard, on ne peut s’empêcher de remarquer que les morceaux les plus marquants, ceux qui ont changé notre perception de la musique, n’ont souvent pas figuré dans ce palmarès. Par exemple, le Velvet Underground, groupe qui oeuvra dans les sixties, mais devint une influence majeure du rock à partir de la fin des années 70, n’a classé que trois albums (pas de chansons) au sein du Billboard (le site n’indique pas les dates où ces disques se sont retrouvés dans les charts, mais au moins deux des albums mentionnés datent de bien après la dissolution du groupe). Brian Eno a bien explicité le rôle historique du Velvet lorsqu’il a déclaré « leur premier album n’a été acheté que par 1000 personnes, mais chacune d’entre elles a ensuite créé son groupe ». Les Doors, autre groupe très influent, sont un peu mieux lotis. Mais bon nombre de leurs « grands classiques », comme « The End » ou « When the music is over », ne figurent pas dans le hit parade. Quant au Rap, il a peut-être explosé en 1991, mais il effectuait déjà sa petite révolution en 1979 avec Sugarhill Gang et leur « Rapper’s Delight ». Il n’était pas difficile pour un être humain de prédire sa montée en puissance dès le début des années 80, ce que manifestement, les algorithmes ne repèrent pas. Et l’absence des mouvements de 1967 et 1977 est tout de même très gênante.

Le papier commence par ces lignes : « L’histoire de la musique populaire a longtemps été débattue par des philosophes, des sociologues, des journalistes et des stars de la pop …. Leurs thèses, bien que riches en folklore musical et en jugements esthétiques, manquent de ce que désirent les scientifiques : des tests rigoureux d’hypothèses claires basées sur des données quantitatives et des statistiques ». Le problème est que ce papier montre exactement le contraire : ces données sont limitées par leur abandon de toute subjectivité liée à un domaine qui est avant tout… subjectif. Les Anglais de 1965 n’ont peut-être rien apporté de nouveau en terme d’accords ou de timbres ; mais ils signifiaient quelque chose de nouveau. Et c’est pareil pour le psychédélisme, le punk et le hip-hop. Il ne s’agit pas de rejeter de telles recherches qui nous apportent sans aucun doute des éclairages inédits sur certains aspects de la culture ; mais ils ne remplacent pas – encore ? – les écrits d’un Greil Marcus. Un jour peut-être, qui sait, élaborera-t-on des systèmes algorithmiques susceptibles de prendre en compte la signification des différents mouvements culturels ou historiques. Mais aujourd’hui nous ne savons pas encore quels échantillons choisir, ni ce qu’il faut calculer au juste.

Rémi Sussan

À lire aussi sur internetactu.net

0 commentaires

  1. Intéressant et original… Mais un peu restrictif. Dommage que les auteurs n’aient pas inclus le metal, qui fait tout autant partie de la culture populaire (mais peut-être est-il trop européen… et complexe????). Et j’aimerais bien savoir ce que donnerait le même type d’analyses avec les oeuvres classiques, surtout celles du XXème siècle.

  2. Franchement Rémi, ton papier il est ter-ri-ble !!!!
    (ça amène rien au débat, mais ça fait du bien de le dire 🙂

  3. Le sujet est bien vulgarisé, bravo !

    Clairement, quand un expert humain dit que tel morceau marque le début de telle période, il tient compte de plusieurs facteurs externes au contenu du morceau, comme l’influence a posteriori du morceau sur le long terme, la revendication de l’artiste à appartenir à un certain courant musical, ce qui inclus son âge, son ethnie, son public, la façon dont est menée la campagne promotionnelle de sa musique etc.
    Par exemple, un groupe de rock qui invente un nouveau style proche du rap pourrait être dans le top 50 grâce aux amateurs de rock, cela ne signifie pas qu’il a une influence importante sur le rap, et a donc moins de chances d’initier le début d’une nouvelle période en rap.

    À noter quand même : arXiv ne fait pas de peer-reviewing. La méthodologie contient peut-être des erreurs grossières et les résultats pourraient changer d’ici la publication dans une revue à comité de lecture.