Stylométrie et genre, II - carihaas/tesserae GitHub Wiki

Posted on June 16, 2015 by Chris Forstall

Nous avons déjà disposé les textes de notre corpus dans un espace défini par les fréquences des mots, ce qui a démontré qu’ils se regroupent par genre, épopée et élegie. Ici, nous avons coupé les oeuvres en portions de 30 vers pour examiner les variances à l’intérieur des textes eux-mêmes en comparaison avec celles entre les textes et entre les genres. Having seen how the texts of our corpus can be located in a feature space defined by word frequencies in a manner that illustrates the separation of the two genres, epic and elegy, we next cut up the poems into smaller sections in order to see how stylistic heterogeneity within individual texts compares with the variation among texts and between genres.

Dans le graphique précédent on remarque deux faits intéressants: (1) alors que les deux genres montrent leurs propres variances internes, ils se distinguent très bien au niveau des deux premiers PCs, (2) sauf pour les Métamorphoses d’Ovide, qui, en fait, se situent au milieu, comme nous l’avons déjà remarqué pour les textes entiers, et se superposent aux deux autres nuages dans leurs extrémités. En effet, si on ne prend pas en compte les Métamorphoses, c’est clair que la plus grande différence entre les deux genres se montre sur l’abscisse: si on trace une ligne au point -1.4 sur PC1, 1228 échantillons sur 1247 seront classés correctement, c’est à dire un taux de 98%. In the figure above we notice two very interesting things: (1) although the genres display their own internal heterogeneities they are remarkably well separated from each other, (2) with the exception of Ovid’s Metamorphoses, which occupies a place exactly in the middle, just as we saw in considering the whole texts, overlapping at its edges with both the other two clusters of points. In fact, if we omit the Metamorphoses, it is apparent that the bulk of the difference between the two genres is represented on just the x-axis alone: a division made at a value of -1.4 in PC1 would correctly classify 1228 out of 1247 samples, or 98%.

En considérant les textes entiers il y a quelques semaines, nous avons vu que l’Achilléide était classée parmi les poèmes épiques, à proximité de l’Énéide et de la Thébaïde et loin des élégies. Encore une fois ici, c’est la même chose : tous les échantillons de l’Achilléide se regroupent du côté «épique». Nous devons admettre que, dans la mesure où nous pouvons distinguer les deux genres, ce poème apparaît comme globalement épique et pas comme un mélange de genres, contrairement à notre hypothèse de départ. When we located entire texts within a similar feature space a couple of weeks ago, it was clear that the Achilleid grouped with the epics, almost on top of the Aeneid and Thebaid and far from the elegiac texts. Here again, we see a similar result, with all the poem’s samples falling on the “epic” side of the feature space. We must accept, then, that inasmuch as we can distinguish the two genres, the Achilleid is entirely epic, and not a stylistic mixture as we had proposed in our initial hypothesis.

Mais malgré ça, on peut imaginer PC1 comme un moyen de mesurer le style de ce petit corpus et on peut se demander si les passages de l’Achilléide qui se trouvent plus à gauche sur cette axe se distinguent des autres plus à droite par une tonalité différente, plus élégiaque en quelque sorte. Dans le graphique suivant, nous avons découpé le texte de l’Achilléide en nous basant sur les scènes du commentaire de Ripoll-Soubiran plutôt que sur des échantillons de taille fixe. Nous avons recalculé les fréquences des mots pour chaque scène, puis disposé les scènes dans l’espace déjà défini par PCA pour tout le corpus. Nous pouvons suivre le récit et observer en même temps la valeur relative de PC1 pour chaque scène. Yet nevertheless we can still imagine PC1 as a stylistic metric for this corpus, and we might profitably ask whether the relative positions on this axis of passages within the Achilleid do show meaningful differences of tone, in particular whether those farther to the left seem more “elegiac” in some way than those farther right. In the following figure, we have cut up the text according to the scene divisions found in Ripoll-Soubiran, rather than the regularly-sized samples used to this point. We recalculated the word frequencies for each scene, and then projected these new points onto the PCA feature space already defined by the corpus as a whole. We can follow the narrative while at the same comparing the relative value of PC1 from scene to scene.

En général, mis à part pour l’exorde, cette façon de représenter le poème s’accorde bien avec la structure de la narration, bien qu’on ait besoin de procéder à une analyse plus approfondie. On voit que les passages qui concernent l’armée et la flotte grecque, l’arrivée d’Achille et la cour de Lycomède se situent le plus du côté “epique,” et les scènes qui se placent le plus du côté «élégiaque» sont celles qui concernent les soucis de Thétis et Déidamie. In general the metric seems to agree well with the narrative outline of the poem, although a deeper analysis will be necessary, and with the exception for the moment of the exordium, whose value is difficult to explain as it stands. The passages farthest to the “epic” side are those dealing with the Greek fleet and the army, Achilles’ initial appearance and Lycomedes’ court. The scenes farthest to the “elegiac” side are those treating the worries of Thetis and Deidamia.