Applicazione di un metodo attribuzionistico quantitativo alla monodia liturgica medievale Francesco Unguendoli Giampaolo Cristadoro Marco Beghelli Dipartimento di Scienze Fisiche, Dipartimento di Matematica Dipartimento delle Arti Informatiche e Matematiche Università di Bologna visive, performative, medievali Università di Modena giampaolo.cristadoro@ Università di Bologna e Reggio Emilia unibo.it marco.beghelli@ francesco.unguendoli@ unibo.it unimore.it Abstract firmati). Come problema filologico non è meno sentito fra gli storici della musica, spesso alle pre- Italiano. L’articolo mostra come tecni- se con composizioni più o meno antiche d’incer- che di analisi stilometriche comunemen- ta paternità. Mancano tuttavia al musicologo uti- te usate in ambito letterario (basate sulla li strumenti analitici che consentano di andar ol- distanza tra vettori delle frequenze di n- tre la semplice impressione soggettiva d’ascolto, grammi di lettere) possano essere adattate mentre le metodologie d’indagine stilistica fino ad con successo allo studio di repertori mu- oggi applicate alla musica hanno perlopiù lavo- sicali “unidimensionali” (ovvero melodie rato a livello di macro-generi compositivi. Pri- prive di ritmo e di accompagnamento). I ma di affrontare veri problemi di attribuzione in buoni risultati ottenuti su un corpus di mo- ambito musicale è dunque necessario individuare nodie liturgie di origine medievale (Canto metodologie analitiche adeguate. Gregoriano e Canto Romano Antico) sono L’applicazione a repertori musicali semplici di un primo passo verso l’adozione e la crea- metodi d’indagine stilistica computazionale (stilo- zione di tecniche automatiche a supporto metria) già verificati su testi verbali offre ora i pri- di studi stilometrici a carattere e interesse mi buoni risultati, da testare poi su composizioni strettamente musicologico. più complesse, con le dovute modifiche. Lo sco- English. We adapt a technique common- po ultimo non è la costruzione di algoritmi effi- ly used in the stylometric attribution of li- cienti per l’attribuzione di testi musicali, confron- terary texts (based on a pseudo-distance tando l’efficacia assoluta dei diversi metodi, né di between frequency-vectors of n-grams of sostituire la macchina all’orecchio e al discerni- letters) to the analysis of “unidimensio- mento del musicologo, ma piuttosto offrire a que- nal” musical repertoires (rhythm-free me- sto uno strumento d’indagine filologica in più che lody without accompaniment). We succes- faccia emergere ulteriori tratti distintivi (features) sfully apply the method to a corpus of li- delle varie musiche, dei vari autori, permettendo- turgical monodies of medieval origin (the gli cosı̀ di valutare aspetti stilistici che da solo non so-called Gregorian Chant, in comparison percepirebbe. with the Old Roman Chant). Our results 2 Gli n-grammi in ambito letterario give a first indication that automatic stylo- metric techniques can be fruitfully adopted Sin dall’avvento dei primi computer si è tentato di to support the study of refined problems in processare caratteristiche stilometriche per affron- musicology. tare problemi attribuzionistici. Inizialmente gli in- dicatori quantitativi utilizzati erano perlopiù lega- ti a caratteristiche lessicali o sintattico-semantiche 1 Motivazioni della ricerca dei testi analizzati; in Kes̆elj et al. (2003) gli au- Il problema dell’attribuzione in arte, vale a dire tori si rivolsero a indicatori di livello più basso, l’identificazione dell’autore di un’opera dell’inge- individuando come features stilistici i cosiddetti gno adespota, è comunemente noto per le arti vi- n-grammi, ossia sequenze di n simboli (lettere, sive e letterarie (attribuzione di quadri e testi non spazi, interpunzioni) consecutivi. Tale metodo è stato raffinato da Basile et al. Backer e Van Kranenburg (2005) sono tra i pri- (2008) per adattarlo a uno specifico problema: mi ad affrontare problematiche di attribuzione, uti- attribuire a Gramsci oppure a suoi collaboratori lizzando un corpus di brani di Bach, Händel, Tele- una serie di articoli giornalistici pubblicati ade- mann, Haydn e Mozart e venti style-markers diffe- spoti (un problema difficile in quanto testi brevi renti, utilizzati anche singolarmente o a sottogrup- ed estremamente simili per tematiche e linguaggio pi: i risultati sono molto buoni nella maggior parte (Lana 2010)). Gli n-grammi sono stati dunque uti- delle prove effettuate, con un’accuratezza sopra il lizzati per costruire distanze non più fra il singolo 90%, tranne che nel confronto tra Mozart e Haydn, testo adespoto e il profilo medio di un singolo au- stilisticamente assai più impegnativo, in cui l’ac- tore, come fatto da Kes̆elj, ma rispetto ad ogni te- curatezza nelle attribuzioni scende a circa il 75%. sto disponibile, prendendo inoltre in considerazio- Metodologie simili vengono usate più di recente ne tutti gli n-grammi (e non solo i più frequenti) anche da Brinkman et al. (2016) per affrontare per contrastare la brevità: al testo adespoto veni- le problematiche autoriali relative all’opera di Jo- va cosı̀ assegnato un “voto” rispetto a tutti i testi squin, messo a confronto con Ockeghem, Dufay, del corpus di riferimento, basato sulla sua posizio- De Orto e La Rue; i risultati tuttavia confermano ne in una classifica costruita sulle distanze, e da la difficoltà del problema in quanto solo il 60% tali voti veniva ricavato un indice riassuntivo sul- circa dei pezzi di Josquin vengono attribuiti cor- l’appartenenza all’uno o all’altro gruppo, insieme rettamente, mentre parecchi vengono confusi con a una stima sulla validità di tale attribuzione. quelli di La Rue. Wołkowicz et al. (2008), e Hillewaere et al. 3 Verifiche sui testi musicali (2010) hanno comparato musiche pianistiche di Bach, Mozart, Beethoven, Schubert e Chopin, e In campo musicale è opportuno notare che ad og- confrontato in particolare i quartetti per archi di gi gran parte della ricerca è stata finalizzata alle Mozart e di Haydn; in quest’ultimo caso, non fa- tecniche per la gestione, l’organizzazione e l’ac- cile anche per il musicologo, i risultati dei vari me- cesso ai grandi database musicali, principalmente todi, siano essi basati sugli n-grammi o sul ricono- quelli della rete, piuttosto che a una fine compa- scimento di patterns, hanno fornito valori di accu- razione di testi nell’ambito della cosiddetta “mu- ratezza simili, con percentuali massime intorno al sica d’arte”, cui il musicologo è maggiormente in- 70-75%. Globalmente si può notare che se le va- teressato. Il punto di vista e le tecniche coinvolte rie metodologie hanno dato ottimi risultati per un sono ovviamente differenti, là dove alla richiesta utente medio nella ricerca e gestione globale, ra- estetica di distinguere con precisione gli autori di ramente possono raggiungere un livello di affida- musiche estremamente simili fra loro si contrap- bilità sufficiente per i sottili problemi attribuzioni- pone nel Music Information Retrieval la necessità stici della musicologia storico-estetica, con spic- di automatizzare e velocizzare procedure che trat- cate velleità filologiche. È dunque nella speranza tano grandi quantità di dati, rinunciando a discri- di poter offrire un giorno risposte a questi ultimi minare fra brani di uno stesso genere o di autori che abbiamo fatto in un certo senso un passo in- stilisticamente vicini. dietro, testando in ambito musicale un metodo già I metodi di attribuzione basati sugli n-grammi noto in ambito letterario: quello di Kes̆elj et al. sono stati già testati più volte, ad esempio da Do- (2003), modificato da Basile et al. (2008)1 . raisamy e Ruger (2003) e da Hillewaere et al. Per cominciare l’indagine si sono scelti reperto- (2010), oltre che dallo stesso Kes̆elj et al. (2008, ri monodici e non mensurali, caratterizzati cioè da 2013), sia nel campo già citato della ricerca e ca- una sola e semplice successione di note ad altez- tegorizzazione in grandi database, sia in proble- ze diverse (stringhe di suoni), evitando cosı̀ tutta mi attribuzionistici più prettamente musicologici. una serie di ulteriori parametri che costituiscono la Passando dalla linearità del linguaggio letterario maggiore difficoltà d’indagine per la musica d’ar- alla multi-dimensionalità di quello musicale, i pro- te occidentale (durate, ritmi, dinamiche, agogiche, blemi maggiori sono, per metodi basati sugli n- grammi, la definizione stessa di unigramma e il 1 trattamento delle “voci” parallele, e per metodi Utilizzare il metodo nella sua forma originale col solo scopo di comparare la sua maggiore o minor efficacia sul più generali la difficoltà di trovare un insieme di linguaggio musicale rispetto ad altri metodi non rientra fra style-markers effettivamente rappresentativo. i compiti circoscritti di questa ricerca. intrecci contrappuntistici, agglomerati armonici, 50 Graduali, più ulteriori 30 brani con varie e di- ecc.). Un esempio: versificate funzioni liturgiche, destinati ad un test più impegnativo di cui si dirà. Le fonti: per il Gre- goriano, le edizioni critiche del Graduale Triplex (1979) e dell’Offertoriale Triplex (1985) prodotte dal centro di Solesmes; per il Romano, l’edizione In prospettiva, l’intenzione è di estendere il me- diplomatica del Graduale Vat. lat. 5319 edito nei todo d’indagine - opportunamente adattato - a re- Monumenta Monodica Medii Aevi (1970). pertori musicali più complessi (polifonici, armo- nici, ecc.), nei quali i problemi di attribuzionismo Senza addentrarci in problematiche filologiche, tuttora irrisolti rivestono ben maggior interesse per la scelta di tali edizioni è stata dettata dalla loro la musicologia, sul piano storico come su quello ampiezza, che ha permesso di avere facilmente a filologico. disposizione un vasto assortimento di brani musi- cali su cui lavorare, offerti in trascrizioni moder- 4 Ambito d’indagine e obiettivo ne riconosciute come attendibili (a parte una man- ciata di evidenti refusi che sono stati tacitamente La presente applicazione alla musica del metodo corretti). Si sono ignorati i testi verbali intonati computazionale fondato sul concetto di n-grammi dai singoli brani, l’interesse dell’indagine essen- è cominciata con il confronto di due repertori li- do rivolto esclusivamente alla dimensione musi- turgici d’origine medievale: il cosiddetto Canto cale. Si è evitata ogni possibile interpretazione Gregoriano (sviluppatosi in area francese per dif- ritmica delle melodie, assegnando a ogni nota lo fondersi poi in tutta l’Europa cristiana) e il meno stesso valore di durata standardizzato. Nel gioco noto Canto Romano Antico (rimasto limitato alle dei ritornelli fra le varie antifone si è provveduto a chiese romane non pontificali). una normalizzazione formale, per evitare eccessi- In tali repertori, alla semplicità lineare della mu- ve e ingiustificate difformità di lunghezza fra i vari sica si contrappone, ai fini computazionali, la dif- brani. ficoltà prospettata da lunghezze assai limitate se confrontate a quelle dei comuni testi letterari (so- Quattro le prove effettuate, a difficoltà crescen- lo poche centinaia di note musicali per ogni bra- te. Nelle prime due ogni brano dei due insiemi di no) e dalla difficoltà di enucleare efficacemente in riferimento A e B è stato trattato come testo inco- quelle melodie elementi sintattici analoghi a paro- gnito e attribuito all’uno o all’altro insieme. Nella le, frasi e periodi. Quanto poi alla natura stilisti- prima prova gli insiemi di riferimento erano rap- ca di tale musica, va segnalata la notevole somi- presentati dai soli Offertori (Gregoriani per l’in- glianza melodica non solo fra un testo e l’altro del sieme A, Romani per il B); nella seconda ognuno medesimo corpus, ma anche fra i due repertori in dei due insiemi A e B è stato esteso a compren- esame: una conseguenza della loro genesi, frutto dere anche i Graduali (Gregoriani e Romani ri- di una autorialità collettiva estesa su un abito tem- spettivamente), rendendolo cosı̀ più vasto e meno porale e geografico assai vasto, nonché di ripetute omogeneo. Rispetto agli stessi gruppi A e B della contaminazioni. seconda prova, nella terza prova si è poi valutata Date queste premesse che hanno reso la ricerca l’attribuzione dei 60 brani di differente indirizzo ancor più stimolante, l’obiettivo era di attribuire liturgico. brani dell’uno o dell’altro repertorio al corpus di Siamo partiti dagli Offertori per tre ragioni si- appartenenza con metodi computazionali, là dove gnificative: 1) il loro numero elevato a disposi- l’orecchio anche esperto non si dimostra sempre zione, sia nel Gregoriano sia nel Romano; 2) una in grado di distinguerli con certezza2 . apprezzabile lunghezza dei singoli brani, tra i più estesi in entrambi i repertori; 3) la quasi totale cor- 5 Percorsi e metodi rispondenza fra i due repertori dei testi verbali in- I 280 brani musicali utilizzati sono di varia natura tonati, cosa che sposta tutto il peso delle differenze liturgica e formale: per ciascuno dei due reperto- sulla sola componente melodica. Era cosı̀ possibi- ri sono stati presi in considerazione 60 Offertori e le avviare un primo lavoro di confronto su un grup- 2 po di brani omogeneo, senza introdurre potenziali Una analisi quantitativa del problema, tramite prove di riconoscimento auditivo, è in corso. I primi risultati stanno variabili dettate dalle diverse funzioni liturgiche. confermando tale difficoltà. Con motivazioni simili è stato poi aggiunto agli Offertori il gruppo dei Graduali, più brevi e con tra i testi x e y, calcolata per un valore fissato n caratteristiche musicali differenti. della lunghezza degli n-grammi, è definita come Ragioni opposte regolano invece il terzo grup- (Basile et al. , 2008): po di musiche, destinato a testare il metodo at- !2 X fx (ω) − fy (ω) tributivo con brani attinenti a differenti funzioni dn (x, y) = C liturgiche (di volta in volta: Introitus, Alleluia, ω∈Dn (x)∪Dn (y) fx (ω) + fy (ω) Tractus, Sequentia, Offertorium, Communio, An- (1) 1 tiphona, Inno, Canticum). Ne consegue una mino- con C = |Dn (x)|+|D n (y)| . re omogeneità melodica e una maggiore varietà di L’assegnazione dei singoli brani all’uno o all’al- lunghezze (i brani sono tendenzialmente più bre- tro repertorio è stata quindi effettuata tramite una vi), difficoltà cui si aggiunge in alcuni casi, spe- procedura di “voto” che utilizza tutte le distanze cie fra gli Alleluia, la presenza di stesse melodie intertestuali. Le distanze del testo incognito x da o di loro parti fra i due repertori, cosa che ren- tutti i testi di riferimento dei due gruppi sono ordi- de ovviamente molto più complessa una precisa nate in maniera crescente. Per il j-esimo testo del attribuzione all’una o all’altra famiglia. gruppo A nella lista è stato calcolato (k(j)/j) − 1 Nella quarta prova, divisa in due parti, gli insie- dove k(j) è la sua posizione nella lista. Somman- mi A e B erano formati rispettivamente da Offer- do infine tali valori per tutti i testi del gruppo A tori e Graduali dello stesso repertorio (Gregoriano si ottiene un indice di appartenenza g(x); simil- o Romano); si è inteso cosı̀ valutare se l’analisi mente è stato costruito l’indice ng(x) attraverso quantitativa sia in grado di confermare le differen- un’analoga somma sui testi del gruppo B. L’indice ze stilistiche osservate dai musicologi fra Graduali g(x) sarà dunque tanto più piccolo quanto più i te- e Offertori, sia all’interno del Gregoriano, sia del sti del gruppo A si troveranno in alto nella classifi- Romano: entrambi i generi liturgici sono infatti ca, ossia quanto più le loro distanze dal testo inco- ben caratterizzati sul piano stilistico, al punto da gnito saranno piccole, e lo stesso varrà per ng(x) formare sottogruppi musicali omogenei all’interno relativamente al gruppo B. dei due repertori. L’uso degli indici, sintetizzato in un unico valore ng(x) − g(x) 6 Risultati v(x) = , (2) ng(x) + g(x) Sull’esempio di Basile et al. (2008), non ci si è permette di offrire anche una stima naturale del- avvalsi di un profilo medio dei gruppi di raffronto: l’affidabilità dell’attribuzione: il valore v(x) ∈ per ogni brano si sono calcolate le distanze da tut- [−1, 1] indicherà infatti testi fortemente Gregoria- ti gli altri brani di riferimento; quindi, tramite una ni per valori vicini a 1 e fortemente Romani per procedura di voto, si è ottenuto un indice riassun- valori prossimi a −1, mentre per valori prossimi a tivo i cui valori, tra [−1, 1], indicassero -oltre al- 0 indicherà una valutazione più incerta. la attribuzione all’uno o all’altro repertorio- anche Come riportato nei grafici sottostanti, il metodo una stima della validità di tale attribuzione. di attribuzione utilizzato ha fornito in tutti i casi Come unigramma di base è stata scelta la diffe- esaminati ottimi risultati. renza di altezza fra due note consecutive (e non fra Nelle prove più semplici (i primi due test) la ogni nota e la finalis del brano, per evitare la di- percentuale di riconoscimento ha superato il 90% pendenza dal modo gregoriano di appartenenza). per ogni valore della lunghezza degli n-grammi, Inoltre, causa la brevità dei brani, si è scelto di va- con punte del 100% per n = 3 e una tendenza lutare tutti gli n-grammi disponibili (e non solo i ad accuratezze inferiori nelle lunghezze medie o più frequenti). Il parametro fondamentale n del- elevate, da n = 5 in su (Fig. 1). la lunghezza degli n-grammi è stato testato in un Nella terza prova, resa difficile - come detto - range di valori compresi tra n = 2 e n = 10 (cor- dalla brevità dei brani e dalle frequenti commi- rispondenti quindi a frammenti melodici da 3 a 11 stioni melodiche fra i due repertori, la percentua- note di lunghezza). le si è comunque mantenuta buona per le mino- Utilizzando le seguenti notazioni: ω per il ge- ri lunghezze degli n-grammi (n = 2 e n = 3) nerico n-gramma, Dn (x) per il dizionario degli n- e per quelle maggiori, con un sensibile calo di grammi del testo x, fx (ω) per la frequenza relativa accuratezza per le lunghezze intermedie (Fig. 2) dell’ n-gramma ω nel testo x; la distanza dn (x, y) ze medie ed elevate degli n-grammi, per le quali l’accuratezza supera il 90% (Fig. 3). Figura 1: Accuratezza per la I prova (quadrati) e per la II prova (cerchi). Figura 3: Accuratezza per la IV prova: repertorio Romano (quadrati) e Gregoriano (cerchi). Il risultato conferma pertanto che le brevi cellu- le melodiche caratterizzanti rispettivamente il Gre- goriano e il Romano sono comuni a Offertori e Graduali, mentre la distinzione fra i due generi li- turgici può avvenire solo sulla base di “frasi” di maggior ampiezza. Riteniamo dunque interessan- te constatare che il metodo quantitativo qui uti- lizzato possa addentrarsi nelle caratteristiche di questi repertori sufficientemente a fondo da co- gliere differenze che solo studi filologico-musicali approfonditi riescono a evidenziare. 7 Conclusioni e prospettive Figura 2: Accuratezza per la III prova. I risultati presentati, con percentuali di riconosci- mento esatto intorno e oltre al 90%, fanno sperare È interessante notare che i risultati migliori so- che il metodo quantitativo degli n-grammi possa no ottenuti per n piccolo, in accordo con il fatto validamente applicarsi anche a composizioni mu- che tali repertori sono fortemente caratterizzati da sicali più complesse, caratterizzate da un maggior cellule melodiche piuttosto brevi. Nei principali numero di “parti” sovrapposte, e che potenzial- casi letterari studiati, invece, le lunghezze che for- mente sia pure in grado di contribuire a risolvere nivano i risultati migliori erano intorno a n = 7, 8, problemi di attribuzione ancora aperti fra i musi- giustificabili con una sorta di “lunghezza media” cologi: distinguere ad esempio i diversi autori in di un’unità che, pur non essendo “semantica” in partiture frutto di collaborazioni, o valutare il gra- senso stretto, non è troppo lontana dalla lunghez- do di attendibilità dell’attribuzione di una compo- za media delle parole. Infine anche la quarta pro- sizione d’incerta paternità. Sarebbe poi interes- va, mirata a distinguere tra Offertori e Graduali, in sante appurare quale risultato si ottiene se gli n- cui l’indice finale segnala l’appartenenza all’uno grammi calcolati vengono processati come featu- o all’altro ambito liturgico, ha dato risultati supe- res da un classificatore supervisionato (ad es. una riori all’85% (tranne il caso n = 2 per il reperto- SVM con 10-fold cross-validation), o quali featu- rio Romano), con un miglioramento per lunghez- res vengono selezionate da altri algoritmi. Recen- temente l’utilizzo di character-level embeddings Linguistics Conference, Halifax, Computer Science e convolutional neural networks ha pure mostra- Dept. at Dalhousie University, 255-264. to buone potenzialità in problemi di attribuzione Yoon Kim, Yacine Jernite, David Sontag, Alexander (Kim et al. (2016), Ruder et al. (2016)): resta da M. Rush. 2016. Character-aware neural langua- verificare l’efficacia sui testi musicali. Per man- ge models. In Proceedings of the Thirtieth AAAI tenere alte le percentuali di riconoscimento si do- Conference on Artificial Intelligence (AAAI-16), 2741-2749. vrà comunque semplificare sempre il più possibi- le la musica, mantenendo nell’analisi quantitati- Maurizio Lana. 2010. Come scriveva Gramsci? Me- va solo quelle componenti che possano risultare todi matematici per riconoscere scritti gramsciani anonimi. Informatica Umanistica, 3:31-56. effettivamente discriminanti per il problema esa- minato, valutate di volta in volta. La stretta col- Bruno Stablein. 1970. Gesänge des altrömischen Gra- laborazione fra il matematico-informatico e il fi- duale, Vat. lat. 5319. Monumenta Monodica Medii lologo musicale è dunque indispensabile ad ogni Aevi,2, Kassel, Bärenreiter. passaggio. Offertoriale 1985. Offertoriale triplex cum versiculis. Solesmis, Abbaye Saint-Pierre de Solesmes. References Sebastian Ruder, Parsa Ghaffari, John G. Breslin. 2016. Character-level and multi-channel convo- Chiara Basile, Dario Benedetto, Emanuele Caglio- lutional neural networks for large-scale authorship ti, Mirko Degli Esposti. 2003. An example of attribution. preprint arXiv:1609.06686. mathematical authorship attribution. Journal of Mathematical Physics, 49(12):125211. Gissel Velarde, Tillman Weyde, Carlos C. Chacon, Da- vid Meredith, Maarten Grachten. 2016. Composer Eric Backer, Peter van Kranenburg. 2005. On mu- recognition based on 2d-filtered piano-rolls. In Pro- sical stylometry - A pattern recognition approach. ceedings of the 17th International Society for Music Pattern Recognition Letters, 26:299–309. Information Retrieval Conference ISMIR, 115-121. Andrew Brinkman, Daniel Shanahan, Craig Sapp. Jacek Wołkowicz, Vlado Kes̆elj. 2013. Evaluation 2016. Musical stylometry, machine learning, and of n-gram-based classification approaches on clas- attribution studies: A semi-supervised approach to sical music corpora. In Yust J., Wild J., Burgoyne the works of Josquin. In Vokalek G. (ed.), Procee- J.A. (eds.) Mathematics and Computation in Mu- dings of the 14th Biennial International Conferen- sic - MCM 2013 Proceedings - Lecture Notes in ce on Music Perception and Cognition, ICMPC14, Computer Science, 7937:213-225. 593-598. Jacek Wołkowicz, Zbigniew Kulka, Vlado Kes̆elj. Jan Buys. 2011. Generative models of music for 2008. N -gram based approach to composer style imitation and composer recognition. Ho- recognition. Archives of Acoustics, 33(1):43-55. nours Project in Computer Science, University of Stellenbosch. Shyamala Doraisamy, Stefan Rüger. 2005. Robust po- lyphonic music retrieval with N -grams. Journal of Intelligent Information Systems, 21(1):53-70. Graduale 1979. Graduale Triplex seu Graduale Roma- num Pauli PP. VI cura recognitum & rhythmicis si- gnis a Solesmensibus monachis ornatum neumis lau- dunensibus (cod. 239) et Sangallensibus (codicum Sangallensis 359 et Einsidlensis 121) nunc auctum. Solesmis, Abbaye Saint-Pierre de Solesmes. Ruben Hillewaere, Bernard Manderick, Darrell Con- klin. 2010. String quartet classification with mo- nophonic models. In Downie J. S., Veltkamp R. C. (eds.), Proceedings of the 11th International So- ciety for Music Information Retrieval Conference, ISMIR, 537-542. Vlado Kes̆elj, Fuchun Peng, Nick Cercone, Calvin Thomas. 2003. N -gram-based author profiles for authorship attribution. in PACLING ’03, Procee- dings of the Pacific Association for Computational