=Paper=
{{Paper
|id=Vol-3862/paper6
|storemode=property
|title=Dialogue in Abridged Literary Texts in Japanese: Observations and Automatic Reproducibility
|pdfUrl=https://ceur-ws.org/Vol-3862/paper6.pdf
|volume=Vol-3862
|authors=Iglika Nikolova-Stoupakand,Eva Schaeffer-Lacroix,Gaël Lejeune
|dblpUrl=https://dblp.org/rec/conf/lacatoda/Nikolova-Stoupak24
}}
==Dialogue in Abridged Literary Texts in Japanese: Observations and Automatic Reproducibility==
Dialogue in Abridged Literary Texts in Japanese:
Observations and Automatic Reproducibility
Iglika Nikolova-Stoupak∗ , Eva Schaeffer-Lacroix and Gaël Lejeune
Sens Texte Informatique Histoire, Sorbonne Université, Paris, France
Abstract
This study investigates the language utilised in dialogues in abridged literary texts in Japanese that are commonly
appreciated by language learners. The focus on dialogue is essential, as it uniquely illustrates the dynamics
between interlocutors whilst highlighting cultural and linguistic norms. The study explores phenomena typical
of the Japanese language, such as registers of formality, the use of end-of-sentence particles and explicit subject
markers, as well as universal linguistic features commonly used in readability formulas and considered a proxy
for textual complexity. Three world-famous literary texts as abridged by popular publishers (e.g. ’Aoitori Bunko’)
are considered, and insight is sought concerning how the dialogues within them compare to the texts in their
entirety as well as to the dialogues in unabridged versions of the same texts. Ultimately, an experiment is
proposed in order to test the overall validity of the identified linguistic patterns, in which the state-of-the-art
GPT-4o model is provided with relevant guidelines and asked to simplify literary dialogue.
Keywords
Japanese dialogue, dialogue in literature, literary abridgement
1. Introduction
Advanced dialogue systems such as OpenAI’s popular chatbot ChatGPT and a growing fascination for
Japanese-language cultural artefacts like animations and comic books coincidentally mark the current
global landscape, particularly in relation to a young audience. A natural intersection point of the two
phenomena is the educational sphere, where AI-based tools are more and more commonly employed
as learning support, and the number of learners of Japanese as a foreign language is demonstrating
a perceivable increase [1]. As original Japanese materials targeted at learners of the language are
scarce, the latter often resort to alternative sources that are closely compatible, such as the book series
’Aoitori Bunko’ [2] and ’Tsubasa Bunko’ [3], which offer adaptations of popular texts targeted at young
Japanese readers. The exploitation of these materials’ qualities for the automatic or partially automatic
generation of additional ones is a route worth exploring, as it would offer benefits to learners in terms
of material suitability and availability as well as to professional educators/writers in terms of time and
effort.
The current work aims to provide quantifiable insights into the characteristics of abridged texts in
the Japanese language for future use in the context of automatic language generation. Specifically,
the rendition of dialogues is initially focused on as they saturate an array of specificities of Japanese
culture, including interpersonal dynamics and levels of politeness, which in turn are expressed through
language in standard ways, such as the chosen register (long vs short verb forms). The dialogues in
three adapted literary texts (Alice’s Adventures in Wonderland, Les Miserables and Tom Sawyer) are
examined with a focus on typical features of the Japanese language pertaining to dialogue (e.g. the
use of end-of-sentence particles) as well as readability-based characteristics (e.g. type-to-token ratio).
Comparisons are made, on the one hand, between the characteristics of the dialogue portions of the
texts and the texts taken as a whole and, on the other hand, between dialogue in the abridged texts and
LaCATODA’24: The 9th Linguistic and Cognitive Approaches to Dialog Agents Workshop, November 19, 2024, Kyoto, Japan
∗
Corresponding author.
£ iglika.nikolova-stoupak@etu.sorbonne-universite.fr (I. Nikolova-Stoupak); eva.lacroix@sorbonne-universite.fr
(E. Schaeffer-Lacroix); gael.lejeune@sorbonne-universite.fr (G. Lejeune)
Ȉ 0000-0001-5230-3458 (I. Nikolova-Stoupak); 0000-0002-6260-9095 (E. Schaeffer-Lacroix); 0000-0002-4795-2362
(G. Lejeune)
© 2024 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).
CEUR
ceur-ws.org
Workshop ISSN 1613-0073
Proceedings
72
in their unabridged counterparts. As a result of the comparison, guidelines for simplification of literary
dialogue in the language are established and, by extension, conclusions can be drawn about the features
of such dialogues that render them easy or difficult for readers. In a related experiment, the GPT-4o
model (as per ChatGPT) is asked to provide a simplified version of a literary dialogue in Japanese
in three discrete settings: zero-shot, one-shot (in which a reference pair of unabridged and abridged
versions of a dialogue-filled text is provided) and through chain-of-thought prompt engineering that
incorporates the quantified norms established by the current work.
2. Background
2.1. Automatic Dialogue Generation
Automatic dialogue generation differentiates between task-oriented and open-domain systems. The
former are associated with a specific domain and, typically, specific knowledge and databases. In con-
trast, open-domain systems are broader in scope and may be generative, retrieval-based or ensemble.
Dialogue systems, like the majority of NLP-related technology, have seen development over the past
few decades from rule-based through machine-learning-driven to neural approaches. In the last couple
of years, Large Language Models (LLMs) such as GPT have been particularly revolutionary in the field.
The evaluation of automatic dialogue is a challenging task due to dialogue’s multiple and not readily
quantifiable characteristics. Whilst task-oriented or retrieval-based open-domain dialogue systems
might benefit from the application of BLEU scores, which compare their responses to human-made
ones, the same cannot be said of systems that support a freer textual format. In their survey on the topic,
[4] mention the relevance of multiple evaluation criteria, including interactiveness, outside knowledge,
coherence, speaker consistency, empathy and the system’s ability to keep the conversation going.
Dialogue systems have been applied in foreign language education since the 1960s [5]. Their ad-
vantages include ease of access, unlimited time of use, and the opportunity for students to practice
their target language in a stress-free environment. In their review of 28 articles on the topic of AI dia-
logue systems used in language education, [5] point out that an optimal system provides appropriate,
conventional and efficient dialogue, and that it is especially challenging but important for it to also
guarantee sufficient humour and cross-cultural engagement. Whilst most automatic dialogue systems
conceived for educational purposes are focused on the English language, exceptions do exist, such as
[6]’s Subarashii (2000), which employed automatic speech recognition and rule-based logic to aid stu-
dents of Japanese as a foreign language in beginner conversation. Today, chatbots like ChatGPT can
engage in high-level conversation in multiple languages, including Japanese.
2.2. Dialogue in Literary Texts
A dialogue is an exchange between two or more parties that is associated with a specific setting and
semantics. It is important to underline that the dialogues present in literary texts are by no means
identical to those that occur in real life. [7] points out that real-life dialogues last until a constraint
(e.g. time) has been imposed or a conclusion has been reached. It is a common occurrence for simple
repetitions or utterances lacking information to comprise a significant part of an exchange, as well
as for so-called ’dialogue-of-the-deaf’ or ’pseudo-dialogue’ to occur due to overly large agreement or,
conversely, a lack thereof. In contrast, literary dialogues have been pre-elaborated by the author and
necessarily serve narrative purposes, such as advancement of the plot, demonstration of character
qualities or the creation of a specific mood. [8] goes so far as to make the following drastic distinc-
tion between the two types of dialogue: ”it is not the purpose of dialogue to reproduce conversation
naturalistically but rather, in the guise of conversation, to supply conversation’s deficiencies —to be
amusing where conversation is dull, to be economic where conversation is wasteful, to be articulate
and lucid where conversation is mumbling or obscure” (p.7).
73
2.3. Dialogue in the Japanese Language
Japan is known for its specific (and often perplexing for foreigners) social norms, especially when it
comes to formal communication. Naturally, these norms are to a great extent reflected verbally in
interpersonal dialogue in the Japanese language.
To start with, several registers, associated with specific verb conjugation, occur in Japanese in func-
tion of the interlocutor’s perceived ’status’. A very simplified rule of thumb would require that one
utilise short forms (e.g. da1 ) with close friends and family, -masu forms (e.g. desu) in the majority of
circumstances, ’humble’ forms (e.g. de gozaimasu) when referring to themselves in front of a superior
and ’honorific’ forms (e.g. de irasshaimasu) when addressing or referring to a superior interlocutor.
However, as [9] notes, additional criteria of use are also at play, such as the participants’ mood and
dynamics or the intention to use a construction that is only compatible with certain verb forms.
Examples of constructions that exert significant influence on their context are end-of-sentence parti-
cles. They are specific to and almost indispensable in Japanese dialogue. The particles zo, ze, sa and yo
are associated with insistence, whilst others like ne and na denote a request for confirmation. However,
practice once again shows that the employment of the phenomenon is not this easily generalisable. In
fact, multiple and sometimes conflicting theories have been brought forward considering the nature
of discrete particles and the differentiation between them. For instance, the speakers’ ’territory of in-
formation’ is often invoked [9]. In contrast, other theories underline the role of particles in dialogue
coordination and persuasion dynamics [10].
Unlike English and other Western languages, Japanese introduces subject and object roles within a
sentence via specific case markers that precede the associated verb. In addition, a ’topic’ marker (wa)
is also commonly used, whose function, albeit similar to that of the subject marker, is different in that
it is not directly associated with syntactic roles. The absence of explicit particles, commonly employed
in dialogue, is a case of anaphora referred to as ’zero pronoun’. Its function is seen as comparable to
that of personal pronouns in English [11].
3. Methods
3.1. Texts
The primary literary texts investigated are abridged versions of Mark Twain’s The Adventures of Tom
Sawyer 2 , Victor Hugo’s Les Miserables3 and Lewis Carroll’s Alice’s Adventures in Wonderland 4 . The
first two books belong to the series ’Aoitori Bunko’ by the publisher Kodan [2], and the third one is
from the series ’Popura Poketto’ by Popura [12].
Both series as well as others like ’Tsubasa Bunko’ [3] seek to offer to young Japanese readers access
to Japanese and world classics in simple language and child-friendly format. ’Aoitori Bunko’ books,
officially targeted at elementary school children, are commonly perceived as especially easy to read,
as they contain a number of illustrations, use simple grammatical constructions, and the reading of all
kanji5 is provided [13]. According to the blog ’Japanese Book Club’, aimed at learners of Japanese as
a foreign language, a typical book of the series contains grammar suitable for the N3 and N2 levels of
competence as per the Japanese certificate exam JLPT6 [14].
In order for conclusions to be drawn that are specifically valid for and set apart abridged Japanese
texts of an affirmed quality, each of the abridged texts is coupled with a non-abridged Japanese trans-
1
to be
2
Twain, M., Nishi, K., Iijima, A.: Tomy Souyaa no bouken. Kodan: Aoitori Bunko (2012).
3
Hugo, V., Katayama, W., Tsukahara, R.: Re mizeraburu. Kodan: Aoitori Bunko (2012).
4
Carroll, L., Nishida, Y.: Fushigi no kuni no arisu. Popura: Poketto Bunko (2015).
5
logographic Chinese-based characters
6
corresponding, respectively, to the B1 and B2 levels of the CEFR framework
74
lation of the same original text.7 8 9
3.2. Textual Processing
All texts are converted to plain text format10 , any metadata (including titles, character information and
prefaces) is removed and basic textual cleaning is applied, including the removal of non-alphanumeric
symbols resulting from textual conversion. Tabs and new lines are removed to allow for further pro-
cessing of the texts. For tokenisation of Japanese sentences into words, python’s janome11 library is
utilised. For conversion of kanji into kana12 , the pykakasi13 library is opted for. Dialogue is defined as
all text closed between ’「’ and ’ 」’ signs that ends in punctuation.
3.3. Linguistic Characteristics
Two sets of linguistic characteristics are measured in relation to dialogue instances in the selected texts.
When applicable, the dialogue in the texts is compared to the texts taken as a whole and/or with the
dialogue in the abridged texts’ non-abridged counterparts. The first set is conceived to represent the
specificity of Japanese dialogue and consists of the percentage of sentences:
1. with zero pronouns i.e. not containing the topic (wa) or subject marker (ga);
2. ending with the short verb form da and the related forms datta, dewa/ja nai and dewa/ja nakatta
3. ending with the full verb form desu and the related forms deshita and dewa/ja arimasen
4. ending with the particles yo, ne, na, sa, zo, ze and wa.
The second set consists of atomic readability characteristics that are not specific to the Japanese lan-
guage and are commonly considered as representative of textual complexity: (i) the text’s total length
(in characters), (ii) the percentage of dialogue in the full text, (iii) the average number of words per
sentence, (iv) the average number of letters per word and (v) the type-to-token ratio (TTR) (vi) the
percentage of words that are not found in a frequency list14 [15]. For a detailed description of the
investigated characteristics, please refer to section 4.1.
3.4. Automatic Text Generation and Adaptation
Following the measurement of the characteristics in abridged and unabridged versions of Japanese
literary texts as detailed in section 3.3, an experiment in automatic generation of abridged text is con-
ducted. For this purpose, ChatGPT is employed in its recent GPT-4o version. The model is asked to
provide an abridged version of an extract from Charles Dickens’ A Christmas Carol 15 as translated into
Japanese, which contains a large amount of dialogue. Three discrete generation scenarios are experi-
mented with based on the nature of the provided prompts: zero-shot (in which only instructions are
provided), one-shot (in which the model is given an example pair of unabridged and abridged extracts,
taken from the respective professional versions of Alice in Wonderland) and chain-of-thought (which
includes additional prompting following the model’s generation). In the chain-of-thought setting, the
model is asked to explicitly alter the text output in the zero-shot setting based on the trends that are
7
Twain, M., Yoshida, K.: Tomy Souyaa no bouken. Kaisei (1975).
8
Hugo, V., Yoshio, T.: Re mizeraburu. Kodan: Aozora Bunko (1987).
9
Carroll, L., Yamagata, H.: Fushigi no kuni no arisu. Asahi (2000).
10
Where OCR is required, it is achieved with the tool https://www.pen-to-print.com/
11
https://pypi.org/project/Janome/
12
syllabic characters
13
https://pypi.org/project/pykakasi/
14
The utilised frequency list is based on the top 30k words of the Open Subtitles multilingual corpus, accessible here:
https://github.com/hermitdave/FrequencyWords). Words are considered as types rather than tokens. Due to the nature
of the frequency list, words consisting entirely of hiragana characters are not considered.
15
Dickens, C., Katokt (trans.): Kurisumasu Kyaroru. Tatsu-Zine (2003).
75
discovered in relation to the professional texts but not exhibited by the current output. For the full gen-
erated texts, please refer to Appendix A; and for the prompts employed in the three scenarios, please
refer to Appendix C.
The generated texts are then evaluated qualitatively via a survey administered to seven speakers of
Japanese as a foreign language. There are two versions of the survey, each of which includes two of the
automatically generated texts16 . The two versions share a common text to facilitate the calculation of
agreement between participants; the one-shot text is opted for as the other two texts are very similar
to each other and their co-occurrence may cause confusion. The evaluation protocol is adapted from
[16] and evaluates the following categories: (i) understandability, (ii) correctness, (iii) consistency, (iv)
textual coherence and (v) aesthetic appeal. Four possible answers exist by category: ’yes’, ’mostly yes’,
’mostly no’ and ’no’. Comments in free text are also encouraged. The full protocol can be found in
Appendix B.
4. Results
4.1. General Observations
The detailed analysis of our experiments are shown in Table 1 (Alice in Wonderland), Table 2 (The
Adventures of Tom Sawyer) and Table 3 (Les Miserables) . The lengths of each abridged and unabridged
text were calculated and so were the ratios between each pair, revealing variation between 0.07 (for
the longest original text, Les Miserables) and 0.87 (for Alice in Wonderland).
The percentage of dialogue was discovered to be consistently higher in the abridged texts, ratios
ranging from 1.14 for Tom Sawyer to 1.38 for Les Miserables. The number of words per sentence is lower
for dialogue than for the text taken as a whole in all six texts. Due to the presence of a clear trend, the
ratios between the values of this feature for abridged and unabridged texts were also calculated in an
attempt to discover a further trend that characterises abridged texts. Indeed, it was discovered that the
ratios between the number of words per sentence in dialogue and in the full texts are generally higher
for the abridged versions (or identical in the case of Alice in Wonderland)17 .
No clear trends were discovered in relation to the number of letters per word (e.g. it is higher for
dialogue in both of Alice in Wonderland’s versions but this is the case only for Tom Sawyer’s abridged
version). In contrast, TTR does exhibit a trend, as it is higher in the case of dialogues in all texts (thereby
speaking of higher lexical variety). Therefore, the ratios of the values in relation to the three abridged-
unabridged pairs were also calculated; however, no further trends pertaining to abridged texts were
discovered18 . The percentages of words that fall outside the utilised frequency list were higher for
the texts when taken as a whole as compared to the dialogue within them (the sole exception being
Tom Sawyer’s unabridged version). No further trends are noticeable in relation to a text’s ’unabridged’
versus ’abridged’ status19 .
The Japanese-specific feature ’percentage of sentences without topic or subject marker’ reveals a
general trend pointing to higher values in dialogue parts20 . Calculation of the values’ ratios within a
textual pair shows a further trend of higher ratios in unabridged as compared to abridged texts21 .
16
version 1: zero-shot and one-shot; version 2: one-shot and chain-of-thought
17
0.5 vs 0.5 for Alice in Wonderland
0.67 vs 0.64 for Tom Sawyer
0.61 vs 0.59 for Les Miserables
18
2.4 vs 2.6 for Alice in Wonderland
1.6 vs 1.38 for Tom Sawyer
1.6 vs 2.66 for Les Miserables
19
ratios: constant 1 for Alice in Wonderland
0.95 vs 1.15 for Tom Sawyer
0.85 vs 0.82 for Les Miserables
20
Alice in Wonderland’s abridged version is an exception, showing a similar but slightly higher value in relation to the entire
text
21
0.95 vs 1.9 for Alice in Wonderland
1.37 vs 1.62 for Tom Sawyer
76
Table 1
Analysis of dialogue-centered textual characteristics in abridged and unabridged versions of Alice’s Adventures
in Wonderland (registers of politeness and end-of-sentence particles are only associated with communication;
therefore, features pertaining to them are only calculated for dialogue). Details about the characteristics are
given in Section 3.3.
Abridged Unabridged
Characteristics
Dialogue Full text Dialogue Full text
Set 1: Characteristics typical to Japanese dialogue/text
% s-ces w/o wa/ga 20.41 21.40 66.60 34.85
% s-ces ending in da1 8.26 N/A 3.00 N/A
% s-ces ending in desu2 0.70 N/A 0.94 N/A
% s-ces ending in particles3 15.82 N/A 18.57 N/A
% s-ces ending in yo 3.69 N/A 5.63 N/A
% s-ces ending in ne 4.39 N/A 5.63 N/A
% s-ces ending in na 2.11 N/A 3.19 N/A
% s-ces ending in sa 0.53 N/A 0.19 N/A
% s-ces ending in zo 1.58 N/A 1.5 N/A
% s-ces ending in ze 0 N/A 0 N/A
% s-ces ending in wa 3.51 N/A 2.44 N/A
Set 2: Universal readability-based characteristics
length (characters) 69642 80055
% dialogue4 14.31 12.56
average # words/s-ce 13.28 26.62 9.62 19.10
average # letters (kana)/word 1.98 1.94 2.10 1.99
TTR 0.24 0.10 0.26 0.10
% words outside a 30k freq. list5 58.44 60.19 58.41 60.35
1
and the related forms datta, dewa/ja nai, and dewa/ja nakatta
2
and the related forms deshita and dewa/ja arimasen
3
yo, ne, na, sa, zo, ze, and wa
4
the proportion of number of characters in dialogue over the number of characters in the whole text
5
based on the multilingual Open Subtitles corpus and available at:
https://github.com/hermitdave/FrequencyWord
Although the percentages of short and long verb forms within the different texts vary significantly as
a consequence of the nature of the characters and their interactions (e.g. there is much higher formality
in Les Miserables than in Alice in Wonderland), there is overall a higher number of short forms in all
six texts. A calculation of ratios between the two types of verb forms in textual pairs was conducted;
however, revealing no further trend22 .
With the exception of Les Miserables, the abridged texts are associated with a lower percentage
of end-of-sentence particles. Understandably, the choice of particles used is highly text-specific; for
instance,Alice in Wonderland contains many instances of the particle wa, which is used almost exclu-
sively by female speakers. The most common particles in both types of texts are yo, ne, and na; whilst
the particle ze is generally avoided, in particular in abridged texts (even when used abundantly in the
unabridged counterpart, like in the case of Tom Sawyer).
4.2. Generation Experiment
ChatGPT Output Table 4 offers detailed juxtaposition of the investigated features within the textual
extract provided to ChatGPT versus its zero-shot output. The overall length of the two texts is, respec-
1.68 vs 2.12 for Les Miserables
22
11.8 vs 3.19 for Alice in Wonderland
6.46 vs 21.96 for Tom Sawyer
1.21 vs 1.76 for Les Miserables
77
Table 2
Analysis of dialogue-centered textual characteristics for The Adventures of Tom Sawyer.
Abridged Unabridged
Characteristics
Dialogue Full text Dialogue Full text
Set 1: Characteristics typical to Japanese dialogue/text
% s-ces w/o wa/ga 50.38 36.82 51.14 31.46
% s-ces ending in da 19.64 N/A 11.86 N/A
% s-ces ending in desu 3.04 N/A 0.54 N/A
% s-ces ending in particles 17.79 N/A 33.79 N/A
% s-ces ending in yo 6.52 N/A 13.24 N/A
% s-ces ending in ne 1.93 N/A 3.26 N/A
% s-ces ending in na 5.34 N/A 3.96 N/A
% s-ces ending in sa 1.78 N/A 4.74 N/A
% s-ces ending in zo 1.19 N/A 1.69 N/A
% s-ces ending in ze 0.96 N/A 5.36 N/A
% s-ces ending in wa 0.07 N/A 1.53 N/A
Set 2: Universal readability-based characteristics
length (characters) 103758 229024
% dialogue 26.56 24.32
average # words/s-ce 13.22 19.62 15.17 23.60
average # letters/word 1.97 1.95 1.92 1.93
TTR 0.16 0.10 0.11 0.08
% words outside a 30k freq. list 61.45 65.85 64.54 57.20
tively, 2331 and 1457 characters, making the abridged version 0.63 of the length of the original one.
This proportion falls neatly within the range exhibited by the previously examined professional texts.
The percentage of dialogue is, naturally, high as the extract has been specifically selected to include
extensive dialogue: 0.7 for the abridged vs 0.57 for the unabridged text. The abridged text contains a
higher percentage of dialogue, thus matching the trend discovered in relation to the professional texts.
TTR is higher for the automatically abridged text, which also keeps in line with the discovered trend.
Similarly, the number of words outside the frequency list is indeed higher in the full text than in its
dialogue portions. However, when it comes to the number of words per sentence, the trend of there
being fewer words in dialogue parts is not exhibited by ChatGPT’s output.
The percentage of sentences without subject or topic marker is higher in dialogue parts than in the
full text both within the original extract and ChatGPT’s output. To go further, the ratio between the
two values is higher for the unabridged text, thus keeping up with both trends related to the textual
feature. Interestingly, even though the percentages of sentences ending in da vs desu go against the
discovered trend in the originally provided extract (the latter being more common), ChatGPT’s output
does in fact match the trend. Finally, a higher percentage of sentences end in a particle in the abridged
text, going against the relevant trend. More importantly, there is very little variety in the included
particles, yo single-handedly accounting for their vast majority.
Based on this conducted evaluation, ChatGPT was asked to make two modifications in the chain-of-
thought setting: (i) Reduce the number of words in dialogue sentences and (ii) Add a larger variety of
end-of-sentence particles, such as the commonly used ne and na. Whilst the requested particles were
indeed added23 , the overall length of sentences in dialogue was not decreased24 . Still, upon reflection,
no further prompts were provided at this point in order for the model’s unedited attempt at meeting
the requirements to be evaluated in the ensuing survey.
Human Evaluation The survey’s ’version 1’ (which consisted of the zero-shot and one-shot texts)
was answered by three respondents and ’version 2’ (one-shot and chain-of-thought) –by five.
23
ne: 11.86%; na: 8.47%; yo: 6.78%; zo: 1.69%
24
in fact, it was slightly increased to 14.82 due to the particles that were added simultaneously
78
Table 3
Analysis of dialogue-centered textual characteristics for Les Miserables.
Abridged Unabridged
Characteristics
Dialogue Full text Dialogue Full text
Set 1: Characteristics typical to Japanese dialogue/text
% s-ces w/o wa/ga 56.04 33.37 45.91 21.62
% s-ces ending in da 10.48 N/A 14.10 N/A
% s-ces ending in desu 8.60 N/A 7.98 N/A
% s-ces ending in particles 19.65 N/A 13.65 N/A
% s-ces ending in yo 6.94 N/A 4.75 N/A
% s-ces ending in ne 5.92 N/A 3.6 N/A
% s-ces ending in na 2.31 N/A 2.17 N/A
% s-ces ending in sa 1.01 N/A 0.84 N/A
% s-ces ending in zo 1.45 N/A 0.46 N/A
% s-ces ending in ze 0.36 N/A 0.32 N/A
% s-ces ending in wa 1.66 N/A 1.51 N/A
Set 2: Universal readability-based characteristics
length (characters) 106044 1522950
% dialogue 22.91 16.63
average # words/s-ce 9.93 16.28 12.77 21.30
average # letters/word 1.97 1.97 2.03 2.08
TTR 0.16 0.10 0.08 0.03
% words outside a 30k freq. list 56.30 58.71 66.31 71.45
Inter-rater agreement as per Fleiss’s Kappa was low for all three texts25 . Highest agreement was
associated with ’correctness’ in relation to the one-shot text and with ’textual coherence’ in relation
to the chain-of-thought one. Agreement was stable between categories for the zero-shot text.
The chain-of-thought text received the highest percentage of ’yes’ answers, 76%; followed by 24%
’mostly yes’. The one-shot text received 70% ’yes’, 20% ’mostly yes’ and 10% ’mostly no’. Finally, the
zero-shot text received 66.7% ’yes’, 26.7% ’mostly yes’ and 6.7% ’mostly no’ answers. No text was given
less than 50% of ’yes’ answers for a given category.
The one-shot text was met with a higher number of negative free-text comments. Grammar was
said to be complex, and the lack of kanji representations to be confusing. It was sometimes difficult
to tell who was speaking, and the lack of explicit subject or owner rendered some sentences hard to
understand. On the positive side, the text was said to be ’very flowing and natural’. Furthermore, the
dialogue attributed to the characters was perceived as vivid and judged to match their personal traits
(”Scrooge’s dismissive attitude and the cheerful responses of his nephew”).
The zero-shot text was said to be written in standard and fitting ’conversational Japanese’, and it
was pointed out that repetitions within dialogue were effective. The chain-of-thought text, in which
ChatGPT was explicitly asked to replicate the trends discovered in this study, received mostly positive
comments. Anaphora was said to be more readily resolvable (e.g. the pronoun kare26 was employed
several times). Compared with its one-shot counterpart, the text was said to be ’better and smoother’
and to contain simpler grammar. A specific sentence was said to be more ’aesthetically appealing’ than
the parallel one used in the one-shot text. According to the negative comments, complex kanji were
sometimes used, verb tense was inconsistent on one occasion and, importantly, there was said to be
less of a striking difference in the dialogue styles attributable to the two main characters.
25
the possible answers (’yes’, ’mostly yes’, ’mostly no’, and ’no’) were taken as categorical at the calculation of agreement
26
he
79
Table 4
Analysis of dialogue-centered textual characteristics in an extract from the unabridged novel A Christmas Carol
and in its automatically abridged version.
Abridged Unabridged
Characteristics
Dialogue Full text Dialogue Full text
Set 1: Characteristics typical to Japanese dialogue/text
% s-ces w/o wa/ga 34.48 23.08 17.65 9.09
% s-ces ending in da 13.33 N/A 4.92 N/A
% s-ces ending in desu 11.67 N/A 11.48 N/A
% s-ces ending in particles 11.67 N/A 19.67 N/A
% s-ces ending in yo 8.33 N/A 16.39 N/A
% s-ces ending in ne 0 N/A 0 N/A
% s-ces ending in na 1.67 N/A 1.64 N/A
% s-ces ending in sa 0 N/A 0 N/A
% s-ces ending in zo 1.67 N/A 1.64 N/A
% s-ces ending in ze 0 N/A 0 N/A
% s-ces ending in wa 0 N/A 0 N/A
Set 2: Universal readability-based characteristics
length (characters) 1457 2331
% dialogue 69.80 57.02
average # words/s-ce 14.76 13.23 36.47 24.96
average # letters/word 2.23 2.11 2.07 2.04
TTR 0.37 0.3 0.38 0.32
% words outside a 30k freq. list 49.37 53.33 49.02 53.93
5. Discussion
An automatic evaluation of both universal and language-specific features as present in dialogue in
abridged (and related unabridged) literary texts in Japanese led to the discovery of several distinct
trends. Some of them simply pertain to dialogue in Japanese literature, whilst others go further to
reveal specific traits of the dialogue present in abridged texts. The latter trends help shed light on
these texts’ features that render them suitable for an audience of language learners and/or younger
readers.
Abridged texts are associated with a higher percentage of dialogue and a lower percentage of end-
of-sentence particles. There tend to be a higher number of infrequent words in the text when taken as
a whole than in its dialogue portions. TTR is higher in dialogue compared to the literary texts taken
as a whole, and there tend to be more short than long verb forms in dialogue. The number of words
per sentence is higher in dialogue than in full texts, and the ratio between the two values is higher
for abridged texts. Sentences without marked topic or subject are more frequent in dialogue, and the
associated ratio is higher for unabridged texts.
The chain-of-thought setting of automatic abridgement, in which ChatGPT was asked to apply mod-
ifications for its initial output text to inscribe within the mentioned trends, was met with significant
encouraging feedback, such as the clear use of anaphora, which also characterises the zero-shot text.
However, an important piece of criticism was the perceived lack of distinguishing features in the char-
acters’ language. There are indeed instances of dialogue in the chain-of-thought text that go against
the grain of Scrooge being rather informal and patronising in contrast with his nephew being cheerful
and always respectful. An example is the nephew informally skipping the question marker ka; e.g. ”
どうしてそんなことを言うんです?”27 . However, upon verification, these instances are identical
in the zero-shot text. Therefore, one can safely conclude that it was not the fact of asking the model
to make a couple of specific adjustments that caused a compromise in terms of creativity and charac-
27
”Why would you say this?”
80
terisation. Conversely, it was the one-shot setting that helped enhance creativity. For instance, there,
the mentioned question is rendered in a very formal manner and does end in a question particle: ” ど
うしてそんなことを言うんですか?”
Interestingly, increased use of kanji was seen as an advantage and drawback by different participants
in the survey, leading to the conclusion that generalisation of the texts’ qualities in relation to different
levels of reader proficiency is not optimal. Based on the respondents’ feedback, the one-shot text seems
to be suitable for more experienced readers of Japanese compared to the other two.
Table 5: Juxtaposition of a part of the original extract of A Christmas Carol and the output provided
by ChatGPT in the different examined scenarios. The major differences between the texts are
underlined.
Version Text
(English)28 ”Don’t be angry, uncle. Come! Dine with us to-morrow.”
Scrooge said that he would see him–Yes, indeed he did. He went the whole length of
the expression, and said that he would see him in that extremity first.
”But why?” cried Scrooge’s nephew. ”Why?”
”Why did you get married?” said Scrooge.
”Because I fell in love.”
”Because you fell in love!” growled Scrooge, as if that were the only
one thing in the world more ridiculous than a merry Christmas. ”Good afternoon!”
unabridged 「おこらないでください、おじさん。さあ 明日は僕らと一緒に夕食をと
ってください」
スクル一ジは、おまえが墓場に、確かにそう、まったくこの通り口にしたの
だった、
おまえが墓場に落ちるところをみたいものだなと。
「どうしてなんです?」甥は叫びました。「いったいどうして」
「どうしておまえは結婚したんだ?」
「恋に落ちたからです」
「恋に落ちたからとはな!」スクル一ジはまるでその言葉が、メリ一クリスマ
スより
腹立たしい唯一の言葉であるかのように吐き捨てた。「ごきげんよう」
zero-shot 「そんなに怒らないでくださいよ、おじさん。明日は僕たちと一緒に夕食を
食べませんか?」
スクル一ジは冷たく言いました。 「 お前が墓場に落ちるところを見たいもの
だ」
「どうしてそんなことを言うんです?」と甥は叫びました。「どうしてです
か?」
「お前が結婚したからだ」
「恋に落ちたからです」と甥は答えました。
「恋に落ちたから?そんな馬鹿な!ごきげんよう」
chain-of- 「そんなに怒らないでくださいよ、おじさん。明日は僕たちと一緒に夕食を
thought 食べませんか?」
スクル一ジは冷たく言いました。 「 お前が墓場に落ちるところを見たいもの
だ、ね」
「どうしてそんなことを言うんです? 」と甥は叫びました。「どうしてですか、
ね?」
「お前が結婚したからだ」
「恋に落ちたからです」と甥は答えました。
28
Dickens, C.: A Christmas Carol. Chapman & Hall (1843).
81
「恋に落ちたから?そんな馬鹿な!ごきげんよう」
one-shot 「怒 ら な い で く だ さ いよ、 お じ さ ん。 明 日 は 僕 た ち と 一 緒 に 夕 食 を と
りましょう」
スクル一ジは、 「 お前が墓場に落ちるところを見たいものだ」と言いました。
「ど う し て で す か? 」 お い は 叫 び ま し た。 「ど う し
てそんなことを言うんですか?」
「どうしてお前は結婚したんだ?」
「恋に落ちたからです」
「恋に落ちたから?くだらない」とスクル一ジは言い捨てました。 「さようなら」
Table 5 presents parallel texts resulting from the discrete prompting scenarios experimented with.
The text’s full version, including in the original English, is also included for comparison. In all three
scenarios, the second paragraph is turned into dialogue. Other common characteristics include sim-
plification of grammar; e.g. the exclamation ” さあ” is excluded and simple constructions are used to
express the nephew’s invitation: ” ません”/” ましょう”. In all texts, Scrooge makes use of short verb
forms. The zero-shot and chain-of-thought versions, which differ only in their use of end-of-sentence
particles, tend to clarify the referents of anaphora, such as with the phrase ” と甥は答えました”29 ;
in the one-shot text, however, the reader is left to guess who the speaker is. The emphasised use of
end-of-sentence particles in the chain-of-thought text reads naturally and enhances the dialogue’s dy-
namics, such as in the nephew’s question ” どうしてですか、ね?”, where the particle implies its
status as rhetoric. In fact, the one-shot version also makes effective use of particles, such as in the
sentence ” 怒らないでくださいよ”. An important quality of the one-shot text that, however, cannot
be perceived in relation to the other abridged texts is a simplification of vocabulary. While the zero-
shot and chain-of-thought versions retain Scrooge’s original ” ごきげんよう”, a greeting likely to be
challenging for non-native readers, the one-shot one uses a much better known synonym, ” さような
ら”.
It is likely that the one-shot text’s higher overall complexity is dependent upon the sample extract
that was provided to the model and not an intrinsic feature of the generation scenario - a hypothe-
sis that should be tested through the inclusion of multiple texts of different proficiency levels. High
potential can therefore be expected from a future combination of the one-shot technique’s natural ten-
dency to provide variety and lexical simplification and the chain-of-thought addition’s incorporation
of specific instructions.
6. Conclusion and Future Work
Importantly, the current study’s observations are general in nature as they are based on a very limited
number of texts. A deeper examination of the discovered trends is planned to involve a substantial
increase in corpus size. At best, works of a variety of genres, years, and original languages of writing
will be added. A large corpus size could allow for not only trends but also reliable value ranges to be
defined concerning the examined textual features (with the caveat that some features, such as TTR, are
highly dependent on textual length).
Based on the conducted evaluation, it can be concluded that automatic generation may benefit from
longer chains of thought and from a combination of the one-shot and chain-of-thought generation
methods. Subsequently, the newly derived texts should ideally be evaluated by a larger sample of
readers of defined Japanese proficiency levels.
Comparison of the current experiment with similar ones that focus on different languages may pro-
vide interesting insight about the acquisition processes as associated with the languages at hand; in
particular, in relation to literary dialogue. For instance, the use of anaphora in the face of the Japanese
zero pronoun may be compared to the use of personal pronouns in English or other European lan-
guages.
29
”the nephew answered”
82
7. Limitations
The limited size of the literary corpus, caused by restrictions of availability and of a financial nature,
makes observations less generalisable as the author’s or translator’s choices play a significant role in
the texts’ characteristics.
Some of the examined automatic characteristics are not exhaustive in nature and are meant to help
discover overall tendencies rather than specific values or frequencies. For instance, solely the verb
desu is used to differentiate between the use of short and -masu forms, and the cases when the verb
may not be positioned at the end of the sentence are not accounted for.
Finally, as the number of participants in the conducted survey is limited and heterogeneous in terms
of proficiency levels, it is challenging to conclude on the quality of the three generated texts solely on
its basis.
References
[1] Statistics of jlpt takers, JLPT Japanese-Language Proficiency Test (2023). URL: https://www.jlpt.
jp/e/statistics/archive.html.
[2] Aoitori Bunko, Aoitori Bunko Books, Japan, 2023. URL: https://cocreco.kodansha.co.jp/aoitori.
[3] Tsubasa Bunko, Tsubasa Bunko Books, Japan, 2023. URL: https://tsubasabunko.jp.
[4] J. Ni, T. Young, V. Pandelea, et al., Recent advances in deep learning based dialogue sys-
tems: a systematic survey, Artificial Intelligence Review 56 (2023) 3055–3155. doi:10.1007/
s10462- 022- 10248- 8 .
[5] C. Zhai, S. Wibowo, A systematic review on artificial intelligence dialogue systems for enhancing
english as foreign language students’ interactional competence in the university, Computers and
Education: Artificial Intelligence 4 (2023) 100134. doi:10.1016/j.caeai.2023.100134 .
[6] F. Ehsani, J. Bernstein, A. Najmi, An interactive dialog system for learning japanese, Speech
Communication 30 (2000) 167–177. doi:10.1016/S0167- 6393(99)00042- 4 .
[7] D. Fishelov, Dialogues with/and great books: With some serious reflections on robinson crusoe,
New Literary History 39 (2008) 335–353. doi:10.1353/nlh.0.0022 , project MUSE.
[8] C. Morgan, Dialogue in novels and plays, Études Anglaises 6 (1953) 97.
[9] A. Janes, The interaction of style-shift and particle use in japanese dialogue, Journal of Pragmatics
32 (2000) 1823–1853. doi:10.1016/S0378- 2166(99)00118- 6 .
[10] Y. Katagiri, Dialogue functions of japanese sentence-final particles ’yo’ and ’ne’, Journal of
Pragmatics 39 (2007) 1313–1323. doi:10.1016/j.pragma.2007.02.013 .
[11] K. Yoshimoto, Identifying zero pronouns in japanese dialogue, in: Coling Budapest 1988 Volume
2: International Conference on Computational Linguistics, 1988.
[12] Popura poketto bunko books (2023). URL: https://www.poplar.co.jp/pocket/.
[13] What are aoi tori bunko books?, Japanese Book Club Cafe (2023). URL: https://
japanesebookclubcafecom.wordpress.com/2020/07/29/what-are-aoi-tori-bunko-books/.
[14] Japanese novel review: 霧のむこうのふしぎな町 the marvelous village veiled in mist by kashi-
waba sachiko, Japanese Book Club Cafe (2023). URL: https://japanesebookclubcafecom.wordpress.
com/.
[15] W. H. Dubay, The Classic Readability Studies, Technical Report, ERIC Clearinghouse, 2007. doi:10.
1109/TPC.2008.2007872 .
[16] S. M. Mousavi, G. Roccabruna, M. Lorandi, S. Caldarella, G. Riccardi, Evaluation of response gen-
eration models: Shouldn’t it be shareable and replicable?, in: Proceedings of the 2nd Workshop
on Natural Language Generation, Evaluation, and Metrics (GEM), Association for Computational
Linguistics, Abu Dhabi, United Arab Emirates (Hybrid), 2022, pp. 136–147.
83
A. Texts Used and Generated in the Automatic Abridgement
Experiment
Original Extract from A Christmas Carol
「メリ–クリスマス、おじさん、神のご加護がありますように」
明るい声が、スクル–ジの甥の声がしました。ただあまりに急にやってきたので、その声がし
てはじめてきたのにきづいたくらいでした。
「ふん」スクル–ジはもらしました。
「たわごとを」
霧がたちこめ霜が降りる中をあまりに急いでやってきたので、甥は体がすっかり暖まりき分
もすっかり高揚していました。ほおには赤みがさし美しく、目はきらきらと光り、はぁはぁ
と白い息をはきながら「クリスマスがたわごとですって、おじさん」と聞き返しました。
「どういう意味なんです? 僕にはわかりませんよ」
「その通りの意味だよ」スクル–ジは吐き捨てました。
「メリ– クリスマスだと! なんのけんりがあってお祝いするんだ? どんな理由があってのお祝
いだ? そんなに貧乏なのに」
「ふ–ん、じゃあ」甥は快活に答えをかえします。
「なんのけんりがあってそんなに憂鬱にしてるんです? どんな理由があっての不機嫌なんです
か? そんなにお金持ちなのに」
スクル–ジはとっさにはいい答えがうかびませんで、 「ふん」と再びいうとこうつづけました。
「たわごとだよ」
「そう怒らないでくださいよ、おじさん」
「そうする以外にどうしようがある。こんなばかどもがうようよしている世の中なんだぞ? メ
リ–クリスマスだって! 言うに事欠いてメリ–クリスマスとは! クリスマスなんてものは金も
ないのに勘定をしなきゃならんときじゃないか。また一年さいはとるがすこしばかりだって
金持ちになってないのを確認するときじゃないか、帳簿をしめて、そのどの項目をみても一
年どの月でも赤字だったことを知るときじゃないか。もしわしの思い通りになるなら」スク
ル–ジはぷんぷんに怒って言いました。「『メリ–クリスマス』なんてぬかす頭のたりない間
けどもは、お祝いのプディングなんかと一緒に煮つめてやって、しんぞうにヒイラギの棒で
もつきさして埋葬してやりゃいいんだ。うん、そうするべきだ」
「おじさんったら」甥は嘆願します。
「甥よ」おじは冷たく言い放ちました。
「おまえはおまえのやり方でクリスマスをやればいい。わしはわしのやり方があるから放って
おいてもらおう」
「やり方ですって!」甥はくりかえしました。
「何にもやりゃしないじゃないですか」
「どうか放っておいてくれ、それから」スクル–ジは吐き捨てました。 「クリスマスはさぞかし
めでたいんだろうよ。そうだな、今までもさぞかしいい事でもあったんだろうし」
「言わせてもらえば、いい事はたくさんありますよ。でもそれで得をしたことはないけれど」
おいは答えました。
「クリスマスはとくにそういうものじゃないですか。クリスマスがやってくるといつも思うん
ですが、神の名と起源に畏敬の念をいただくことは置いといても、まぁクリスマスに属する
もので畏敬の念から切り離せるものがあればですが、クリスマスはクリスマスなりにいいも
のだと思うんですよ。親切になり、許しあえ、慈悲ぶかく、たのしいときでしょう。長い一
年のカレンダ–をめくってみても、男女が閉じきった心を開き、自分より目下の人達を、ぜん
ぜん違う旅路をあるんでいるべつの生き物としてではなく、本当に墓場まで旅の道づれとみ
なす、唯一のときじゃないですか。それにおじさん、クリスマスがぼくのポケットに金や銀
の切れ端ひとつ入れてくれたことがなかったとしても、クリスマスはぼくにとってはいいも
のですし、これからもそうでしょう。だから言いますよ、神のご加護がありますように」
監房にいた事務員はおもわず手をたたきました。がすぐに間がわるくなって、火をかきまわ
84
し、最後のはかない暖を消し去ってしまいました。
「余計な音をもう少しでも立ててみろ」スクル–ジはどなりました。
「首になってクリスマスを迎えることになるぞ。まったくこうるさい奴だ、おまえは」と甥の
方をむくと、「国会議員にでもなったほうがよかろうよ」と言いすてました。
「おこらないでください、おじさん。さあ明日は僕らと一緒に夕食をとってください」
スクル–ジは、おまえが墓場に、確かにそう、まったくこの通り口にしたのだった、おまえが
墓場に落ちるところをみたいものだなと。
「どうしてなんです?」甥は叫びました。
「いったいどうして」
「どうしておまえは結婚したんだ?」
「恋に落ちたからです」
「恋に落ちたからとはな!」スクル–ジはまるでその言葉が、メリ–クリスマスより腹立たしい
唯一の言葉であるかのように吐き捨てた。
「ごきげんよう」
「でも、おじさん、結婚する前だって来てはくれなかったじゃないですか。どうして今になっ
て結婚したことが理由になるんです」
「ごきげんよう」
「べつにおじさんにどうこうしてもらうなんて思ってませんよ。たのんでもないでしょう、ど
うして仲良くできないんですか?」
「ごきげんよう」
「おじさんがそんなに頑固なのは本当に残念です。一度だって喧嘩したことはないじゃないで
すか、僕を相手にして。でも今回はクリスマスに敬意をはらってやってみたんです。だから
最後までクリスマスのき持ちを忘れないようにしますよ。メリ– クリスマス、おじさん」
「ごきげんよう」
「それによいお年を」
「ごきげんよう」にもかかわらず、甥はばとうに類する言葉はひとつも言わず部屋を後にしま
した。外へのドアの前で立ち止まり、事務員にもクリスマスの挨拶をすると、事務員も寒か
ったけれど、それでもスクル–ジよりは暖かい心をもっていました。というのは心をこめて
挨拶をかえしたからです。
Extract from Alice in Wonderland (unabridged), Used in the One-Shot Setting
そして「もしちゃんとあの子たちをかえるほうほうさえわかれば ――」とちょうど言った
とき、何メ–トルか先の木の大枝に、あのチェシャねこがすわっていたので、アリスはちょっ
とぎょっとしました。
ねこは、アリスを見てもニヤニヤしただけです。わるいねこではなさそうね、とアリスは思
いました。が、とってもながいツメに、とってもたくさんのはをしていたので、ちゃんと失
礼のないようにしないと、と思いました。
「チェシャにゃんこちゃん」とアリスは、ちょっとおずおずときりだしました。そういうよび
名をきに入ってくれるかどうか、さっぱりわからなかったからです。でも、ねこはニヤニヤ
笑いをもっとニッタリさせただけでした。
第章ぶたとコショウ「わ–い、今のところきげんがいいみたい」とアリスは思って、先をつづ
けました。
「おねがい、教えてちょうだい、あたしはここからどっちへいったらいいのかしら」
「それはかなり、あんたがどこへいきたいかによるなあ」とねこ。
「どこでもいいんですけど ――」とアリス。
「ならどっちへいってもかんけいないじゃん」とねこ。
「でもどっかへはつきたいんです」とアリスは、説明するようにつけくわえました。
「ああ、そりゃどっかへはつくよ、まちがいなく。たっぷりあるけばね」
アリスは、これはたしかにそのとおりだと思ったので、べつの質問をしてみました。
「ここらへんには、どんな人が住んでるんですか?」
「あっちの方向には」とねこは、右の前足をふりまわしました。
85
「帽子屋が住んでる。それとあっちの方向には」ともう片方の前足をふりまわします。
「三月うさぎが住んでる。すきなほうをたずねるといいよ。どっちもキチガイだけど」
「でも、キチガイのとこなんかいきたくない」とアリスはのべます。
「そいつはどうしようもないよ。ここらじゃみんなキチガイだもん。ぼくもキチガイ、あんた
もキチガイ」
「どうしてあたしがキチガイなんですか?」とアリス。
「ぜったいそうだよ。そうでなきゃここにはこない」とねこ。
アリスは、そんなのなんのしょうめいにもなってないとおもいました。でも、先をつづけま
す。
「じゃあ、あなたはどうしてキチガイなの?」
「まずだね、犬はキチガイじゃない。それはいい?」
「まあそうね」とアリス「すると、だ。犬は怒るとうなって、うれしいとしっぽをふるね。さ
て、ぼくはうれしいとうなって、怒るとしっぽをふる。よって、ぼくはキチガイ」
「それはうなるんじゃなくて、のどをならしてるっていうのよ」とアリス。
「お好きなように」とねこ。「女王さまと今日、クロケ–をするの?」
「したいのはやまやまだけど。でもまだしょうたいされてないの」
「そこで会おうね」といって、ねこは消えました。
アリスはたいしておどろきませんでした。へんてこなことがおきるのに、もうなれちゃった
からです。そしてねこがいたところを見ていると、いきなりまたあらわれました。
「ところでちなみに、赤ちゃんはどうなった?」とねこ。
「きくのわすれるとこだった」
「ぶたになっちゃった」とアリスは、ねこがふつうのやりかたでもどってきたのとかわらない
声で、しずかにいいました。
「だろうとおもった」ねこは、また消えました。
アリスはちょっとまってみました。ねこがまたでてくるかも、とおもったのです。が、でて
こなかったので、一分かそこらしてから、三月うさぎのすんでいるはずのほうにあるきだし
ました。
「帽子屋さんならみたことあるし、三月うさぎのほうがおもしろいわよね。それにいまは五月
だから、そんなすごくキチガイでないかもしれない ―― 三月ほどには」こういいながら、ふ
と目をあげると、またねこがいて木の枝にすわっています。
第章ぶたとコショウ「ぶたって言った、それともふた?」とねこ。
「ぶた。それと、そんなにいきなり出たり消えたりしないでくれる?くらくらしちゃうから」
「はいはい」とねこ。そしてこんどは、とてもゆっくり消えていきました。しっぽの先からは
じめて、さいごはニヤニヤわらい。ニヤニヤわらいは、ねこのほかのところが消えてからも、
しばらくのこっていました。アリスは思いました。
「あらま!ニヤニヤわらいなしのねこならよく見かけるけれど、でもねこなしのニヤニヤわら
いとはね!生まれて見た中で、一番へんてこなしろものだわ!」
Extract from Alice in Wonderland (abridged), Used in the One-Shot Setting
チェシャ–ネコが少し先にある木の枝にすわっていたのです。
ネコはアリスをみつけると、にっと笑いました。き立てのいいネコちゃんなのね、とアリス
は思いました。ただ、つめは長いし、はもたくさんあるので、ていねいに接したほうがよさ
そうです。
「チェシャ–ネコちゃん」
この呼び名をきに入ってくれるかしら、と考えながら、アリスはおそるおそる話しかけてみ
ました。するとチェシャ–ネコは、口をさらにへろげてにっこり笑いました。よかった、うれ
しそう。アリスはそう思い、話をつづけました。
「どっちに進んだらいいか、教えてくれる?」「それは、どこにいきたいかによるね」と、ネコ。
「どこでもいいんだけど–––」
「じゃあ、どっちに進んでもいいんじゃないか?」
86
「でも、どこかしらにはいきたいの」
アリスはいい足しました。
「たっぷりあるけば、どこかしらに着く」と、チェシャ–ネコその通りね、とアリスは思った
ので、こんどはべつの質問をしてみました。
「ここらへんには、どんな人が住んでるの?」
「あっちには」
ネコが前足をふります。
「ぼうし屋が住んでる。それで、あっちには」もう一方の前足をふります。
「三月ウサギが住んでいる。好きなほうに会いにいけばいいよ。どっちもいかれてるけどね」
「でも、いかれてる人たちには会いたくないわ」
「そりゃあ無理だ。だって、ここの住人はみんないかれてるんだから。ぼくもいかれてるし、
きみだって」
「わたしがいかれてるかどうかなんて、どうしてわかるの?」
「いかれてるにきまってるだろ? でなきゃ、ここにはきてないよ」
アリスはなっとくがいきませんでしたが、話をつづけました。
「チェンャ–ネコさんは、どうして自分がいかれてる、ってわかるの?」
「まずはじめにきくけど、イヌはいかれてないだろう?」
「そうね」
「イスは、おこるとうなる。うれしいとしっぽをふる。けど、ぼくはうれしいときにうなっ
て、おこったときにしっぽをふるんだ。だから、ぼくはいかれてる」
「ネコはごろごろ鳴くのよ。うなってるわけじゃないわ」
「どっちだっていいよ。今日、女王さまとクロッケ–をするのかい?」
「したいわ。でも、まだ招待状をもらってないの」
しまったいじょう「じゃあ、会場で会おう」
そういうと、ネコはこつぜんと消えてしまいました。でも、アリスは平然としています。へ
んなことが起こるのに、すっかり慣れっこになっていたのです。
アリスがネコのいたところをじっとみつめていると、ネコがまたとつぜん姿を現わしました。
「ところで、あの赤んぼうはどうした? あやうく、ききそびれるところだったよ」
ネコがたずねます。
「ブタになった」
アリスは、まるでネコがふつうに現れたかのように、落ちつきはらっていいました。
「やっぱりね」
ネコはそういうと、また消えてしまいました。
また現れるんじゃないかしら、と思ってアリスは待ってみましたが、すぐにあきらめて、三
月ウサギの住んでいるという方向にあるき出しました。
「ぼうしをうってるひとたちにはなん回かあったことがあるし、三月ウサギさんのほうがずっ
とおもしろそう。それに、いまは五月だからそれほどいかれてないんじゃない? 三月ほどひ
どくないはずよ」
アリスがそういって上をみると、枝の上にまたチェシャ–ネコがすわっていました。
「さっき、” ブタ”っていった? それとも” ふた”っていった?」と、ネコ。
「” ブタ’っていったの。それと、そんなふうに急に現れたり、消えたりしないで! くらくらし
ちゃうから!」
「わかった」
十五社ネコはそう答えると、今度はゆっくりと姿を消しました。しっぽから順に。最後にに
やにや笑いだけが残り、その口元は体の他の部分が消えてもしばらくちゅうにういていまし
た。
「にやにや笑いのないネコならなんどもみたことがあるけど、ネコのないにやにやいなんては
じめて! へんなの! こんなの、今までみたことがない!」
Text Generated in the Zero-Shot Setting
87
「メリ–クリスマス、おじさん!神さまのご加護がありますように!」と、スクル–ジの
甥(おい)が元きな声で言いました。彼は突然現れたので、スクル–ジは驚きました。
「ふん」とスクル–ジは言いました。「ばかばかしい」
外は霧と霜で冷えこんでいましたが、甥は急いでやってきたので体が暖かく、き分も良さ
そうでした。ほほは赤く、目は輝いていました。彼は白い息を吐きながら言いました。 「クリ
スマスがばかばかしいって?おじさん、それはどういう意味ですか?」
「そのままの意味だよ」とスクル–ジは答えました。「メリ–クリスマスだと?何のけんりが
あってお祝いするんだ?お前はそんなに貧乏なのに」
「ふ–ん、じゃあ、どうしておじさんはそんなに不機嫌なんですか?お金持ちなのに」と甥
は明るく答えました。
スクル–ジはすぐには答えられず、「ふん、ばかばかしい」とまた言いました。
「そんなに怒らないでくださいよ、おじさん」
「どうして怒らずにいられるんだ。この世の中には愚かな人間が多すぎるんだ。メリ–クリ
スマスだと?クリスマスなんて、金がなくて困るときじゃないか。また一年さいをとって、
でも少しも金持ちになっていないことにきづくときじゃないか。もしわしがきめられるなら」
とスクル–ジは怒りながら言いました。「メリ–クリスマスなんて言う馬鹿者は、プディングと
一緒に煮つめてやるべきだ!」
「おじさん、それはひどいですよ」と甥は言いました。
「甥よ」とスクル–ジは冷たく言いました。「お前はお前のクリスマスをたのしめ。わしはわ
しのやり方で過ごす」
「でも、おじさんは何もしてないじゃないですか」と甥は言いました。
「それでいいんだ」とスクル–ジは答えました。 「クリスマスなんて何もいいことがなかった
んだ」
「いや、いいことはたくさんありますよ」と甥は言いました。「クリスマスは特べつな日で
す。神さまの名前や起源を考えなくても、クリスマスは心を開いて、親切にして、許し合う
時です。人々が心を開いて、お互いを大切に思う、そんな日なんです。だから、神さまのご
加護がありますように」
そのとき、事務員が思わず拍手しましたが、すぐにきまずくなり、火をかき混ぜてしまい、
暖かさを消してしまいました。
「もう一度音を立ててみろ」とスクル–ジは怒鳴りました。 「首になってクリスマスを過ごす
ことになるぞ」と甥に向かって「お前は議員にでもなったほうがいい」と言いました。
「そんなに怒らないでくださいよ、おじさん。明日は僕たちと一緒に夕食を食べませんか?」
スクル–ジは冷たく言いました。「お前が墓場に落ちるところを見たいものだ」
「どうしてそんなことを言うんです?」と甥は叫びました。 「どうしてですか?」
「お前が結婚したからだ」
「恋に落ちたからです」と甥は答えました。
「恋に落ちたから?そんな馬鹿な!ごきげんよう」
「でもおじさん、僕が結婚する前だっておじさんは来てくれなかったじゃないですか。それ
がどうして今理由になるんですか?」
「ごきげんよう」
「おじさんに何もたのんでいませんよ。ただ、仲良くしたいだけです」
「ごきげんよう」
「おじさんがそんなに頑固なのは残念です。でも、クリスマスの精神を大切にします。メ
リ–クリスマス、おじさん」
「ごきげんよう」
「そして、良いお年を」
「ごきげんよう」
甥は何もわるい言葉を言わずに部屋を出て行きました。外に出る前に、事務員に「メリ–ク
リスマス」と挨拶しました。事務員も寒かったけれど、スクル–ジよりは暖かい心を持ってい
たので、心から「メリ–クリスマス」と返事をしました。
88
Text Generated in the One-Shot Setting
「メリ–クリスマス、おじさん。神さまが守ってくださいますように!」スクル–ジのお
いが、明るい声で言いました。その声は、急に聞こえたので、スクル–ジは驚きました。
「ふん」とスクル–ジは答えました。 「くだらない」
外は霧が出ていて、寒い朝でした。おいは寒い中、急いで来たので、顔が赤く、元きいっ
ぱいでした。「クリスマスがくだらない?どういう意味ですか? 」おいは言いました。「僕には
わかりません」
「そのままの意味だよ」とスクル–ジ。 「メリ–クリスマス?どうしてそんなことを祝うんだ?
お前は貧乏じゃないか」
「それなら、おじさん」とおいは笑顔で言いました。「どうしてそんなに不機嫌なんですか?
お金持ちなのに」
スクル–ジは答えに困り、「ふん」と言いました。 「くだらない」
「怒らないでくださいよ、おじさん」
「どうして怒らないでいられる?世の中はばかばかしいことでいっぱいだ。メリ–クリスマ
スだって?クリスマスは、金もないのに支はらいをしなきゃいけない時だ。また一年、年を
取るが、少しも金持ちになっていないことを知る時だ。もしわしの思い通りになるなら」と
スクル–ジは怒って言いました。「『メリ–クリスマス』なんて言うばか者は、プディングと一
緒に煮こんでやりたい」
「おじさんったら」とおいは言いました。
「お前はお前のやり方でクリスマスを祝えばいい。わしはわしのやり方があるから、ほっと
いてくれ」
「やり方ですって?おじさんは何もしないじゃないですか」
「ほっといてくれ、それでいいだろう。クリスマスはたのしいんだろう?今までもいいこと
がたくさんあったんだろうし」
「はい、たくさんありました。お金は えなかったけど、クリスマスはいつもたのしいです。
神さまの名前やクリスマスの意味を考えなくても、クリスマスは親切で、たのしい時だと思
います。人々が心を開いて、他の人々を友達のように感じる時です。クリスマスが僕にお金
をくれたことはないけど、それでもクリスマスは素晴らしいと思います。だから、神さまが
守ってくださいますように」
事務員が、思わず拍手をしましたが、すぐに火をかき回して暖かさを消してしまいました。
「もう一度音を立ててみろ」スクル–ジは叫びました。「クビにするぞ」とおいの方を向い
て、「国会議員にでもなった方がいいんじゃないか」と言いました。
「怒らないでくださいよ、おじさん。明日は僕たちと一緒に夕食をとりましょう」
スクル–ジは、「お前が墓場に落ちるところを見たいものだ」と言いました。
「どうしてですか?」おいは叫びました。 「どうしてそんなことを言うんですか?」
「どうしてお前は結婚したんだ?」
「恋に落ちたからです」
「恋に落ちたから?くだらない」とスクル–ジは言い捨てました。 「さようなら」
「でも、おじさん、結婚する前だって来てくれなかったじゃないですか。どうして結婚が理
由になるんですか」
「さようなら」
「べつにおじさんにどうこうしてもらおうとは思っていません。でも、仲良くできないんで
すか?」
「さようなら」
「おじさんがそんなに頑固なのは残念です。でも、クリスマスのき持ちを忘れずに、メリ–ク
リスマス、おじさん」
「さようなら」
「よいお年を」
「さようなら」
それでも、おいは怒らず、部屋を出ました。外に出る前に、事務員にクリスマスの挨拶を
しました。事務員も、スクル–ジよりは心が温かかったので、心をこめて挨拶を返しました。
89
Text Generated in the Chain-of-Thought Setting
「メリ–クリスマ ス、 おじ さん!神さ まの ご 加護があ ります ように、ね!」 と、 スクル–
ジの甥(おい)がげんきな声で言いました。彼は突然現れたので、スクル–ジは驚きまし
た。
「ふん」とスクル–ジは言いました。 「ばかばかしいな」
外は霧と霜で冷えこんでいましたが、甥は急いでやってきたので、体が暖かく、きぶんも良
さそうでした。ほほは赤く、目は輝いていました。彼は白い息を吐きながら言いました。 「ク
リスマスがばかばかしいって?おじさん、それはどういう意味ですか?」
「そのままの意味だよ」とスクル–ジは答えました。「メリ–クリスマスだと?何けんりがあ
ってお祝いするんだ?お前はそんなに貧乏なのに、ね」
「ふ–ん、じゃあ、どうしておじさんはそんなに不機嫌なんですか?お金持ちなのに」と甥
は明るく答えました。
スクル–ジはすぐには答えられず、「ふん、ばかばかしいな」とまた言いました。
「そんなに怒らないでくださいよ、おじさん」
「どうして怒らずにいられるんだ。この世の中には愚かな人間が多すぎるんだ。メリ–クリ
スマスだと?クリスマスなんて、金がなくて困るときじゃないか。わしがきめられるならな」
とスクル–ジは怒りながら言いました。 「メリ–クリスマスなんて言う馬鹿者は、プディングと
一緒に煮つめてやるべきだ!」
「おじさん、それはひどいですよ、ね」と甥は言いました。
「甥よ」とスクル–ジは冷たく言いました。 「お前はお前のクリスマスをたのしめ。わしはわ
しのやり方で過ごす」
「でも、おじさんは何もしてないじゃないですか」と甥は言いました。
「それでいいんだ」とスクル–ジは答えました。 「クリスマスなんて何もいいことがなかった
んだ、な」
「いや、いいことはたくさんありますよ」と甥は言いました。「クリスマスは特べつな日で
す。神さまの名前や起源を考えなくても、クリスマスは心を開いて、親切にして、許し合う
時です。人々が心を開いて、お互いを大切に思う、そんな日なんです、ね。だから、神さま
のご加護がありますように」
そのとき、事務員が思わず拍手しましたが、すぐにきまずくなり、火をかき混ぜてしまい、
暖かさを消してしまいました。
「もう一度音を立ててみろ」とスクル–ジは怒鳴りました。 「首になってクリスマスを過ごす
ことになるぞ」と甥に向かって「お前は議員にでもなったほうがいい」と言いました。
「そんなに怒らないでくださいよ、おじさん。明日は僕たちと一緒に夕食を食べませんか?」
スクル–ジは冷たく言いました。「お前が墓場に落ちるところを見たいものだ、ね」
「どうしてそんなことを言うんです?」と甥は叫びました。 「どうしてですか、ね? 」
「お前が結婚したからだ」
「恋に落ちたからです」と甥は答えました。
「恋に落ちたから?そんな馬鹿な!ごきげんよう」
「でもおじさん、僕が結婚する前だっておじさんは来てくれなかったじゃないですか。それ
がどうして今理由になるんですか?」
「ごきげんよう」
「おじさんに何もたのんでいませんよ。ただ、仲良くしたいだけです、ね」
「ごきげんよう」
「おじさんがそんなに頑固なのは残念です。でも、クリスマスの精神を大切にします。メ
リ–クリスマス、おじさん」
「ごきげんよう」
「そして、良いお年を」
「ごきげんよう」
90
甥は何もわるい言葉を言わずに部屋を出て行きました。外に出る前に、事務員に「メリ–ク
リスマス」と挨拶しました。事務員も寒かったけれど、スクル–ジよりは暖かい心を持ってい
たので、心から「メリ–クリスマス」と返事をしました。
B. Evaluation Protocol
Thank you for taking part in this evaluation, which is inscribed within the project“Dialogue in Abridged
Literary Texts in Japanese: Observations and Automatic Reproducibility.”
You have been assigned two texts to evaluate based on the provided criteria. The texts are automati-
cally abridged versions of the same extract from Charles Dickens’novel A Christmas Carol. Please fill
in the two tables independently by marking your answers with a tick or cross (or by circling the rele-
vant answer). The section Aesthetic Appeal is highly subjective; please provide your personal opinion.
You are welcome to write additional comments in the rightmost field.
This protocol is adapted from Mousavi et al. (2022). If you have any questions, please address them
to iglika.nikolova.stoupak@gmail.com
Answer Op- Comment (op-
Dimension/Question Definition
tions tional)
Understandability
Is the text generally un- Yes
The text is easy to understand. It is
derstandable (in terms Mostly Yes
free from overly complex words and
of storyline, vocabulary, Mostly No
sentence constructions.
and syntax)? No
Correctness
Does the text exhibit Yes There are no non-existent or irrelevant
correct vocabulary, Mostly Yes words, grammatical mistakes, mis-
grammar, punctuation, Mostly No takes in punctuation, or non-optimal
and structure? No paragraph/sentence structure.
Consistency
The text maintains the same gen-
Is the text consistent in Yes
re/level of formality, verb tenses, char-
terms of register, writ- Mostly Yes
acter traits, and knowledge. There are
ing style, and the infor- Mostly No
no contradictions in the presented in-
mation presented? No
formation.
Textual Coherence
Are textual transitions The text flows fluently between sen-
Yes
present and natural? Is tences (paragraphs). There are no un-
Mostly Yes
anaphora clearly resolv- clear anaphora referents. Information
Mostly No
able? Is the text free of (incl. separate words) is not overly re-
No
needless repetition? peated.
Aesthetic Appeal
Does the text have ap- Yes The text feels neither too long nor too
propriate length, pac- Mostly Yes short. Appropriate textual length is ac-
ing, style, and register? Mostly No corded to plot segments. Formality lev-
Is the text engaging? No els are natural.
C. Prompts Used
Zero-Shot Setting
Here is an extract from the novel A Christmas Carol by Charles Dickens, as translated into
Japanese. Please generate an abridged version of this extract that is suitable for an audience of
91
learners of Japanese as a foreign language at an intermediate level.
{text}
One-Shot Setting
{the prompt for the zero-shot setting}
Please see below an example of an original and a well-abridged version of an extract from a
novel.
{unabridged example}
{abridged example}
Chain-of-Thought Setting
Here is an extract from the novel A Christmas Carol by Charles Dickens, as translated into
Japanese.
{text} You previously provided me with the following abridged version of it:
{zero-shot output}
Could you please make the following small modifications in the text, whilst trying to alter it as little
as possible:
- Make the sentences in the dialogue parts a little shorter (in terms of number of words).
- Include a larger variety of end-of-sentence particles in the dialogue, such as ne and na.
92