=Paper= {{Paper |id=Vol-1313/paper_15 |storemode=property |title=Dominanzproblem bei der Nutzung von Multi-Feature-Ansätzen |pdfUrl=https://ceur-ws.org/Vol-1313/paper_15.pdf |volume=Vol-1313 |dblpUrl=https://dblp.org/rec/conf/gvd/BottcherS14 }} ==Dominanzproblem bei der Nutzung von Multi-Feature-Ansätzen== https://ceur-ws.org/Vol-1313/paper_15.pdf
                         Dominanzproblem bei der Nutzung von
                               Multi-Feature-Ansätzen

                           Thomas Böttcher                                                 Ingo Schmitt
             Technical University Cottbus-Senftenberg                       Technical University Cottbus-Senftenberg
               Walther-Pauer-Str. 2, 03046 Cottbus                            Walther-Pauer-Str. 2, 03046 Cottbus
                     tboettcher@tu-cottbus.de                                       schmitt@tu-cottbus.de


ABSTRACT
Ein Vergleich von Objekten anhand unterschiedlicher Eigen-
schaften liefert auch unterschiedliche Ergebnisse. Zahlreiche
Arbeiten haben gezeigt, dass die Verwendung von mehreren
Eigenschaften signifikante Verbesserungen im Bereich des
Retrievals erzielen kann. Ein großes Problem bei der Verwen-              Figure 1: Unterschiedliche Objekte mit sehr hoher
dung mehrerer Eigenschaften ist jedoch die Vergleichbarkeit               Farbähnlichkeit
der Einzeleigenschaften in Bezug auf die Aggregation. Häu-
fig wird eine Eigenschaft von einer anderen dominiert. Viele
Normalisierungsansätze versuchen dieses Problem zu lösen,               von Eigenschaften erfolgt mittels eines Distanz- bzw. Ähn-
nutzen aber nur eingeschränkte Informationen. In dieser Ar-              lichkeitsmaßes1 . Bei der Verwendung mehrerer Eigenschaf-
beit werden wir einen Ansatz vorstellen, der die Messung des              ten lassen sich Distanzen mittels einer Aggregationsfunktion
Grades der Dominanz erlaubt und somit auch eine Evaluie-                  verknüpfen und zu einer Gesamtdistanz zusammenfassen.
rung verschiedener Normalisierungsansätze.                               Der Einsatz von unterschiedlichen Distanzmaßen und Ag-
                                                                          gregationsfunktionen bringt jedoch verschiedene Probleme
                                                                          mit sich:
Keywords                                                                  Verschiedene Distanzmaße erfüllen unterschiedliche alge-
Dominanz, Score-Normalisierung, Aggregation, Feature                      braische Eigenschaften und nicht alle Distanzmaße sind für
                                                                          spezielle Probleme gleich geeignet. So erfordern Ansätze
                                                                          zu metrischen Indexverfahren oder Algorithmen im Data-
1.    EINLEITUNG                                                          Mining die Erfüllung der Dreiecksungleichung. Weitere Pro-
Im Bereich des Information-Retrievals (IR), Multimedia-                   bleme können durch die Eigenschaften der Aggregations-
Retrievals (MMR), Data-Mining (DM) und vielen anderen                     funktion auftreten. So kann diese z.B. die Monotonie oder
Gebieten ist ein Vergleich von Objekten essentiell, z.B. zur              andere algebraische Eigenschaften der Einzeldistanzmaße
Erkennung ähnlicher Objekte bzw. Duplikate oder zur Klas-                zerstören. Diese Probleme sollen jedoch nicht im Fokus die-
sifizierung der untersuchten Objekte. Der Vergleich von Ob-               ser Arbeit stehen.
jekten einer Objektmenge O basiert dabei in der Regel auf                 Für einen Ähnlichkeitsvergleich von Objekten anhand meh-
deren Eigenschaftswerten. Im Bereich des MMR sind Eigen-                  rerer Merkmale wird erwartet, dass die Einzelmerkmale glei-
schaften (Features) wie Farben, Kanten oder Texturen häu-                chermaßen das Aggregationsergebnis beeinflussen. Häufig
fig genutzte Merkmale. In vielen Fällen genügt es für einen            gibt es jedoch ein Ungleichgewicht, welches die Ergebnisse
erschöpfenden Vergleich von Objekten nicht, nur eine Eigen-              so stark beeinflusst, dass einzelne Merkmale keinen oder nur
schaft zu verwenden. Abbildung 1 zeigt anhand des Beispiels               einen geringen Einfluss besitzen. Fehlen algebraische Eigen-
eines Farbhistogramms die Schwächen einer einzelnen Eigen-               schaften oder gibt es eine zu starke Dominanz, so können die
schaft. Obwohl beide Objekte sich deutlich unterscheiden so               Merkmale und dazugehörigen Distanzmaße nicht mehr sinn-
weisen sie ein sehr ähnliches Farbhistogramm auf.                        voll innerhalb einer geeigneten Merkmalskombination einge-
Statt einer Eigenschaft sollte vielmehr eine geeignete Kombi-             setzt werden. Im Bereich der Bildanalyse werden zudem im-
nation verschiedener Merkmale genutzt werden, um mittels                  mer komplexere Eigenschaften aus den Bilddaten extrahiert.
einer verbesserten Ausdruckskraft [16] genauere Ergebnissen               Damit wird auch die Berechnung der Distanzen basierend
zu erzielen. Der (paarweise) Vergleich von Objekten anhand                auf diesen Eigenschaften immer spezieller und es kann nicht
                                                                          sichergestellt werden welche algebraische Eigenschaften er-
                                                                          füllt werden. Durch die vermehrte Verwendung von vielen
                                                                          Einzelmerkmalen steigt auch das Risiko der Dominanz eines
                                                                          oder weniger Merkmale.
                                                                          Kernfokus dieser Arbeit ist dabei die Analyse von Multi-
                                                                          Feature-Aggregationen in Bezug auf die Dominanz einzelner
Copyright © by the paper’s authors. Copying permitted only
for private and academic purposes.                                        Merkmale. Wir werden zunächst die Dominanz einer Eigen-
In: G. Specht, H. Gamper, F. Klan (eds.): Proceedings of the 26th GI-     1
Workshop on Foundations of Databases (Grundlagen von Datenbanken),          Beide lassen sich ineinander überführen [Sch06], im Folgen-
21.10.2014 - 24.10.2014, Bozen, Italy, published at http://ceur-ws.org.   den gehen wir daher von Distanzmaßen aus.
schaft definieren und zeigen wann sich eine solche Dominanz                 Beispiel erläutert werden. Abschließend werden wir ein Maß
manifestiert. Anschließend führen wir ein Maß zur Messung                  definieren, um den Grad der Dominanz messen zu können.
des Dominanzgrades ein. Wir werden darüber hinaus zei-
gen, dass die Ansätze bestehender Normalisierungsverfah-                   3.1    Problemdefinition
ren nicht immer ausreichen um das Problem der Dominanz                      Wie bereits erwähnt ist der Einsatz vieler, unterschiedlicher
zu lösen. Zusätzlich ermöglicht dieses Maß die Evaluation                Eigenschaften (Features) und ihrer teilweise speziellen Di-
verschiedener Normalisierungsansätze.                                      stanzmaße nicht trivial und bringt einige Herausforderungen
Die Arbeit ist dabei wie folgt aufgebaut. In Kapitel 2 werden               mit sich. Das Problem der Dominanz soll in diesem Unter-
noch einmal einige Grundlagen zur Distanzfunktion und zur                   abschnitt noch einmal genauer definiert werden.
Aggregation dargelegt. Kapitel 3 beschäftigt sich mit der                     Zunächst definieren wir das Kernproblem bei der Aggre-
Definition der Dominanz und zeigt anhand eines Beispiels                    gation mehrerer Distanzwerte.
die Auswirkungen. Weiterhin wird ein neues Maß zur Mes-                        Problem: Für einen Ähnlichkeitsvergleich von Objekten
sung des Dominanzgrades vorgestellt. Kapitel 4 liefert einen                anhand mehrerer Merkmale sollen die Einzelmerkmale glei-
Überblick über bestehende Ansätze. Kapitel 5 gibt eine Zu-               chermaßen das Aggregationsergebnis beeinflussen. Dominie-
                                                                                                            j
sammenfassung und einen Ausblick für zukünftige Arbeiten.                 ren die partiellen Distanzen δrs   eines Distanzmaßes dj das
                                                                            Aggregationsergebnis, so soll diese Dominanz reduziert bzw.
2.    GRUNDLAGEN                                                            beseitigt werden.
                                                                            Offen ist an dieser Stelle die Frage, wann eine Dominanz ei-
Das folgende Kapitel definiert die grundlegenden Begriffe                   ner Eigenschaft auftritt, wie sich diese auf das Aggregations-
und die Notationen, die in dieser Arbeit verwendet werden.                  ergebnis auswirkt und wie der Grad der Dominanz gemessen
Distanzberechnungen auf unterschiedlichen Merkmalen er-                     werden kann.
fordern in der Regel auch den Einsatz unterschiedlicher Di-                 Das Ergebnis einer Aggregation von Einzeldistanzwerten ist
stanzmaße. Diese sind in vielen Fällen speziell auf die Eigen-             erneut ein Distanzwert. Dieser soll jedoch von allen Einzeldi-
schaft selbst optimiert bzw. angepasst. Für eine Distanzbe-                stanzwerten gleichermaßen abhängen. Ist der Wertebereich,
rechnung auf mehreren Merkmalen werden dementsprechend                      der zur Aggregation verwendeten Distanzfunktionen nicht
auch unterschiedliche Distanzmaße benötigt.                                identisch, so kann eine Verfälschung des Aggregationsergeb-
Ein Distanzmaß zwischen zwei Objekten basierend auf einer                   nisses auftreten. Als einfaches Beispiel seien hier zwei Di-
Eigenschaft p sei als eine Funktion d : O × O 7→ R≥0 defi-                  stanzfunktionen d1 und d2 genannt, wobei d1 alle Distanzen
niert. Ein Distanzwert basierend auf einem Objektvergleich                  auf das Intervall [0, 1] und d2 alle Distanzen auf [0, 128] ab-
zwischen or und os über einer einzelnen Eigenschaft pj wird                bildet. Betrachtet man nun eine Aggregationsfunktion dagg ,
mit dj (or , os ) ∈ R≥0 beschrieben. Unterschiedliche Distanz-              die Einzeldistanzen aufsummiert, so zeigt sich, dass d2 das
maße besitzen damit auch unterschiedliche Eigenschaften.                    Aggregationsergebnis erheblich mehr beeinflusst als d1 .
Zur Klassifikation der unterschiedlichen Distanzmaße wer-                   Allgemein werden dann die aggregierten Distanzwerte stär-
den folgende vier Eigenschaften genutzt:                                    ker oder schwächer durch Einzeldistanzwerte einer (zur Ag-
Selbstidentität: ∀o ∈ O : d(o, o) = 0, Positivität: ∀or 6=                gregation verwendeten) Distanzfunktion beeinflusst als ge-
os ∈ O : d(or , os ) > 0, Symmetrie: ∀or , os ∈ O :                         wünscht. Wir bezeichnen diesen Effekt als eine Überwer-
d(or , os ) = d(os , or ) und Dreiecksungleichung: ∀or , os , ot ∈          tung. Der Grad der Überbewertung lässt sich mittels Korre-
O : d(or , ot ) ≤ d(or , os ) + d(os , ot ).                                lationsanalyse (z.B. nach Pearson [10] oder Spearman [13])
Erfüllt eine Distanzfunktion alle vier Eigenschaften so wird               bestimmen.
sie als Metrik bezeichnet [11].
Ist der Vergleich zweier Objekte anhand einer einzelnen Ei-                    Definition 1 (Überbewertung einer Distanzfunktion).
genschaft nicht mehr ausreichend, um die gewünschte (Un-)                  Für zwei Distanzfunktionen dj und dk , bei der die Distanz-
Ähnlichkeit für zwei Objekte or ,os ∈ O zu bestimmen , so                 werte δ j in Abhängigkeit einer Aggregationsfunktion agg
ist die Verwendung mehrerer Eigenschaften nötig. Für ei-                  das Aggregationsergebnis stärker beeinflussen als δ k , also
ne Distanzberechnung mit m Eigenschaften p = (p1 . . . pm )                 die Differenz der Korrelationswerte
                                                       j
werden zunächst die partiellen Distanzen δrs             = dj (or , os )   ρ(δ j , δ agg ) − ρ(δ k , δ agg ) >  ist, bezeichnen wir dj als
bestimmt. Anschließend werden die partiellen Distanzwerte                   überbewertet gegenüber dk .
  j
δrs  mittels einer Aggregationsfunktion agg : Rm           ≥0 7→ R≥0
zu einer Gesamtdistanz aggregiert. Die Menge aller aggre-                   Eine empirische Untersuchung hat gezeigt, dass sich ab ei-
gierten Distanzen (Dreiecksmatrix) für Objektpaar aus O,                   nem Wert  ≥ 0.2 eine Beeinträchtigung des Aggregations-
                                                  2
sei durch δ j = (δ1j , δ2j . . . , δlj ) mit l = n 2−n bestimmt. Die-       ergebnisses zu Gunsten einer Distanzfunktion zeigt.
ser Ansatz erlaubt eine Bestimmung der Aggregation auf                      Ausgehend von einer Überbewertung definieren wir das Pro-
den jeweiligen Einzeldistanzwerten. Die Einzeldistanzfunk-                  blem der Dominanz.
tionen dj sind in sich geschlossen und damit optimiert auf
die Eigenschaft selbst.                                                        Definition 2 (Dominanzproblem). Ein Dominanzpro-
                                                                            blem liegt vor, wenn es eine Überbewertung einer Distanz-
                                                                            funktion dj gegenüber dk gibt.
3.    DOMINANZPROBLEM
Bisher haben wir das Problem der Dominanz nur kurz ein-                     Das Problem einer Überbewertung bei unterschiedlichen
geführt. Eine detaillierte Motivation und Heranführung an                 Wertebereichen in denen die Distanzen abgebildet werden ist
das Problem soll in diesem Kapitel erfolgen. Hierzu werden                  jedoch bereits weitreichend bekannt. In vielen Fällen kom-
wir zunächst die Begriffe Überbewertung und Dominanzpro-                  men Normalisierungsverfahren (z.B. im Data-Mining [12]
blem einführen. Die Auswirkungen des Dominanzproblem                       oder in der Biometrie [5]) zum Einsatz. Diese bereiten Di-
auf das Aggregationsergebnis sollen anschließend durch ein                  stanzen aus verschiedenen Quellen für eine Aggregation vor.
Zur Vermeidung einer Überbewertung werden Distanzen                                             aggQd ,d (or , os ) = d1 (or , os ) ∗ d2 (or , os ) kann nun gezeigt
                                                                                                        1 2
häufig auf ein festes Intervall normalisiert (i.d.R. auf [0,1]).                                werden, dass d1 stärker den aggregierten Distanzwert beein-
Damit ist zumindest das Problem in unserem vorherigen Bei-                                       flusst als d2 .
spiel gelöst.                                                                                   In Abbildung 3 sind zwei verschiedene Rangfolgen aller 10
Das Problem der Dominanz tritt jedoch nicht nur bei un-                                          Distanzwerte zwischen fünf zufälligen Objekten der Vertei-
terschiedlichen Wertebereichen auf. Auch bei Distanzfunk-                                        lungen ν1 und ν2 dargestellt, sowie die Aggregation mittels
tionen, die alle auf den gleichen Wertebereich normalisiert                                      aggQ . Die Distanz-ID definiert hierbei einen Identifikator
sind, kann das Dominanzproblem auftreten. Im folgenden                                           für ein Objektpaar. Betrachtet man die ersten fünf Rän-
Abschnitt soll anhand eines Beispiels dieses Dominanzpro-                                        ge der aggregierten Distanzen, so sieht man, dass die top-
blem demonstriert werden.                                                                        5-Objekte von Distanzfunktion d1 komplett mit denen der
                                                                                                 Aggregation übereinstimmen, während bei Distanzfunktion
3.2      Beispiel eines Dominanzproblems                                                         d2 lediglich zwei Werte in der Rangfolge der aggregierten
In Abbildung 2 sind drei Distanzverteilungen ν1 , ν2 und ν3                                      Distanzen auftreten. Gleiches gilt für die Ränge 6–10. Da-
aus einer Stichprobe zu den zugehörigen Distanzfunktionen                                       mit zeigt die Distanzfunktion d1 eine Dominanz gegenüber
d1 , d2 sowie d3 dargestellt. Der Wertebereich der Funktio-                                      der Distanzfunktion d2 . Schaut man sich noch einmal die
nen sei auf das Intervall [0,1] definiert. Die Werte aus der                                     Intervalle der Verteilung ν1 und ν2 an, so zeigt sich, dass die
Stichprobe treten ungeachtet der Normalisierung auf [0, 1]                                       Dominanz dem großen Unterschied der Verteilungsintervalle
jedoch in unterschiedlichen Intervallen auf. Die Distanzwer-                                     (0.7 vs. 0.2) obliegt. Eine Dominanz manifestiert sich also
te der Stichprobe von ν1 liegen im Intervall [0.2, 0.9], von ν2                                  vor allem wenn eine große Differenz zwischen den jeweiligen
im Intervall [0.3, 0.5] und in ν3 im Intervall [0.8, 0.9]. Auch                                  Intervallen der Distanzverteilungen liegt.
wenn es sich hierbei um simulierte Daten handelt so sind
solche Verteilungen im Bereich des MMR häufig anzutref-                                         3.3    Messung der Dominanz
fen.                                                                                             Um die Überwertung aus unserem Beispiel und somit die
                        0.12                                                                     Dominanz zu quantifizieren, wird die Korrelation zwischen
                         0.1
                                                                                                 den Distanzen von d1 (d2 ) und der aggregierten Distanzen
                                                                                                 aus dagg bestimmt. Zur Berechnung der Korrelation kön-
                                                                                                 nen mehrere Verfahren genutzt werden. Verwendet man wie
                        0.08
           Häufigkeit




                        0.06
                                                                                                 im obigen Beispiel nur die Ränge, so bietet sich Spearmans
                        0.04
                                                                                                 Rangkorrelationskoeffizient an [13].
                        0.02
                                                                                                                        Cov(Rang(A), Rang(B))
                                                                                                            ρ(A, B) =                         mit
                          0
                               0   0.1   0.2   0.3   0.4      0.5    0.6   0.7   0.8   0.9   1
                                                                                                                          σRang(A) ∗ σRang(B)                    (1)
                                                           Distanz
                                                     (a) ν1                                                   Cov(X, Y ) = E [(X − µx ) ∗ (Y − µy )]
                        0.12
                                                                                                 Hierbei sei Cov(X, Y ) die über den Erwartungswert von X
                         0.1
                                                                                                 und Y definierte Kovarianz. Bezogen auf das vorherige Bei-
                                                                                                 spiel erhalten wir eine Korrelation nach Spearman für d1 von
                                                                                                 ρ1 = 0.94 und für d2 ρ2 = 0.45. Die Differenz der Korrela-
                        0.08
           Häufigkeit




                        0.06
                                                                                                 tionswerte liegt dabei bei ρ1 − ρ2 = 0.49. Ab  = 0.2 lässt
                        0.04
                                                                                                 sich eine Überbewertung einer Distanzfunktion feststellen.
                        0.02
                                                                                                 Somit haben wir mit ρ1 − ρ2 = 0.49 > 0.2 eine starke Über-
                                                                                                 bewertung von d1 gegenüber d2 in Bezug auf das Aggrega-
                           0
                               0   0.1   0.2   0.3   0.4      0.5


                                                           Distanz
                                                                     0.6   0.7   0.8   0.9   1
                                                                                                 tionsergebnis gezeigt.
                                                     (b) ν2                                      Durch die Verwendung der Rangwerte gibt es allerdings
                                                                                                 einen Informationsverlust. Eine alternative Berechnung ohne
                        0.12
                                                                                                 Informationsverlust wäre durch Pearsons Korrelationskoeffi-
                         0.1                                                                     zienten möglich [10]. Genügen die Ranginformationen, dann
                        0.08
                                                                                                 bietet Spearmans Rangkorrelationskoeffizient durch eine ge-
           Häufigkeit




                                                                                                 ringere Anfälligkeit gegenüber Ausreißern an [14].
                        0.06

                                                                                                 Bisher haben wir die Korrelation zwischen den aggregier-
                        0.04                                                                     ten Werten und denen aus je einer Distanzverteilung vergli-
                        0.02
                                                                                                 chen. Um direkt eine Beziehung zwischen zwei verschiede-
                                                                                                 nen Distanzverteilungen bzgl. einer aggregierten Verteilung
                                                                                                 zu bestimmen, werden zunächst die zwei Korrelationswerte
                          0
                               0   0.1   0.2   0.3   0.4      0.5    0.6   0.7   0.8   0.9   1


                                                           Distanz
                                                     (c) ν3                                      ρ1 und ρ2 der Distanzfunktionen d1 und d2 bzgl. ihres Ein-
                                                                                                 flusses auf das Aggregationsergebnis graphisch dargestellt
                                                                                                 [6]. Hierzu werden die jeweiligen Werte der Korrelation als
Figure 2: Distanzverteilung verschiedener Distanz-
                                                                                                 Punkte in [−1, 1]2 definiert. Für eine gleichmäßige Beein-
funktionen (simulierte Daten)
                                                                                                 flussung des Aggregationsergebnisses sollten sich die Punk-
                                                                                                 te auf der Diagonalen durch den Koordinatenursprung mit
Wir betrachten nun die Distanzfunktionen d1 und d2 . Be-
züglich einer beispielhaften Aggregationsfunktion2                                              gationsfunktionen wie Summe, Mittelwert etc. auf und kann
                                                                                                 zusätzlich eine Dominanz hervorrufen, z.B. bei der Mini-
2
    Das Problem der Dominanz tritt auch bei anderen Aggre-                                       mum/Maximumfunktion.
                                                                                                                     1
   Rang         d1      Distanz-ID           d2         Distanz-ID            aggQ    Distanz-ID
      1       0.729             1          0.487               8              0.347          8                      0.8


      2       0.712             8          0.481               5              0.285          4
      3       0.694             4          0.426              10              0.266          1                      0.6

      4       0.547             9          0.425               7              0.235          5                 ρ2

                                                                                                                                                                     (ρ1, ρ2)
      5       0.488             5          0.421               3              0.205          9                      0.4

      6       0.473             7          0.411               4              0.201          7                                                u
      7       0.394            10          0.375               9              0.168          10                     0.2

      8       0.351             3          0.367               6              0.148          3                                     α
      9       0.337             2          0.365               1              0.112          6                       0
                                                                                                                          0      0.2    0.4            0.6     0.8              1
      10      0.306             6          0.316               2              0.106          2                                                    ρ1




       Figure 3: Dominanzproblem bei unterschiedlichen Verteilungen                                           Figure 4: Graphische Darstellung
                                                                                                              der Korrelation ρ1 und ρ2 auf das
                                                                                                              Aggregationsergebnis


dem Anstieg m = 1 befinden. Wir bezeichnen diese Gerade                                 3.4        Zusammenfassung
als Kalibrierungslinie. Für unser Beispiel genügt es, nur po-                         Wir haben in diesem Kapitel gezeigt wann ein Dominanz-
sitive Korrelationswerte zu betrachten. Damit kennzeichnen                              problem auftritt und wie groß der Einfluss auf das Aggrega-
alle Punkte unterhalb dieser Linie einen größeren Einfluss                             tionsergebnis sein kann. Mit der Verwendung von Gleichung
durch d1 . Analog gilt bei allen Punkten oberhalb dieser Li-                            (2) ist es nun möglich den Grad des Dominanzproblems bzw.
nie (grau schraffierter Bereich) eine größere Beeinflussung                            den Kalibrierungsfehler messen zu können. Ein Hauptgrund
durch d2 . Abbildung 4 zeigt graphisch die Korrelation für                             für das Auftreten des Dominanzproblem liegt in der Vertei-
unser Beispiel von ρ1 und ρ2 auf das Aggregationsergebnis.                              lung der Distanzen. Sind die Intervalle, in denen die Distan-
Um die Abweichung vom gewünschten Zustand zu bestim-                                   zen liegen unterschiedlich groß, so ist die Dominanz einer
men, ermitteln wir den Winkel zwischen dem Ortsvektor                                   Eigenschaft unvermeidbar. Können diese Intervalle der Di-
u = (ρ1 , ρ2 )T durch den Punkt (ρ1 , ρ2 ) und der horizon-
~                                                                                       stanzverteilungen aneinander angeglichen werden ohne da-
talen Koordinatenachse
                     [6]. Der Winkel α ergibt sich dann                               bei die Rangfolge zu verletzen, so könnte dies das Dominanz-
durch α = arctan ρρ21 Dieser Winkel liegt zwischen [0, Π 2
                                                           ],                           problem lösen. Weiterhin ermöglicht das Maß des Kalibrie-
während die Kalibrierungslinie mit der horizontalen Ach-                               rungsfehlers die Evaluation von Normalisierungsansätzen.
se einen Winkel von Π 4
                        einschließt. Für eine vorzeichenbe-
haftete Kennzeichnung der Überbewertung sollen nun alle                                4.        STAND DER TECHNIK
Korrelationspunkte unterhalb der Kalibrierungslinie einen                               Die Aggregation auf Basis mehrerer Eigenschaften ist ein
positiven Wert und alle Korrelationspunkte oberhalb einen                               weit verbreitetes Feld. Es gibt bereits eine Vielzahl von Ar-
negativen Wert erhalten. Für ein Maß der Dominanz defi-                                beiten die sich mit dem Thema der Score-Normalization be-
nieren wir nun folgende Berechnung [6]:                                                 schäftigten. Die Evaluierung solcher Ansätze erfolgt in vielen
                                                                                        Fällen, vor allem im Bereich des IR, direkt über die Auswer-
                                                                                        tung der Qualität der Suchergebnisse anhand verschiedener
                                                     Corr(δ j , δ agg )
                                                                         
                                      4
  Calerr (δ i , δ j , δ agg ) = 1 −     arctan                                 (2)      Dokumentenkollektionen, z.B. TREC-Kollektionen3 . Dieses
                                      π              Corr(δ i , δ agg )                 Vorgehen liefert aber kaum Anhaltspunkte, warum sich ei-
                                                                                        nige Normalisierungsansätze besser für bestimmte Anwen-
Hierbei definiert Corr(X, Y ) ein geeignetes Korrelations-
                                                                                        dungen eignen als andere [6].
maß, in unserem Fall der Rangkorrelationskoeffizient von
                                                                                        Betrachten wir zunächst verschiedene lineare Normalisierun-
Spearman. Wir bezeichnen dieses Maß als Kalibrierungsfeh-                                                                             δ−xmin
                                                                                        gen der Form normalize(δ) = ymin + xmax                 (ymax −
ler, wobei ein Fehler von 0 bedeutet, dass es keine Dominanz                                                                             −xmin

gibt und somit beide Distanzfunktionen gleichermaßen in                                 ymin ) [15], wobei die Bezeichnungen xmin , xmax , ymin und
das Aggregationsergebnis einfließen. Der Wertebereich des                               ymax verschiedene Normalisierungsparameter darstellen. Ta-
Kalibrierungsfehlers Calerr liegt in [−1, 1]. Für unser Bei-                           belle 1 stellt einige solcher linearer Ansätze dar [15, 5, 9, 6].
spiel erhalten wir unter Verwendung von Spearmans Rang-
korrelationskoeffizienten Calerr (d1 , d2 , dagg ) = 0.43, womit
erkennbar ist, dass d1 das Aggregationsergebnis stärker be-                                      Name      ymin          ymax         xmin                  xmax
einflusst als d2 .                                                                                Min-Max   0             1            min(δ)                max(δ)
                                                                                                  Fitting   0