<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Zuverlässige und Schnelle Erzeugung von Zufallsnetzwerken für Evaluationszwecke</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Darko Obradovic´</string-name>
          <email>darko.obradovic@dfki.uni-kl.de</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Wolfgang Schlauch</string-name>
          <email>wolfgang.schlauch@dfki.uni-kl.de</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>AG Wissensbasierte Systeme</institution>
          ,
          <addr-line>Fachbereich Informatik, TU Kaiserslautern Kaiserslautern</addr-line>
          ,
          <country country="DE">Germany</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>- Die Analyse von Netzwerken hat in der Soziologie seit dem 20. Jahrhundert einen hohen Stellenwert, ist aber auch für andere Disziplinen interessant. Zum Beispiel bei der Untersuchung von neuronale Netzen oder DNA-Transkriptionen in der Biologie. Für die Evaluation von Mustern gibt es verschiedene Methoden, wobei wir in dieser Arbeit den Fokus auf den statistischen Vergleich des realen Netzwerks mit gleichartigen Zufallsnetzwerken legen, da diese in besonderem Maße objetive Aussagen liefern kann. Für diese Methode existieren zwei Verfahren mit verschiedenen Unzulänglichkeiten, welche beide nicht in allen Fällen zuverlässig machen. Für das Markov-Ketten Monte-Carlo Verfahren versuchen wir, das offene Problem einer effizienten, aber auch zuverlässigen Schrittzahl mit einem neuen Ansatz anzugehen. Das Idee besteht darin, eine möglichst exakte Berechnung dieser Schrittzahl für bestimmte KLassen von Netzwerken über ein Modell der Markov-Kette zu erreichen. Sollte uns das in unserer zukünftigen Arbeit fundiert gelingen, wäre dies der bisherigen empirischen Methode deutlich überlegen.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>I. EINFÜHRUNG</title>
      <p>
        In diesem Papier beschäftigen wir uns mit der Analyse
von Netzwerkstrukturen, welche theoretisch stark in der
Graphentheorie der Mathematik verwurzelt ist, praktisch aber vor
allem durch die Untersuchung von sozialen Netzwerken
vorangetrieben wird [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Trotz der Fokussierung dieser Disziplin
auf soziale Netzwerke, woher sie auch ihren Namen Soziale
Netzwerkanalyse (SNA) erhielt, lassen sich die Methoden auf
jede andere Disziplin übertragen, welche ihre zu
analysierenden Strukturen in Netzwerken repräsentieren kann. Folglich
zeigten sich auch schon erste Anwendungen der Biologie in
Neuronalen- oder Gen-Netzwerken.
      </p>
      <sec id="sec-1-1">
        <title>A. Historie der Sozialen Netzwerkanalyse [2]</title>
        <p>Ende der 1930er Jahre tauchte bei John Moreno erstmals
das Konzept des Soziogramms auf, mit dem er soziale
Beziehungen formalisierte, um sie danach methodisch zu
untersuchen. Im Jahre 1954 wurde der Term „Soziales Netzwerk“von
J. A. Barnes als ein feststehender Ausdruck verwendet, um
sich wiederholende Strukturen in verschiedenen
Gruppierungen zu beschreiben, zum Beispiel in Stämmen, Familien oder
auch in sozialen Kategorien.</p>
        <p>Seitdem ging es mit der Untersuchung von sozialen
Netzwerken langsam, aber stetig, weiter. Einerseits untersuchte
Harrison White mit seiner Studiengruppe an der Harvard
University, Department of Social Relations, dieses Themengebiet
auf einer sozialen Ebene, während Charles Tilly sich mit
sozialen Bewegungen und politischen Netzwerken
beschäftigte. Besondere Erwähnung verdient insbesondere Stanley
Milgram, der mit der These des Kleinen-Welt-Phänomens die
Untersuchung der sozialen Netzwerke vorantrieb und durch
die These, dass in den USA jeder Mensch mit jedem anderen
über durchschnittlich sechs Verbindungen bekannt sei, großes
Interesse erweckte, auch wenn dieses Experiment methodisch
stark umstritten ist.</p>
        <p>
          Durch Duncan J. Watts und Steven H. Strogatz wurde
das Kleine-Welt-Phänomen 1998 weiter untersucht [
          <xref ref-type="bibr" rid="ref3">3</xref>
          ]. Sie
brachten interessante neue Ergebnisse hervor im Bezug auf
bestimmte Effekte wie den Abstand zweier Knoten
voneinander. Sie nahmen in der realen Welt vorkommende Netze, zum
Beispiel den Graphen der Zusammenarbeit von Schauspielern,
und untersuchten sie, schlugen aber auch die genauere
Untersuchung von anderen sozialen Netzwerken vor.
        </p>
      </sec>
      <sec id="sec-1-2">
        <title>B. Evaluation von Netzwerkeigenschaften</title>
        <p>Bei der Analyse von realen Netzwerken sind zwei
grundlegende Methoden stark verbreitet.</p>
        <p>Zum Einen die explorative Analyse, bei welcher der
Forscher eine graphische Darstellung des Netzwerks interaktiv
durchsieht, oder spezielle Layouts betrachtet, um auffällige
Muster oder Eigenschaften zu entdecken. Diese Entdeckungen
sind dann das Ergebnis der Analyse. Hierfür existieren eine
Vielzahl von Tools wie bspw. GUESS.</p>
      </sec>
      <sec id="sec-1-3">
        <title>Zum Anderen gibt es noch die Metriken-basierte Analy</title>
        <p>se, bei welcher Metriken auf dem Netzwerk (z.B. Dichte,
Durchmesser, ...) oder Metriken für einzelne Knoten (z.B.
Zentralität, Clustering-Koeffizient, ...) im Durchschnitt oder
in ihrer Verteilung betrachtet werden. Hier können aber auch
Algorithmen zur Suche bestimmter quantifizierbarer Muster
zum Einsatz kommen (z.B. Clustering, Motive, ...).</p>
        <p>Die explorative Methode ist bei vielen Forschern, die
anwendungsorientiert arbeiten, sehr beliebt, da man mit
Standardwerkzeugen sehr schnell und einfach zu Ergebnissen
kommen kann. Diesen Ergebnissen haftet jedoch stets ein
Anschein der Subjektivität an, wo man in der Wissenschaft
doch aber stets um Objektivierungen bemüht ist. Folglich ist
die Metriken-basierte Analyse nach allgemeiner Ansicht die
aussagekräftigere und stärkere Methode. Für viele
Standardmetriken gibt es heute auch schon mächtige Werkzeuge wie
z.B. Pajek. Diese stoßen zwar an ihre Grenzen, wenn das
Repertoire der Standardmetriken zur Beantwortung der
Forschungsfragen nicht ausreicht, und erfordern dann
weitreichende Programmierfähigkeiten. Dennoch hat sich die
Metrikenbasierte Methode heute für wissenschaftliche Untersuchungen
weitgehend durchgesetzt, auch in Kombination mit der
explorativen Methode.</p>
        <p>
          Eine dritte, recht neue Methode ist die
statistischstochastische Analyse, welche die Metriken-basierte Analyse
erweitert. Die Objektivität der Metriken-basierten Analyse
ist nämlich an jener Stelle nicht mehr gegeben, an welcher
die numerischen Ergebnisse durch den Forscher interpretiert
werden. Problematisch sind hier Aussagen, welche die
Besonderheit von Mustern, bzw. deren erwartetes Auftreten subjektiv
bewerten. Dies wurde in einem sehr bedeutenden Artikel
von Watts und Strogatz 1998 erstmals eindrücklich durch
die Untersuchung von Zufallsnetzwerken demonstriert [
          <xref ref-type="bibr" rid="ref3">3</xref>
          ]. In
diesem Licht erscheinen z.B. auch die „Six Degrees of
Separation“ weit weniger spektakulär als ursprünglich angenommen,
da das Gegenteil in einem nicht perfekt-regulären Netzwerk
objektiv gesehen eine viel größere Sensation gewesen wäre.
        </p>
        <p>Diese Beobachtung machten sich Forscher dann auch
erstmals zu Nutze, um Interpretationen von Metriken zu
objektivieren. Hierfür wird eine Anzahl vergleichbarer1
Zufallsnetzwerke generiert, und die gewünschte Metrik für diese ermittelt.
Somit erhält man einen Anhaltspunkt, welchen Wert der
Metrik man statistisch in gleichartigen Netzwerken erwarten
kann.</p>
        <p>So wies beispielsweise Alon 2007 nach, dass bestimmte
Motive in biologischen Netzen um die vielfache
Standardabweichung öfter auftauchen, als im Durchschnitt von
gleichartigen Zufallsnetzwerken. Erst jetzt ist also die Aussage, dass
die gemessene Ausprägung einer Metrik ungewöhnlich sei,
tatsächlich objektiv nachgewiesen.</p>
      </sec>
      <sec id="sec-1-4">
        <title>C. Motivation</title>
        <p>
          Die statistisch-stochastische metrik-basierte
Untersuchungsmethode für reale Netzwerke ist eine recht junge, aber sehr
vielversprechende Methode, wie die Rückmeldungen aus der
Forschergemeinschaft zeigen. So erregte damals die Arbeit von
Watts and Strogatz schon viel Aufmerksamkeit, die Ergebnisse
Alons aus der Praxis wurden ebefalls renommiert publiziert.
Und auch wir haben für Analysen der Blogosphäre mit Hilfe
dieser Methode viel Anerkennung erhalten [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ], weshalb wir
diese Methode intensiv weiterverfolgen möchten.
        </p>
        <p>
          Als kritischer Punkt hat sich hierbei jedoch die Wahl
des Algorithmus zur Generierung dieser gleichartigen
Zufallsnetzwerke erwiesen. Die Gleichartigkeit wird zuallererst
natürlich über die Anzahl an Knoten und Kanten definiert,
nach allgemeinem Konsens aber auch über die Knotengrade
der einzelnen Knoten, welche eine vorgegebene
Knotengradsequenz für das Netzwerk zur Folge hat. Nun gibt es zwei
Algorithmen zur Generierung eines Zufallsnetzwerkes mit
einer solchen vorgeschriebenen Sequenz, welche in [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ] erläutert
und verglichen werden. Zum Einen das Konfigurationsmodell
1mehr zur Vergleichbarkeit in den folgenden Abschnitten
als direkt generierender Algorithmus, welcher sehr einfach,
und in der Praxis am weitesten verbreitet ist, jedoch die
ihm gestellte Aufgabe nur bis zu einem bestimmten Grad
erfüllt, und Zweifel an seiner Zuverlässigkeit offen lässt. Zum
Anderen gibt es den Markov-Ketten Monte-Carlo Algorithmus,
welcher deutlich aufwändiger ist, und sich in der Praxis noch
nicht etablieren konnte. Er erfüllt zwar die Anforderungen an
die Zufallsnetzwerke voll, hinterlässt beim Anwender aber,
wie viele andere Markov-Ketten-basierte Algorithmen auch,
die Frage nach der richtigen Schrittzahl, welche einerseits für
die Geschwindigkeit und andererseits für die Uniformität des
Verfahrens, und somit auch für seine stochastische
Aussagekraft von entscheidender Bedeutung ist.
        </p>
        <p>Eine lineare Größenordnung dieser Schrittzahl, welche für
die Praktikabilität des Verfahrens von entscheidender
Bedeutung ist, wird bisher nur vermutet, und für den Vorfaktor
gibt es nur indirekte empirische Untersuchungen. Tatsächlich
bewiesen wurde bisher nur eine quadratische Größenordnung
abhängig von der zu generierenden Kantenzahl. Diese
Situation führt bei uns, und möglicherweise auch bei anderen
Forschern, noch zu einer Zurückhaltung vor der Anwendung.</p>
        <p>
          In diesem Papier präsentieren wir unsere Idee und erste
Experimente, um die Schrittzahl in Einzelfällen exakt zu
bestimmen. Indem wir dies für verschieden große Netzwerke
einer bestimmten, sehr weit verbreiteten Klasse von
Knotengradsequenzen, den sogenannten skalenfreien Netzen [
          <xref ref-type="bibr" rid="ref6">6</xref>
          ]
ermitteln, erhoffen wir uns, allgemeine und verlässliche
Rückschlüsse auf die notwendige Schrittzahl für die Uniformität in
dieser Klasse zu ermitteln.
        </p>
      </sec>
    </sec>
    <sec id="sec-2">
      <title>II. ZUFALLSNETZWERKE</title>
      <p>In diesem Kapitel gehen wir im Detail auf die bereits
erwähnte statistisch-stochastische Untersuchungsmethode für
Netzwerke ein, und beschreiben die daraus resultierenden
Anforderungen an entsprechende Generierungsverfahren für
Zufallsnetzwerke. Danach werden die bekannten Verfahren
erläutert, kritisch betrachtet und verglichen.</p>
      <sec id="sec-2-1">
        <title>A. Die Statistisch-Stochastische Methode im Detail</title>
        <p>In diesem Abschnitt wollen wir genauer auf die in
Kapitel I-B beschriebene statistisch-stochastische metrik-basierte
Untersuchungsmethode für reale Netzwerke eingehen.
Ausgangspunkt sind hierbei zum Einen das reale Netzwerk als
Gegenstand der Untersuchung, und zum Anderen die vom
Forscher ausgewählte Metrik, über welche er Aussagen treffen
möchte.</p>
        <p>Neben der Berechnung der Metriken auf dem realen
Netzwerk, wird diese auch mit ihren erwarteten Ausprägungen bei
gleichartigen Zufallsnetzwerken verglichen. Diese
Gleichartigkeit definiert sich über die Anzahl der Knoten und Kanten, und
zusätzlich auch über die Knotengradsequenz des Netzwerkes.
D.h. dass zu jedem Knoten des realen Netzwerkes im
Zufallsnetzwerk ein Pendant mit exakt der gleichen Zahl an ein- und
ausgehenden Kanten existiert.</p>
        <p>Verfügt man gedanklich über eine Urne, welche alle
möglichen Netzwerke enthält, die in Größe und Gradsequenz
dem realen Netzwerk entsprechen, so kann man nun eine
hinreichend große Anzahl s dieser Netzwerke mit jeweils
gleicher Wahrscheinlichkeit ziehen, und erhält somit eine
repräsentative Teilmenge. Üblich sind hier alles zwischen 30
und 1000 Ziehungen. Für jedes gezogene Netzwerk wird nun
die Metrik berechnet, und für die Menge insgesamt kann man
nun die deskriptive statistische Verteilung der Ausprägung
ermitteln. Dies resultiert in einem Durchschnittswert mit einer
Standardabweichung.</p>
        <p>Für das reale Netzwerk kann man nun den absoluten
Abstand der Metrik zum statistischen Mittel der Zufallsnetzwerke
berechnen, und gibt diesen geteilt durch die
Standardabweichung als z-Wert an. Hat die Metrik auf dem realen
Netzwerk ein z &lt; 1 so ist die Eigenschaft im Rahmen des zu
Erwartenden, weist sie allerdings ein z &gt; 3 auf, so kann
man davon ausgehen, eine Besonderheit des realen Netzwerks
im Vergleich zu gleichartigen Zufallsnetzwerken entdeckt zu
haben. Die Interpretation der Bedeutung dieser Besonderheit
ist nun natürlich wieder subjektiv, stützt sich mittlerweile
aber auf schon zwei objektivierte Aussagen. Im Normalfall
wird damit eine vorher entsprechend aufgestellte Hypothese
überprüft.</p>
      </sec>
      <sec id="sec-2-2">
        <title>B. Anforderungen an die Verfahren</title>
        <p>
          Ein konkretes Netzwerk, welches eine gegebene
Knotengradsequenz realisiert, nennt man eine Konfiguration dieser
Sequenz. Nun übersteigt schon bei kleinen Sequenzen die
Anzahl der Konfigurationen aufgrund der kombinatorischen
Explosion alle Speichermöglichkeiten [
          <xref ref-type="bibr" rid="ref7">7</xref>
          ], weshalb eine
entsprechende Urne durch ein uniformes Generierungsverfahren
für diese Konfigurationen simuliert werden muss; uniform
insofern, dass jede mögliche Konfiguration exakt die gleiche
Wahrscheinlichkeit haben muss, durch ein solches Verfahren
generiert zu werden.
        </p>
        <p>Aufgrund der Beschaffenheit fast aller realer Netzwerke
kommen noch folgende Einschränkungen an die Menge der
Konfigurationen hinzu. Erstens soll die Gesamtmenge aller
Konfigurationen nur einfache Graphen enthalten, d.h. sie
sollen weder parallele Kanten noch Kanten zwischen ein und
demselben Knoten, welche wir hier Selbst-Kanten nennen,
enthalten. Zweitens sind oftmals auch nur zusammenhängende
Graphen gewünscht, also Graphen ohne vollständig
isolierte Subgraphen. Diese Anforderungen sollen die
statistischstochastischen Werte auf Grundlage der real überhaupt nur
in Frage kommenden Netzwerke ermitteln.</p>
      </sec>
      <sec id="sec-2-3">
        <title>C. Das Konfigurationsmodell</title>
        <p>
          Das Konfigurationsmodell ist ein sehr einfaches, direkt
generierendes Verfahren (siehe [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ] Abschnitt IV.B.1). Die Idee
besteht darin, alle Knoten zu Beginn mit der entsprechenden
Anzahl an Kantenstummeln zu versehen, und danach iterativ
jeweils zwei zufällig ausgewählte Stummel mittels einer Kante
miteinander zu verbinden. Dies funktioniert in linearer Zeit,
generiert aber zum Einen auch nicht-einfache Graphen, und
kann auch die Verbundenheit des Netzwerkes nicht
garantieren.
C
e2
(a)
D
        </p>
        <p>A
C</p>
        <p>
          Um dennoch einfache Graphen zu erhalten, werden in der
Praxis parallele Kanten und Selbst-Kanten einfach gelöscht,
was aber sowohl die Anzahl der Kanten als auch die
Gradsequenz des damit generierten Netzwerkes verfälscht. Dies wird
in der Praxis bei großen Netzwerken gerne als
vernachlässigbar dargestellt. Zwar mag dies oftmals stimmen, dennoch gibt
es Erkenntnisse, welche Probleme bei der Uniformität des
Verfahrens nachweisen [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ]. Insgesmat sind wir der Meinung, dass
das Verfahren unter strengsten wissenschaftlichen Kriterien als
nicht zuverlässig betrachtet werden muss.
        </p>
        <p>
          Die Verbundenheit der Graphen kann in keinster Weise
garantiert werden, aber auch der Versuch, alle nicht
verbundenen generierten Graphen zu verwerfen ist für fast alle real
vorkommenden Gradsequenzen hoffnungslos, wie fundierte
Abschätzungen über den Anteil nicht verbundener Graphen für
gegebene Sequenzen zeigen [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ]. Benötigt man in der Praxis
dennoch diese Einschränkung, so ist es üblich, nur den größten
zusammenhängenden Teilgraphen des Netzwerkes zu nehmen.
Eine solche giant component, welche nahe an die vorgegebene
Größe des Netzwerkes herankommt, wird es zwar meistens mit
hoher Wahrscheinlichkeit geben [
          <xref ref-type="bibr" rid="ref10">10</xref>
          ], das Resultat verliert aber
noch weiter an Zuverlässigkeit.
        </p>
        <p>Von Uniformität kann man bei diesem Verfahren kaum
noch sprechen, da die generierten Netzwerke gar nicht in der
vorgegebenen Menge der Konfigurationen liegen. Hier werden
stattdessen die statistischen Werte bestimmter Metriken als
Vergleich herangezogen, die Uniformität also rein empirisch
betrachtet.</p>
      </sec>
      <sec id="sec-2-4">
        <title>D. Der MCMC-Algorithmus</title>
        <p>Der Markov-Ketten Monte-Carlo Algorithmus ist ebenfalls
ein Verfahren für die Generierung entsprechender
Konfigurationen. Die Idee ist hierbei, aus einer Startkonfiguration
heraus solange zwei zufällig ausgewählte Kanten
miteinander zu vertauschen, bis jede Konfiguration mit der gleichen
Wahrscheinlichkeit erreicht wird.</p>
        <p>
          Als Startkonfiguration für das Verfahren nimmt man
entweder das reale Netzwerk, oder, falls nur eine Gradsequenz
gegeben ist, generiert man eine Konfiguration mit dem
HavelHakimi-Algorithmus [
          <xref ref-type="bibr" rid="ref11">11</xref>
          ]. Beim Tausch zweier zufällig
ausgewählter Kanten gibt es gültige und ungültige
Folgekonfigurationen. Ungültig ist ein Kantentausch dann, wenn die
Folgekonfiguration kein einfacher Graph mehr wäre, dies lässt
sich jedoch sehr leicht anhand der ausgewählten Kanten vorab
überprüfen, wie in den Abbildungen 1 und 2 zu sehen ist.
        </p>
        <p>C
B
B</p>
        <p>
          Aufgrund theoretischer Gegebenheiten konvergiert dieses
Verfahren bei einer Schrittzahl q von erfolgreichen oder
versuchten Kantentauschen gegen unendlich zu einer perfekt
uniformen Generierung aller Konfigurationen. Doch genau bei
der Bestimmung dieser Schrittzahl q liegt das Problem dieses
Verfahrens, wie bei vielen anderen Markov-Ketten-Verfahren
auch. Nachgewiesen ist, dass eine Schrittzahl in der
Größenordnung von O(m2) für die Uniformität ausreichend ist,
jedoch gibt es keine verlässliche Aussage über den Vorfaktor.
Empirische Tests legen gar eine lineare Größenordnung nahe,
und schlagen einen Vorfaktor fq von 100 dazu vor [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ], [
          <xref ref-type="bibr" rid="ref12">12</xref>
          ],
also insgesamt eine Schrittzahl von q = 100 m. Wir werden in
Kapitel III genauer auf diese Problematik und Überlegungen
zu möglichen Auswegen eingehen.
        </p>
        <p>Vorab wollen wir noch kurz auf die Generierung von
ausschließlich verbundenen Graphen eingehen, welche mit dem
MCMC-Algorithmus unter Wahrung der Uniformität möglich
ist, was das Verfahren deswegen auch so attraktiv macht.
Nehmen wir an, die Schrittzahl liege tatsächlich in O(m).
Man kann nun nach jedem Kantentausch überprüfen, ob die
Nachfolgekonfiguration ein verbundener Graph ist oder nicht.
Dies kann mittels einer einfachen Tiefensuche in m Schritten
entschieden werden. Davon abhängig gilt der Kantentausch
dann entweder als gültig, oder aber man geht wieder zur
ursprünglichen Konfiguration zurück und versucht erneut einen
Kantentausch, ohne den vorangegangenen mitzuzählen. Dies
führt insgesamt zu einer Laufzeit des Verfahrens in O(m2).
Viger und Latapy haben diese Methode weiterentwickelt, und
nachweislich eine Erhöhung um nur O(log m) für die
Verbundenheitsprüfung erreicht, so dass ihr optimierter
MCMCAlgorithmus verbundene Netzwerke mit einer Laufzeit in
O(m log m) generiert.</p>
        <p>Bestünde nun Gewissheit über die für die Uniformität
tatsächlich notwendige Schrittzahl, so würde dieser Algorithmus
zuverlässig und schnell die gewünschten verbundenen
Netzwerke generieren. Tatsächlich wird dieser Algorithmus aber
bis heute in keinem der Standardwerkzeuge und -bibliotheken
angeboten. Stattdessen findet man stets eine Implementierung
des Konfigurationsmpdells vor, trotz der oben beschriebenen
Unzulänglichkeiten. Im nächsten Kapitel werden wir unsere
Ideen für eine bessere Bestimmung der Schrittzahl
vorstellen, um so einen Beitrag für die Etablierung der
MCMCAlgorithmen zu leisten.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>III. DIE SCHRITTZAHL DES MCMC-ALGORITHMUS In diesem Kapitel stellen wir den Stand der Wissenschft bezüglich der Bestimmung der Schrittzahl für den MCMC</title>
      <p>Algorithmus vor, so dass dieser möglichst uniforme Ergebnisse
liefert, aber nicht übermäßig viel Zeit braucht. Wir
hinterfragen diesen kritisch und zeigen anhand einiger Beispiele
Unzulänglichkeiten und mögliche Lösungswege hierfür auf.</p>
      <sec id="sec-3-1">
        <title>A. Bisherige Festlegung</title>
        <p>
          Dass die Schrittzahl q für den MCMC-Algorithmus linear
von der Anzahl der Kanten m abhängt ist bisher wie gesagt
nur eine Vermutung. Um unter dieser Voraussetzung den
passenden Vorfaktor fq zu ermitteln, wurde in vorangegangenen
Arbeiten [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ], [
          <xref ref-type="bibr" rid="ref12">12</xref>
          ] stets eine indirekte empirische Methode
verwendet. Das Prinzip beruht darauf, sich eine Startkonfiguration
mit einer sehr ungewöhnlich ausgeprägten Metrik zu nehmen,
davon ausgehend wiederholt Kantentausche durchzuführen,
und zu messen, ab welcher Schrittzahl die Metrik sich beim
erwarteten Durchschnittswert einpendelt. Hieraus wird dann
eine ausreichende Unifomität des Verfahrens geschlussfolgert.
        </p>
        <p>
          Abbildung 3 aus [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ] zeigt eine solche Bestimmung anhand
des Transkriptionsnetzwerkes des E.Coli-Bakteriums. Als
Metrik wurde die gefundene Anzahl des Motivs „Feed-Forward
Loop“ gewählt. Man sieht recht gut, dass der Erwartungsswert
gleichartiger Zufallsnetzwerke in diesem Beispiel schon mit
fq = 1 erreicht wird, dennoch ist es die Schlussfolgerung der
Autoren, im allgemeinen Fall lieber fq = 100 zu wählen.
        </p>
        <p>
          Das Problem dieser Art der Bestimmung sind die
Auswahl der Metrik und einer dazugehörigen außergewöhnlichen
Startkonfiguration. Nun haben schon Watts und Strogatz 1998
gezeigt, dass verschiedene Metriken verschieden schnell auf
Kantentausche reagieren [
          <xref ref-type="bibr" rid="ref3">3</xref>
          ], eine unter allen Umständen
„trägste“ Metrik ist jedoch nicht bekannt. Dennoch erscheint es
fragwürdig, eine besonders dynamische Metrik wie den
Durchmesser eines Netzwerkes für solch einen Test heranzuziehen,
wie in Vorarbeiten geschehen [
          <xref ref-type="bibr" rid="ref12">12</xref>
          ].
        </p>
        <p>Das andere Problem betrifft die Startkonfiguration. Hat das
Transkriptionsnetzwerk zwar mit 42 Motiven einen z-Wert von
ca. 10 bei der Abweichung von der erwarteten Motivanzahl,
so lassen sich bei der gegebenen Sequenz dennoch auch leicht
Konfigurationen mit über 100 Motiven realisieren, was das
Konvergieren aus einer solchen Konfiguration heraus weiter
verlangsamen würde. Auch die Größen der Netzwerke bleiben
unzureichend berücksichtigt, da diese Art der Bestimmung
sehr zeitaufwändig ist. Das kommunizierte Ergebnis ist hier
immer, dass „für eine Vielzahl verschiedener Netzwerke und
verschiedener Metriken sich fq = 100 immer als ausreichend
groß herausgestellt hat“.</p>
        <p>Wir sind mit diesem Ergebnis bezüglich der Zuverlässigkeit
des Verfahrens nicht zufrieden, und die Zurückhaltung bei
der Akzeptanz dieses Verfahrens scheint dies zu bestätigen.
Wir stellen in den folgenden Abschnitten unseren alternative
Ansatz für die Bestimmung der Schrittzahl q vor.</p>
      </sec>
      <sec id="sec-3-2">
        <title>B. Die Markov-Kette</title>
        <p>Zu Beginn unserer Überlegungen beschäftigen wir uns mit
der dem MCMC-Algorithmus zu Grunde liegenden
MarkovKette. Jede mögliche Konfiguration einer Gradsequenz ist
ein Knoten der Markov-Kette, den wir zur besseren
Unterscheidung Konfigurationsknoten nennen werden. Jeder gültige
Kantentausch führt zu einem anderen Konfigurationsknoten,
und die Umkehroperation auch immer wieder zurück, so dass
immer bidirektionale Verbindungen zwischen zwei
Konfigurationsknoten bestehen. Alle ungültigen Kantentausche zählen
ebenfalls als Schritt des Algorithmus, da sie aber zu keiner
neuen Konfiguration führen, werden sie deshalb in einer
Selbst-Kante mit entsprechender Gewichtung
zusammengefasst.</p>
        <p>Es gibt insgesamt m2+m ungeordnete Kantenpaare, so dass
2
jeder Konfigurationsknoten diesen Wert als Ein- und
Ausgangsgrad besitzt. Da auch die Verbundenheit der
MarkovKette bewiesen ist, führt dies theoretisch zu einer
perfekten Uniformität. Entscheidend hierfür ist in der Praxis aber
die notwendige Schrittzahl, bis zum sogenannten Mixing der
Markov-Kette.</p>
      </sec>
      <sec id="sec-3-3">
        <title>C. Exakte Berechnung im Einzelfall</title>
        <p>
          Für gegebene Gradsequenzen und sehr kleine Netzwerke
lässt sich die Markov-Kette mit normaler Hardware noch
vollständig erzeugen. Verfügt man über diese Markov-Kette,
so kann man die für deren Mixing notwendige Schrittzahl
mit einer Variante des einfachen ungedämpften
PageRankAlgorithmus [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ] exakt berechnen. Hierfür wird initial nicht
jedem Knoten der Wert 1 gegeben, sondern der
Startkonfigurationsknoten erhält den Wert m, und alle anderen
Konfigurationsknoten den Wert 0. Nun werden soviele Iterationen
q des ungedämpften PageRank-Algorithmus durchgeführt, bis
der Wert aller Knoten 1 beträgt.
        </p>
        <p>Die Werte entsprechen der Wahrscheinlichkeit geteilt durch
m, nach dem jeweiligen Schritt des MCMC-Algorithmus bei
dieser Konfiguration zu sein. Der Wert gibt die maximal
auftretende bzw. tolerierte Abweichung einer Konfiguration
von der geforderten Wahrscheinlichkeit an.</p>
        <p>
          Wir untersuchen dies für vier Gradsequenzen mit 12 Kanten.
Zum Einen die des zur Messung der Uniformität in [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ]
benutzten „toy network“, welches über eine sehr spezielle,
für die Realität untypische Sequenz verfügt, aber nur 91
Konfigurationen erlaubt. Zum anderen haben wir uns, unserem
Interesse an real vorkommenden Sequenzen folgend, eine
kleine heterogene Powerlaw-Verteilung (siehe [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ] Abschnitt
III.C.1) mit 12 Kanten generiert, wie sie in einem skalenfreien
Netzwerk vorkommen würde. Wir haben = 1; 7 gewählt
und damit die Knotengrade (3; 2; 2; 1; 1; 1; 1; 1) für 8 Knoten
erhalten. Um eine Gradsequenz für einen gerichteten Graphen
mit Ein- und Ausgangsgraden zu erhalten, haben wir diese
einmal positiv, einmal negativ, und einmal nicht korreliert, also
zufällig, auf die acht Knoten verteilt.
        </p>
        <p>Diese vier Sequenzen haben wir mit dem
Havel-HakimiAlgorithmus in einem Netzwerk realisiert, von diesen
Konfigurationen aus jeweils den Zustandsraum der Markov-Kette
durch Verfolgung aller jeweils möglichen 66 Kantenpaare
vollständig generiert und als Netzwerk gespeichert. Die
MarkovKette des Toy-Netzwerks verfügt wie bekannt über 91
Konfigurationsknoten, die Markov-Ketten der drei skalenfreien
Netzwerke über 90.000 bis 120.000 Konfigurationsknoten.</p>
        <p>Tabelle I listet die errechneten Schrittzahlen q für die vier
Beispielnetzwerke auf. Abbruchbedingung war hier, dass sich
die Werte nicht mehr ändern, was bei der 32-Bit-Darstellung
schon vor Erreichen der Gleichverteilung eintreten kann. Der
-Wert gibt hierzu die maximale Abweichung eines
Konfigurationsknotens vom Wert 1 an. Unter Annahme einer von m
linear abhängigen Schrittzahl des MCMC-Algorithmus würde
der entsprechend angegebene Vorfaktor fq gelten.</p>
        <p>In allen Fällen liegt fq weit unter 100, aber auch höher als
1, wie es in Abbildung 3 möglicherweise suggeriert wurde.
Dies sind aber Einzelfallbetrachtungen, aus denen man noch
keine Verallgemeinerungen folgern kann.</p>
      </sec>
      <sec id="sec-3-4">
        <title>D. Wege zur Verallgemeinerung</title>
        <p>Die exakte Berechnung der Schrittweite ist schon bei
kleinen Werten von m aufgrund der exponentiell steigenden
Anzahl an Konfigurationen unpraktikabel. Um mit dieser
Methode dennoch verallgemeinerbare Aussagen, zumindest
für bestimmte Klassen von Netzwerken, wie z.B. die
skalenfreien Netze, treffen zu können, ist noch ein weiterer
Schritt notwendig. Mit einem Verständnis für die Struktur der
zugrundeliegenden Markov-Ketten ließe sich die Schrittzahl
für das Mixing dieser Ketten über das modifizierte
PageRankVerfahren direkt abschätzen und simulieren, anstatt sie indirekt
über das beschriebene empirische Verfahren zu bestimmen.</p>
        <p>Hierbei indentifizieren wir 3 wichtige Punkte, welche für die
Geschwindigkeit des Kovergieren des PageRank-Verfahrens</p>
        <p>In diesem Papier haben wir den Stand der Wissenschaft
bezüglich der Evaluationsmethoden von konkreten realen
Netzwerken zusammengefasst, und die unserer Meinung nach
vorzuziehende Methode, der Evaluation mittels gleichartiger
Zufallsnetzwerke kritisch analysiert. Die aufgezeigten
Probleme bei der Zuverlässigkeit der gängigen Methoden wurden
bewertet, und für das unserer Meinung nach überlegene
MCMCVerfahren haben wir einen Ansatz vorgestellt, mit welchem
das letzte offene Problem, der zu wählenden Schrittzahl q
zumindest für bestimmte Klassen von Netzwerken deutlich
reduziert werden könnte. Wir werden versuchen, die dafür
notwendigen Kenngrößen in Zukunft in ausgiebigen Simulationen
abschätzen zu können, und damit eine für jede Netzwerkgröße
dieser Klasse sichere und vor allem effiziente Wahl von q
ermöglichen zu können.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>S.</given-names>
            <surname>Wasserman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Faust</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Iacobucci</surname>
          </string-name>
          ,
          <article-title>Social Network Analysis : Methods and Applications (Structural Analysis in the Social Sciences)</article-title>
          . Cambridge University Press,
          <year>1994</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>L. C.</given-names>
            <surname>Freeman</surname>
          </string-name>
          ,
          <article-title>The Development of Social Network Analysis: A Study in the Sociology of Science</article-title>
          . Empirical Press,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>D.</given-names>
            <surname>Watts</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Strogatz</surname>
          </string-name>
          , “
          <article-title>Collective dynamics of small-world networks</article-title>
          ,” Nature, no.
          <issue>393</issue>
          , pp.
          <fpage>440</fpage>
          -
          <lpage>442</lpage>
          ,
          <year>1998</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>D.</given-names>
            <surname>Obradovic</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Baumann</surname>
          </string-name>
          , “
          <article-title>A journey to the core of the blogosphere</article-title>
          ,”
          <source>in Proceedings of the International Conference on Advances in Social Network Analysis and Mining (ASONAM</source>
          <year>2009</year>
          ). IEEE,
          <year>2009</year>
          , pp.
          <fpage>1</fpage>
          -
          <lpage>6</lpage>
          , best paper award.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>R.</given-names>
            <surname>Milo</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Kashtan</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Itzkovitz</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M. E. J.</given-names>
            <surname>Newman</surname>
          </string-name>
          , and U. Alon, “
          <article-title>On the uniform generation of random graphs with prescribed degree sequences,” Arxiv preprint cond-</article-title>
          <source>mat/0312028</source>
          ,
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>A. L.</given-names>
            <surname>Barabasi</surname>
          </string-name>
          and
          <string-name>
            <given-names>R.</given-names>
            <surname>Albert</surname>
          </string-name>
          ,
          <article-title>“Emergence of scaling in random networks</article-title>
          ,
          <source>” Science</source>
          , vol.
          <volume>286</volume>
          , pp.
          <fpage>509</fpage>
          -
          <lpage>512</lpage>
          ,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>T.</given-names>
            <surname>Snijders</surname>
          </string-name>
          , “
          <article-title>Enumeration and simulation methods for 0-1 matrices with given marginals</article-title>
          ,
          <source>” Psychometrika</source>
          , vol.
          <volume>56</volume>
          , no.
          <issue>3</issue>
          , pp.
          <fpage>397</fpage>
          -
          <lpage>417</lpage>
          ,
          <year>September 1991</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>M. E. J.</given-names>
            <surname>Newman</surname>
          </string-name>
          , “
          <article-title>The structure and function of complex networks</article-title>
          ,
          <source>” SIAM Review</source>
          , vol.
          <volume>45</volume>
          , pp.
          <fpage>167</fpage>
          -
          <lpage>256</lpage>
          ,
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>M.</given-names>
            <surname>Molloy</surname>
          </string-name>
          and
          <string-name>
            <given-names>B.</given-names>
            <surname>Reed</surname>
          </string-name>
          , “
          <article-title>A critical point for random graphs with a given degree sequence,” Random Structures and Algorithms</article-title>
          , vol.
          <volume>6</volume>
          , pp.
          <fpage>161</fpage>
          -
          <lpage>179</lpage>
          ,
          <year>1995</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10] --, “
          <article-title>The size of the giant component of a random graph with a given degree sequence</article-title>
          ,” vol.
          <volume>7</volume>
          , p.
          <fpage>295</fpage>
          -
          <lpage>305</lpage>
          ,
          <year>November 1998</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <surname>P. L.</surname>
          </string-name>
          <article-title>Erdo˝s, I. Miklós</article-title>
          , and
          <string-name>
            <given-names>Z.</given-names>
            <surname>Toroczkai</surname>
          </string-name>
          , “
          <article-title>A simple Havel-Hakimi type algorithm to realize graphical degree sequences of directed graphs,”</article-title>
          <source>Electronic Journal of Combinatorics</source>
          , vol.
          <volume>17</volume>
          , no.
          <issue>1</issue>
          , p.
          <fpage>R66</fpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>F.</given-names>
            <surname>Viger</surname>
          </string-name>
          and
          <string-name>
            <given-names>M.</given-names>
            <surname>Latapy</surname>
          </string-name>
          , “
          <article-title>Efficient and simple generation of random simple connected graphs with prescribed degree sequence</article-title>
          .”
          <source>in Proceedings of the 11th international conference on Computing and Combinatorics, ser. Lecture Notes in Computer Science</source>
          , L. Wang, Ed., vol.
          <volume>3595</volume>
          . Springer,
          <year>2005</year>
          , pp.
          <fpage>440</fpage>
          -
          <lpage>449</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>L.</given-names>
            <surname>Page</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Brin</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R.</given-names>
            <surname>Motwani</surname>
          </string-name>
          , and T. Winograd, “
          <article-title>The pagerank citation ranking: Bringing order to the web</article-title>
          ,” Stanford University,”
          <source>Technical Report</source>
          ,
          <year>1998</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>