<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title> Journal of Artificial  
Intelligence 131(1­2)</journal-title>
      </journal-title-group>
    </journal-meta>
    <article-meta>
      <title-group>
        <article-title> 1. Introduction</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Adam Pease</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Geoff Sutcliffe</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Nick Siegel</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Steven Trac</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Articulate Software apease</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>nsiegel</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>articulatesoftware.com</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Ramachandran</institution>
          ,
          <addr-line>D., P. Reagan</addr-line>
          ,
          <institution>K. Goolsbey. First­Orderized ResearchCyc: Expressivity and Efficiency in a Common­Sense Ontology. In Papers from the AAAI Workshop on Contexts and Ontologies: Theory</institution>
          ,
          <addr-line>Practice and Applications. Pittsburgh, Pennsylvania, July 2005</addr-line>
          ,
          <country country="US">USA</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>University of Miami geoff</institution>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2006</year>
      </pub-date>
      <fpage>17</fpage>
      <lpage>19</lpage>
      <abstract>
        <p>Previous CASC competitions have focused on proving difficult problems on small numbers of axioms.  However, typical reasoning applications for expert systems rely on knowledge bases that have large numbers  of axioms of which only a small number may be relevant to any given query.  We have created a category in   the new LTB division of CASC to test this sort of situation.  We present an analysis of performance of last  year's   entrants   in   CASC   to   show   how   they   perform   before   any   opportunity   for   tuning   them   to   this   new  competition.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>We created an additional test to support the participation of model­finders. The SUMO 
validation prize totaling US$300 will test these systems, and hopefully improve SUMO by finding any 
problems with the theory.  Three subdivisions, each with a $100 prize will be given to those systems 
which
 1. Verify the consistency of, or provide feedback to repair, the base SUMO ontology.
 2. Verify the consistency of, or provide feedback to repair, the combined SUMO and MILO ontologies.
 3. Verify the consistency of, or provide feedback to repair, the combined SUMO, MILO, and domain 
ontologies. 
The winners of the SUMO challenges will be announced and receive their awards at IJCAR following 
successful completion of a challenge. 
 3.Example Test
To give a flavor of what the tests consist of, we present one of them.  The question posed to the system 
can be described as “Can a human perform an intentional action if he or she is dead?”.  We create in the 
test an example instance of an action
(instance DoingSomething4-1 IntentionalProcess)
then state that an individual is performing the action
(agent DoingSomething4-1 Entity4-1)
and that the individual is human
(instance Entity4-1 Human)
The successful theorem prover will then find the following axioms and apply them to prove the 
conjecture
(&lt;=&gt;
(instance ?X4 Agent)
(exists (?X5)</p>
      <p>(agent ?X5 ?X4)))
(subclass IntentionalProcess Process)
(=&gt;
(and
(subclass ?X403 ?X404)
(instance ?X405 ?X403))
(instance ?X405 ?X404))
(=&gt;
(and
(agent ?X5 ?X4)
(instance ?X5 IntentionalProcess))
(and
(instance ?X4 CognitiveAgent)
(not
(holdsDuring
(WhenFn ?X5)
(attribute ?X4 Dead)))))
We should note that this proof has the interesting feature that although the form appears to be second 
order (holdsDuring arg &lt;formula&gt;), the system treats the embedded formula as an uninterpreted 
list and is able to solve the problem simply by unifying clauses in the list.</p>
      <p>While this example is trivial when the necessary axioms are found ahead of time, it becomes 
very challenging in the context of a large knowledge base, where, in a practical situation, the relevant 
axioms cannot be known ahead of time.  There are hundreds or thousands of axioms involving the term 
“agent” in SUMO, for example, and the successful theorem prover will have to hunt through those 
axioms very quickly in order to find just the ones that are relevant to the query being posed.</p>
    </sec>
    <sec id="sec-2">
      <title>Table 1: Performance ranking</title>
      <sec id="sec-2-1">
        <title>SUMO+MILO</title>
        <sec id="sec-2-1-1">
          <title>Vampire  9.0 Metis    2.0</title>
          <p>SNARK  20070805
Zenon    0.5.0</p>
        </sec>
        <sec id="sec-2-1-2">
          <title>Equinox  1.3</title>
        </sec>
        <sec id="sec-2-1-3">
          <title>Muscadet 2.7a</title>
          <p>All
Metis    2.0
Zenon    0.5.0</p>
        </sec>
        <sec id="sec-2-1-4">
          <title>Equinox  1.3</title>
          <p>Overall performance is shown in the first column above with Vampire achieving first place. All 
other provers not listed failed to solve any of the problems.  The best performance with SUMO alone is 
shown then SUMO+MILO and finally performance with all the domain ontologies loaded.  The best 
performing provers still did not solve a majority of the 105 problems in the test set.  Vampire solved 31, 
Fampire 20, E 15 and Metis 14, with the other provers in the single digits or no solutions at all.  Prover 
failing to find solutions were stopped generally because of timeouts, rather than errors in parsing or 
memory space.  Average running times approached the 600 seconds allocated for all provers because of 
the low percentage of solved problems.</p>
          <p>The differing strengths of several of the provers suggested creating a “meta­prover” combining 
several systems.  The strategy is to give Vampire 400 seconds, then give Metis up to 200 seconds if 
Vampire failed to find a proof. The combined system gets 33 answers compared to 31 for Vampire alone 
or 14 for Metis alone, and performance overall is slightly better at 48158 seconds vs. 55419 for Metis 
and 48599 for Vampire. We might be able to tweak the timeslice allocation to do still better, although 
further efforts in that regard could be considered overtraining to this particular problem set.</p>
          <p>We performed an analysis to determine what set of systems would cover the maximum number 
of problems (see Figure 1).  This is termed a “SOTA” analysis as per (Sutcliffe &amp; Suttner 2001). 
Vampire solved eight problems solved by no other prover.  Metis uniquely solved two, and Fampire 1. 
This analysis suggests that we should revisit creation of a meta­prover composed of Vampire, Metis and 
Fampire.</p>
        </sec>
      </sec>
      <sec id="sec-2-2">
        <title>Fampire</title>
      </sec>
      <sec id="sec-2-3">
        <title>Vampire</title>
      </sec>
      <sec id="sec-2-4">
        <title>Metis</title>
        <p>E</p>
        <sec id="sec-2-4-1">
          <title>SPASS</title>
          <p>iProver</p>
        </sec>
        <sec id="sec-2-4-2">
          <title>Equinox</title>
        </sec>
        <sec id="sec-2-4-3">
          <title>Zenon</title>
          <p>leanCoP</p>
        </sec>
        <sec id="sec-2-4-4">
          <title>SNARK</title>
        </sec>
        <sec id="sec-2-4-5">
          <title>Muscadet</title>
        </sec>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Figure 1: SOTA analysis</title>
      <sec id="sec-3-1">
        <title>Faust</title>
        <p>References
Niles, I., and Pease, A. (2003) Linking Lexicons and Ontologies: Mapping WordNet to the Suggested Upper Merged 
Ontology, Proceedings of the IEEE International Conference on Information and Knowledge Engineering, pp 
412­416.
Pease, A., (2004). Standard Upper Ontology Knowledge Interchange Format. Unpublished language manual.  Available at 
http://sigmakee.sourceforge.net/
Scheffczyk, J., Pease, A., Ellsworth, M., (2006). Linking FrameNet to the Suggested Upper Merged Ontology, in 
Proceedings of Formal Ontology in Information Systems (FOIS­2006), B. Bennett and C. Fellbaum, eds, IOS Press, 
pp 289­300.</p>
        <p>Sutcliffe G., Suttner C.B. (1998), The TPTP Problem Library: CNF Release v1.2.1, Journal of Automated Reasoning 21(2), 
177­203.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>