Semantische Suche für Unternehmen

Die Menge der Daten steigt  auch in kleineren, lokalen Unternehmen rapide. Vor allem “unstrukturierte” Informationen wie Verträge, Pläne und Projekte, der eigene Webauftritt sowie die Dokumentationen zu eigenen Produkten und Dienstleistungen werden immer häufiger elektronisch gesichert. Damit wird das tägliche Auffinden von spezifischen Informationen wichtiger und gleichzeitig schwieriger. Man kann davon ausgehen, dass die damit befassten Mitarbeiter täglich 15-35% ihrer Zeit für die Suche aufwenden. Das ist normal – problematisch ist aber, dass die Suche in etwa 50% nicht erfolgreich ist!

Für eine möglichst produktive Suchlösung in einem Unternehmen (z.B. über das Intranet) ist die Bearbeitung nachfolgender Themen zentral:

  • Integration der Datenquellen in (womöglich) einer einzigen Suchanwendung
  • Etablierung eines sinnvollen Content Life-Cycles sowie die laufende Anpassung der Suche
  • Qualität der Suchmaschine, ihre Fähigkeit, relevante Ergebnisse zu liefern und ihre Benutzerfreundlichkeit
Ich beschreibe hier die wesentlichen Fähigkeiten von semantischen Suchlösungen. Sie unterscheiden sich von traditionellen Suchmaschinen dadurch, dass sie mehr als eine Volltextsuche und statistische Verfahren für das Ranking von Ergebnissen anbieten.

Vom Suchen zum Finden

Die erste Schwierigkeit einer reinen wortbasierten Volltextsuche ist die Bewältigung von Mehrsprachigkeit und Ambiguität. Zweiteres betrifft einzelne Begriffe  wie “Jaguar”, “Bank” und andere Homonyme sowie synonyme Bezeichnungen (z.B. verschiedene Benennungen ein- und deselben Produktes in verschiedenen Abteilungen einer Firma). Ein (mehrsprachiger) Thesaurus zu wesentlichen Fachbegriffen, der von der Suchmaschine verwendet wird, schafft hier Abhilfe.

Der nächste Schritt zur erfolgreichen semantischen Suche ist die Verwertung der vorhandenen Metadaten von Dokumenten. Der Zeitpunkt der Dokumentenerstellung, AutorInnen sowie die Dokumentenart sind wertvolle Aspekte eines Dokuments, die zur Facettierung und Filterung der Suchergebnisse verwendet werden können. Aber diese Daten sind nicht immer zuverlässig genug, um zu jeder Suchanfrage die relevanten Dokumente liefern zu können.

Eine neue Qualität bekommt die Suche durch die automatische Erkennung von Entitäten (Personen, Orte, Firmen, Produktbezeichnungen, Datumsangaben,  Identifikationsnummern …) in Inhalten. Natural Language Processing erlaubt die Annotation dieser “Named Entities”. Wenn diese dann im Unternehmen gespeichert und verfügbar sind, können sie als “Anker” verwendet werden, um dazugehörende Dokumente und Informationen aus unterschiedlichen Kontexten zusammenzuführen – also wie etwa in einem CRM-Sytem alle wesentlichen Vorgänge zu einem Kunden oder einem Projekt darzustellen.

Die nächste Stufe ist Erkennung von geschäftsrelevanten “realen” Beziehungen und Fakten aus einem einzelnen Dokument oder dem gesamten Dokumentenkorpus. Dazu ist es notwendig, eine Struktur möglicher realer Beziehungen zu beschreiben (“Ontologie”) und dann in realen Dokumenten die Übereinstimmung mit solchen Aussagen zu erkennen. Die einfachste Struktur einer derartigen Aussage entspricht einem einfachen, kurzen Satz mit Subjekt, Prädikat und Objekt, z.B. <Person> <kauft> <Produkt>.

Eine derartige Wissensbasis kann dann im Rahmen von Business Intelligence Auswertungen eine wesentliche Rolle spielen, weil sie nicht nur quantitative, sondern auch qualitative Elemente umfasst.

Veröffentlicht unter Blog, Open Source, Semantik, Suche