Wer wir sind
fiinder.ai verwandelt Unternehmensdaten in umsetzbares Wissen. Entstanden in Europa mit der Mission, Unternehmen die Kontrolle darüber zu geben, was sie der Welt mitteilen — von institutionellen Websites bis zu den verborgensten Seiten eines PDFs. Unser Motto, "Verarbeite Deine Daten zu intelligentem Wissen", ist nicht nur ein Slogan: Es leitet das Design einer Plattform, die Automatisierung, künstliche Intelligenz und Governance vom ersten Zugriff bis zur finalen Antwort des Assistenten verbindet.
Von Rohdaten zum intelligenten Dialog Der von uns bereitgestellte Ablauf wurde so konzipiert, dass er klar und verlässlich ist. Es beginnt damit, dass der Kunde festlegt, was überwacht werden soll, und endet mit einer flüssigen Unterhaltung in einem Unternehmenschat.
- Intelligente Erfassung: Wir akzeptieren sowohl öffentliche URLs als auch Dokumente, die mit Authentifizierung hochgeladen werden. Jede Ausführung wird protokolliert und kann per Klick unterbrochen oder fortgesetzt werden.
- Anreicherung und Organisation: Spezialisierte Pipelines bereinigen Inhalte, klassifizieren Seitentypen, segmentieren relevante Ausschnitte, um die semantische Suche zu trainieren.
- Konversationelle Aktivierung: Ein über WebSocket verbundener Assistent greift in Echtzeit auf die Basis zu, liefert Streaming-Antworten und zeigt sogar, woher jede Information stammt.
Wie wir Webdaten aktivieren
Der Ausgangspunkt ist eine geschützte API, die das Crawling nur dann startet, wenn die autorisierte Domain frei ist. Status-Controller protokollieren in Cruddy — unserer Storage-Engine —, ob Crawler oder Knowledge-Phase bereits laufen, und vermeiden so Duplikationen. Erhält der Vorgang grünes Licht, aktivieren wir Argo Events und Argo Workflows auf dem Kubernetes-Cluster. Diese Anordnung empfängt die Anfrage per Webhook, erzeugt einen dedizierten Job und verteilt die Last mit Semaphoren, die begrenzen, wie viele Seiten parallel verarbeitet werden.
Während der Sammlung wird jedes HTML an Cruddy gesendet. Von dort übernimmt ein zweiter Workflow die Transformation. Er konsultiert verteilte Caches, um zu wissen, was bereits erledigt wurde, zeichnet strukturierte Logs auf und wendet einen sicheren Stoppmechanismus an, wenn der Kunde die Ausführung unterbrechen möchte. Das Ergebnis ist eine auditierbare Kette: Wir wissen, wann sie begonnen hat, wer sie angefordert hat, welche Seiten besucht wurden und in welcher Phase sich jede einzelne befindet.
Wie wir strukturiertes Wissen erzeugen
Sobald eine Seite die Knowledge-Pipeline erreicht, starten wir eine Abfolge automatischer Schritte:
- Kontextbezogene Metadaten: Wir extrahieren Titel, Sprache, Schlüsselwörter und Zusammenfassung. Diese Daten speisen unsere Vektor-Datenbank und bereichern zukünftige semantische Suchen.
- Bereinigter Text in Markdown: Wir entfernen Rauschen, behandeln Links und speichern Versionen, die zum Lesen und Indexieren bereit sind.
- Thematische Klassifikation: LLM-Modelle analysieren Inhalte und identifizieren, ob es sich bei der Seite um eine institutionelle Seite, Produkt- oder Kataloglisten handelt, und stellen so passende Antworten sicher.
- Abschnitte mit Kontext: Wir teilen den Text in Blöcke mit erhaltenen Überschriften und erstellen spezifische Vektorrepräsentationen pro Ausschnitt.
Jeder Schritt kommuniziert mit Caches, die in Cruddy gehostet sind, und protokolliert den Status in observierbaren Registern. Falls etwas fehlschlägt, wird der Prozess exakt an der Stelle wieder aufgenommen, an der er aufgehört hat. Am Ende sind alle Artefakte — Metadaten, Markdowns, Abschnitte, Fragen und Embeddings — mit der Unternehmenskennung in der VektorDB verknüpft und abfragebereit.
Wie wir PDFs und andere Dokumente verarbeiten
Wenn der Kunde ein PDF hochlädt, oder dieses auf einer Webseite hinterlegt ist, aktivieren wir einen spezialisierten Workflow in unserem Cluster. Er lädt die Datei mit den eigenen Sicherheits-Tokens des Kunden herunter, identifiziert, welchem Unternehmen dieser Inhalt gehört, und startet parallele Phasen:
- Seitenweise Transkription mit einem Large Language and Vision Assistant.
- Erzeugung dichter Embeddings mit einem speziellen LLM zur Einspeisung in unsere VektorDB.
- Extraktion von Metadaten und Titelbild, um aussagekräftige Zusammenfassungen zu erstellen.
- Export der Ergebnisse in strukturiertem Format nach Cruddy, bereit für Audits oder zum Herunterladen.
Alles läuft in standardisierten Plattform-Containern mit versionierten Secrets und granularen Berechtigungen. So bleibt die Verarbeitung Hunderter Seiten vorhersehbar, ob in Test- oder Produktionsumgebung.
Wie wir diese Datenbasis durchsuchen
Gute Antworten erfordern weit mehr als einen einfachen Vektor. Unsere Knowledge-Engine konsultiert parallel Sammlungen von Webseiten, PDFs und zusätzlich erzeugtem Wissen. Für jede Anfrage:
- Wir empfangen den Text des Nutzers und erzeugen abgeleitete Anfragen.
- Wir suchen in der VektorDB nach Kandidaten und gruppieren nach Herkunft.
- Wir holen ergänzende Metadaten in Cruddy ein, um Titel, Beschreibungen und Originalsprache wiederherzustellen.
- Wir wenden einen Re-ranker an, der semantische Ähnlichkeit, Ausschnittqualität und operativen Kontext kombiniert.
- Wir liefern dem Modell eine Shortlist mit geordneten Auszügen, jeweils mit URL, Überschriften und Begründung der Relevanz.
Dieser Zyklus gewährleistet Antworten mit Quelle und reduziert das Risiko von Halluzinationen. Selbst wenn nichts gefunden wird, geben wir eine explizite Bestätigung zurück — eine wichtige Anforderung für Governance.
Wie wir den konversationalen Assistenten betreiben
Die User-Experience-Schicht beginnt mit einem Sicherheits-Token-Austausch: Der Login erzeugt einen temporären Zugriff, und erst dann kann der Browser die sichere WebSocket-Sitzung öffnen. Ein Verbindungsmanager hält Warteschlangen pro Nutzer vor, stößt periodische Pings an und beendet inaktive Unterhaltungen, um Ressourcen zu schonen. Wenn der Kunde eine Nachricht sendet, antwortet der Assistent im Streaming und liefert Deltas, die die Oberfläche in Echtzeit zusammensetzt.
Innerhalb der Konversation arbeiten wir mit einer auf LangChain basierenden Orchestrierung, die Unternehmensanweisungen — Tonalität, erlaubter Umfang, bevorzugte Sprache — injiziert und strikte Serviceregeln definiert. Während der Antwort kann der Assistent das Suchtool aufrufen. In diesem Fall kündigt der Flow an, dass er die Basis konsultiert, führt die oben beschriebene Suche aus und beendet erst dann den Satz, fügt die verwendeten Referenzen an und schlägt Anschlussfragen vor.
Vorteile für unsere Kunden
- Totale Kontrolle: Der Kunde wählt, was gecrawlt werden soll, wie es indexiert wird und wer auf den Assistenten zugreift.
- Kontinuierliche Aktualisierungen: Geplante oder On-Demand-Pipelines halten Inhalte ohne manuellen Eingriff aktuell.
- Präzision und Nachvollziehbarkeit: Antworten zitieren Quellen, respektieren die institutionelle Tonalität und befolgen konfigurierte Grenzen.
- Unternehmenszuverlässigkeit: Detaillierte Logs, robuste Authentifizierung und Trennung nach Unternehmen gewährleisten Compliance.
Ausblick
Wir erweitern kontinuierlich die Integrationen mit CRMs, internen Datenbasen und Analytics-Tools, damit neue Inhaltsarten mit minimalem Aufwand in den Flow gelangen. fiinder.ai wird weiterhin Daten in lebendiges, zugängliches und verlässliches Wissen verwandeln — bereit, Kunden, Mitarbeitende und Partner in jedem Kanal zu bedienen.