|
Die technischen Spezifikationen für FileMaker Pro 10 erwähnen als theoretische Maximalwerte 8 TB (Terabytes) pro Datei und 1 Milliarde Zeichen pro Feld(-wiederholung). Werden wir FileMaker-Entwickler diese Limits überhaupt ankratzen können, oder ist aus anderen, praktikablen Gründen schon viel früher das Ende der Fahnenstange erreicht? Woher erhalten wir soviele praxisrelevante Daten?
Am Beispiel des Chemischen Zentralblatts, das 140 Jahre Chemiegeschichte in rund 900’000 Seiten enthält, werden Werkzeuge vorgestellt, mit denen sich die Textinformation aus den 1.3 TB pdf-Dateien extrahieren und in FileMaker einbinden lässt, und Techniken beschrieben, mit denen grosse Datenmengen bewältigt werden können, sowie auf mögliche Schwierigkeiten hingewiesen.
Indizierung, Text Mining und Suche in grossen Dokumentmengen sind eigentliche Domänen von Information-Retrieval-Systemen (IRS), denen sich ein weiterer Teil des Vortrags widmet. Charakteristika und Marktausrichtung typischer IRS werden mit den Möglichkeiten von FileMaker verglichen. Ist es möglich, mit FileMaker Funktionen eines IRS nachzubauen?
|