|
|
ACSYS BSC Sp. z o.o.
Produkty, z jakimi może
współpracować oprogramowanie RetrievalWare: RetrievalWare jest systemem
służącym do przeszukiwania zasobów informacji elektronicznej z
ogromnego zakresu różnorodnych źródeł.
Podstawowe informacje
RetrievalWare jest bezpieczną,
skalowalną w szerokim zakresie platformą do realizacji aplikacji
związanych z wyszukiwaniem i kategoryzacją informacji.
Rozproszona architektura RetrievalWare, zbudowana na bazie
sprawdzonej, wydajnej technologii, stanowi wysokowydajną
infrastrukturę do indeksowania, przeszukiwania, kategoryzacji i
łączenia informacji z ogromnego zakresu różnorodnych źródeł.
Ogromne
ilości danych są przechowywane w postaci niestrukturalnej,
najczęściej tekstów pisanych w języku potocznym. Bogactwo tego
języka powoduje, że identyczne informacje mogą być zapisane w
różny sposób. Załóżmy, że chcemy odszukać dokumenty dotyczące
samochodów. Zapewne będziemy zainteresowani także
dokumentami, w których pojawią się: auto, wóz, bryka… W
tradycyjnym podejściu, wyszukiwanie polega na sprawdzeniu
występowania w dokumencie określonego wyrazu. Tymczasem
przy wyszukiwaniu informacji często bardziej jesteśmy
zainteresowani pojęciem, które może być wyrażone w języku
pospolitym na różne sposoby.
Innym
problemem związanym z wydobywaniem informacji z tekstów pisanych
w językach pospolitych jest odmiana wyrazów. Przy tradycyjnym
wyszukiwaniu wyrazów dostarczenie różnych form wyrazu jest
zadaniem użytkownika. Pominięcie którejś z form słów, może
oznaczać nieodnalezienie istotnego – z punktu widzenia
poszukiwanych przez nas informacji – dokumentu. Cała sprawa
komplikuje się dodatkowo przez istnienie różnych, ale poprawnych
językowo form.
Nie mniej
istotnym problemem jest poprawność zapisu tekstu. Problemy z
ortografią i gramatyką powodują, że poszukiwane przez nas
informacje są zapisane w nieoczekiwanej postaci.
Wyglądające
początkowo na bardzo proste zadanie wyszukania dokumentów
dotyczących
samochodów rozbudowało się do:
-
Znalezienia wyrazów reprezentujących w języku pospolitym
poszukiwane pojęcie wraz z wyrazami bliskoznacznymi;
-
Sporządzenia listy form
gramatycznych dla wszystkich poszukiwanych wyrazów;
-
Sporządzenia listy
błędnych zapisów dla danej formy, które teoretycznie
pojawiają się w tekstach.
Takie
podejście zapewnia wysoką kompletność wyszukiwania: w
wynikach wyszukiwania możemy się spodziewać wszystkich, lub
prawie wszystkich dokumentów, dotyczących poszukiwanych przez
nas informacji.
Oczywiście
wysoka kompletność pociąga na ogół za sobą obniżenie precyzji
wyszukiwania: w wynikach wyszukiwania możemy się spodziewać
wielu dokumentów, które choć zawierają wyrazy ze skompletowanej
przez nas listy, nie są dla nas istotne. (W przykładzie
samochodowym, jako jeden z szukanych wyrazów mamy wóz. W
wynikach mogą pojawić się dokumenty zawierające np. Wielki Wóz,
które raczej nie dotyczą interesującej nas tematyki).
Aby uzyskać
takie wyniki w tradycyjnych systemach wyszukiwania, użytkownik
jest zajęty sporządzaniem list synonimów, form odmiany i
możliwymi błędami a następnie odsiewaniem dokumentów
nieistotnych. Na rzetelną analizę informacji często brakuje już
czasu.
Bardzo
istotną sprawą dla zachowania wysokiej kompletności przy dużej
precyzji wyszukiwania jest szersza analiza tekstu dokumentu.
Chodzi tutaj o wzięcie pod uwagę nie tylko faktu, że dane słowo
pojawiło się w dokumencie, ale o ocenę ilościową występowania
tego słowa, jego synonimów oraz wyrazów tyczących tej samej
dziedziny. Dzięki takiej pogłębionej analizie, można uszeregować
dokumenty w taki sposób, by najistotniejsze dla naszego
wyszukiwania znalazły się na początku rankingu.
Źródła
informacji, które chcielibyśmy wziąć pod uwagę, mogą być bardzo
różnorodne. Zasoby przechowywane w systemie plików firmy, w
najprzeróżniejszych formatach, systemy zarządzania dokumentami,
systemy pracy grupowej, bazy danych, aplikacje biznesowe i
wreszcie zasoby WWW to wszystko potencjalne źródła istotnych dla
nas informacji. Najpoważniejszy problem z tak różnorodnymi
źródłami stanowi brak infrastruktury umożliwiającej ich
jednolite traktowanie. Często jesteśmy zmuszeni do oddzielnego
przeszukiwania każdego z tych źródeł, a następnie łączenia
wyników wyszukiwania, po to by uzyskać pełny obraz informacji na
zadany temat.
Z
różnorodnością źródeł informacji ściśle związana jest sprawa
zabezpieczeń – użytkownik poszukujący informacji powinien mieć
zapewniony dostęp jedynie do tych informacji, do których posiada
odpowiednie uprawnienia.
System
RetrievalWare stanowi znakomitą platformę rozwiązania wszystkich
przedstawionych powyżej problemów.
Repozytorium i dostęp do danych
Bezpieczny i
rozproszony dostęp do repozytorium RetrievalWare jest
kontrolowany przez synchronizatory firmy Convera obsługujące
ponad 200 typów dokumentów spotykanych na serwerach plików, w
systemach pracy grupowej jak Lotus Notes i MS Exchange, w
relacyjnych bazach danych (MS SQL, Oracle, Sybase, Informix i
Teradata), w systemach zarządzania dokumentami (STELLENT,
Documentum i FileNET) i w przestrzeni stron www. Synchronizatory
automatycznie wykrywają zmiany, modyfikacje i aktualizacje
zasobów informacyjnych w całym systemie, i automatycznie
aktualizują indeksy żeby wyniki wyszukiwania były zgodne z
aktualnym stanem repozytorium
informacji. Jeśli system wymaga dostępu do repozytorium czy typu
pliku nie obsługiwanego przez synchronizatory, można utworzyć
wymagane synchronizatory za pomocą AFM Toolkit, który jest
częścią RetrievalWare Developer Extensions SDK.
Wyszukiwanie i klasyfikacja
Podstawowym
celem wyszukiwania informacji w systemie RetrievalWare, jest
zapewnienie maksymalnej kompletności wyszukiwania przy
zachowaniu wysokiej precyzji. Wysoka kompletność wynika z
zastosowania zaawansowanych metod wyszukiwania. Trzy metody
wyszukiwania – pojęciowe, wzorców i boolowskie, które mogą być
używane niezależnie lub w połączeniu ze sobą, pozwalają
użytkownikowi elastycznie dopasować sposób wyszukiwania do
swoich potrzeb. Precyzję wyszukiwania i porządek zwracanych
wyników zwiększa unikalna technologia kategoryzacji i
klasyfikacji. Dzięki takiemu podejściu RetrievalWare osiąga
wyjątkową precyzję i kompletność wyszukiwania.
Wyszukiwanie pojęć (ang.
Concept search)
W tym trybie
wyszukiwania oryginalne terminy (człony) zapytania uzupełniane
są o wyrażenia powiązane z nimi. Definicja powiązań leksykalnych
pomiędzy pojęciami odbywa się z wykorzystaniem sieci
semantycznej. Firma ACSYS BSC Sp. z o.o. jako jedyna na rynku
oferuje możliwość wykorzystania sieci semantycznej języka
polskiego o objętości ponad 80 000 haseł w trybie wyszukiwania
pojęciowego. To rozwiązanie w połączeniu z unikalnym systemem
fleksji języka polskiego (obsługującego ponad 1,7 mln form
wyrazowych) daje absolutną kompletność wyszukiwania wiedzy w
dokumentach niezależnie od sposobu jej opisu.
Wyszukiwanie
wzorców (ang. Pattern search)
Pisownia
słów może się istotnie różnić, czy to z powodu błędów
ortograficznych w oryginalnych dokumentach, czy późniejszych
błędów wprowadzania danych, które mogą powstać w procesie OCR
lub ręcznego wprowadzania danych. Oryginalne rozwiązanie APRP™
(ang. Adaptive Pattern Recognition Processing) umożliwia na
odnalezienie słów, wprowadzonych z błędami, w tekście dokumentu
bazując na podobieństwie wyrazów do podanego wzorca tekstowego.
Wyszukiwanie boolowskie (ang. Boolean search)
RetrievalWare zapewnia także
boolowski sposób wyszukiwania, zwany też wyszukiwaniem słów
kluczowych. Użytkownik jest w stanie zadawać skomplikowane
warunki logiczne używając operatorów wyszukiwania boolowskiego.
Klasyfikacja stała i dynamiczna
Zaawansowane
rozwiązanie Kategoryzacji i Klasyfikacji Dynamicznej
RetrievalWare umożliwia odkrycie powiązań pomiędzy różnorodnymi
źródłami informacji. Użytkownik może uruchomić wyszukiwanie i
automatycznie klasyfikować wyniki wyszukiwania zgodnie z
uprzednio zdefiniowaną lub tworzoną dynamicznie klasyfikacją.
Będące podstawą klasyfikacji taksonomie mogą być taksonomiami
dostarczonymi wraz z RetrievalWare lub taksonomiami dedykowanymi
dla danego klienta. Dzięki zastosowaniu tych klasyfikacji
użytkownicy zyskują możliwość systematycznego uporządkowania
wyników według ogólnie przyjętych kryteriów naukowych.
Inteligentny
ranking dokumentów
Jeżeli
zapytanie zwraca wielką liczbę wyników, to można liczyć się z
tym, że dokumenty, które rzeczywiście zawierają informacje,
których poszukujemy zostaną przez nas niezauważone. Dlatego
system RetrievalWare jest wyposażony w technologię
inteligentnego rankingu dokumentów. Każdy dokument stanowiący
wynik zapytania posiada swoją trafność w stosunku do zadanych
warunków. Trafność dokumentu wyliczana jest na podstawie ilości
wystąpień wyrazów powiązanych semantycznie z wyrazami zapytania,
stopnia bliskoznaczności oraz stopnia rozprzestrzenienia
znalezionych wyrazów w dokumencie.
|
|
|
|