Podstawowe informacje o firmie

Produkty: RetrievalWare 

ACSYS BSC Sp. z o.o.

Producent oprogramowania: Convera Technologies International Ltd

Produkty, z jakimi może współpracować oprogramowanie RetrievalWare: RetrievalWare jest systemem służącym do przeszukiwania zasobów informacji elektronicznej z ogromnego zakresu różnorodnych źródeł.

 

Podstawowe informacje

RetrievalWare jest bezpieczną, skalowalną w szerokim zakresie platformą do realizacji aplikacji związanych z wyszukiwaniem i kategoryzacją informacji. Rozproszona architektura RetrievalWare, zbudowana na bazie sprawdzonej, wydajnej technologii, stanowi wysokowydajną infrastrukturę do indeksowania, przeszukiwania, kategoryzacji i łączenia informacji z ogromnego zakresu różnorodnych źródeł.

Ogromne ilości danych są przechowywane w postaci niestrukturalnej, najczęściej tekstów pisanych w języku potocznym. Bogactwo tego języka powoduje, że identyczne informacje mogą być zapisane w różny sposób. Załóżmy, że chcemy odszukać dokumenty dotyczące samochodów. Zapewne będziemy zainteresowani także dokumentami, w których pojawią się: auto, wóz, bryka… W tradycyjnym podejściu, wyszukiwanie polega na sprawdzeniu występowania w dokumencie określonego wyrazu. Tymczasem przy wyszukiwaniu informacji często bardziej jesteśmy zainteresowani pojęciem, które może być wyrażone w języku pospolitym na różne sposoby.

Innym problemem związanym z wydobywaniem informacji z tekstów pisanych w językach pospolitych jest odmiana wyrazów. Przy tradycyjnym wyszukiwaniu wyrazów dostarczenie różnych form wyrazu jest zadaniem użytkownika. Pominięcie którejś z form słów, może oznaczać nieodnalezienie istotnego – z punktu widzenia poszukiwanych przez nas informacji – dokumentu. Cała sprawa komplikuje się dodatkowo przez istnienie różnych, ale poprawnych językowo form.

Nie mniej istotnym problemem jest poprawność zapisu tekstu. Problemy z ortografią i gramatyką powodują, że poszukiwane przez nas informacje są zapisane w nieoczekiwanej postaci.

Wyglądające początkowo na bardzo proste zadanie wyszukania dokumentów dotyczących samochodów rozbudowało się do:

  • Znalezienia wyrazów reprezentujących w języku pospolitym poszukiwane pojęcie wraz z wyrazami bliskoznacznymi;

  • Sporządzenia listy form gramatycznych dla wszystkich poszukiwanych wyrazów;

  • Sporządzenia listy błędnych zapisów dla danej formy, które teoretycznie pojawiają się w tekstach.

Takie podejście zapewnia wysoką kompletność wyszukiwania: w wynikach wyszukiwania możemy się spodziewać wszystkich, lub prawie wszystkich dokumentów, dotyczących poszukiwanych przez nas informacji.

Oczywiście wysoka kompletność pociąga na ogół za sobą obniżenie precyzji wyszukiwania: w wynikach wyszukiwania możemy się spodziewać wielu dokumentów, które choć zawierają wyrazy ze skompletowanej przez nas listy, nie są dla nas istotne. (W przykładzie samochodowym, jako jeden z szukanych wyrazów mamy wóz. W wynikach mogą pojawić się dokumenty zawierające np. Wielki Wóz, które raczej nie dotyczą interesującej nas tematyki).

Aby uzyskać takie wyniki w tradycyjnych systemach wyszukiwania, użytkownik jest zajęty sporządzaniem list synonimów, form odmiany i możliwymi błędami a następnie odsiewaniem dokumentów nieistotnych. Na rzetelną analizę informacji często brakuje już czasu.

Bardzo istotną sprawą dla zachowania wysokiej kompletności przy dużej precyzji wyszukiwania jest szersza analiza tekstu dokumentu. Chodzi tutaj o wzięcie pod uwagę nie tylko faktu, że dane słowo pojawiło się w dokumencie, ale o ocenę ilościową występowania tego słowa, jego synonimów oraz wyrazów tyczących tej samej dziedziny. Dzięki takiej pogłębionej analizie, można uszeregować dokumenty w taki sposób, by najistotniejsze dla naszego wyszukiwania znalazły się na początku rankingu.

Źródła informacji, które chcielibyśmy wziąć pod uwagę, mogą być bardzo różnorodne. Zasoby przechowywane w systemie plików firmy, w najprzeróżniejszych formatach, systemy zarządzania dokumentami, systemy pracy grupowej, bazy danych, aplikacje biznesowe i wreszcie zasoby WWW to wszystko potencjalne źródła istotnych dla nas informacji. Najpoważniejszy problem z tak różnorodnymi źródłami stanowi brak infrastruktury umożliwiającej ich jednolite traktowanie. Często jesteśmy zmuszeni do oddzielnego przeszukiwania każdego z tych źródeł, a następnie łączenia wyników wyszukiwania, po to by uzyskać pełny obraz informacji na zadany temat.

Z różnorodnością źródeł informacji ściśle związana jest sprawa zabezpieczeń – użytkownik poszukujący informacji powinien mieć zapewniony dostęp jedynie do tych informacji, do których posiada odpowiednie uprawnienia.

System RetrievalWare stanowi znakomitą platformę rozwiązania wszystkich przedstawionych powyżej problemów.

Repozytorium i dostęp do danych

Bezpieczny i rozproszony dostęp do repozytorium RetrievalWare jest kontrolowany przez synchronizatory firmy Convera obsługujące ponad 200 typów dokumentów spotykanych na serwerach plików, w systemach pracy grupowej jak Lotus Notes i MS Exchange, w relacyjnych bazach danych (MS SQL, Oracle, Sybase, Informix i Teradata), w systemach zarządzania dokumentami (STELLENT, Documentum i FileNET) i w przestrzeni stron www. Synchronizatory automatycznie wykrywają zmiany, modyfikacje i aktualizacje zasobów informacyjnych w całym systemie, i automatycznie aktualizują indeksy żeby wyniki wyszukiwania były zgodne z aktualnym stanem repozytorium informacji. Jeśli system wymaga dostępu do repozytorium czy typu pliku nie obsługiwanego przez synchronizatory, można utworzyć wymagane synchronizatory za pomocą AFM Toolkit, który jest częścią RetrievalWare Developer Extensions SDK.

 

 

 

 

 

 

 

 

 

 

 

 

Wyszukiwanie i klasyfikacja

Podstawowym celem wyszukiwania informacji w systemie RetrievalWare, jest zapewnienie maksymalnej kompletności wyszukiwania przy zachowaniu wysokiej precyzji. Wysoka kompletność wynika z zastosowania zaawansowanych metod wyszukiwania. Trzy metody wyszukiwania – pojęciowe, wzorców i boolowskie, które mogą być używane niezależnie lub w połączeniu ze sobą, pozwalają użytkownikowi elastycznie dopasować sposób wyszukiwania do swoich potrzeb. Precyzję wyszukiwania i porządek zwracanych wyników zwiększa unikalna technologia kategoryzacji i klasyfikacji. Dzięki takiemu podejściu RetrievalWare osiąga wyjątkową precyzję i kompletność wyszukiwania.

Wyszukiwanie pojęć (ang. Concept search)

W tym trybie wyszukiwania oryginalne terminy (człony) zapytania uzupełniane są o wyrażenia powiązane z nimi. Definicja powiązań leksykalnych pomiędzy pojęciami odbywa się z wykorzystaniem sieci semantycznej. Firma ACSYS BSC Sp. z o.o. jako jedyna na rynku oferuje możliwość wykorzystania sieci semantycznej języka polskiego o objętości ponad 80 000 haseł w trybie wyszukiwania pojęciowego. To rozwiązanie w połączeniu z unikalnym systemem fleksji języka polskiego (obsługującego ponad 1,7 mln form wyrazowych) daje absolutną kompletność wyszukiwania wiedzy w dokumentach niezależnie od sposobu jej opisu.

Wyszukiwanie wzorców (ang. Pattern search)

Pisownia słów może się istotnie różnić, czy to z powodu błędów ortograficznych w oryginalnych dokumentach, czy późniejszych błędów wprowadzania danych, które mogą powstać w procesie OCR lub ręcznego wprowadzania danych. Oryginalne rozwiązanie APRP™ (ang. Adaptive Pattern Recognition Processing) umożliwia na odnalezienie słów, wprowadzonych z błędami, w tekście dokumentu bazując na podobieństwie wyrazów do podanego wzorca tekstowego.

Wyszukiwanie boolowskie (ang. Boolean search)

RetrievalWare zapewnia także boolowski sposób wyszukiwania, zwany też wyszukiwaniem słów kluczowych. Użytkownik jest w stanie zadawać skomplikowane warunki logiczne używając operatorów wyszukiwania boolowskiego.

Klasyfikacja stała i dynamiczna

Zaawansowane rozwiązanie Kategoryzacji i Klasyfikacji Dynamicznej RetrievalWare umożliwia odkrycie powiązań pomiędzy różnorodnymi źródłami informacji. Użytkownik może uruchomić wyszukiwanie i automatycznie klasyfikować wyniki wyszukiwania zgodnie z uprzednio zdefiniowaną lub tworzoną dynamicznie klasyfikacją. Będące podstawą klasyfikacji taksonomie mogą być taksonomiami dostarczonymi wraz z RetrievalWare lub taksonomiami dedykowanymi dla danego klienta. Dzięki zastosowaniu tych klasyfikacji użytkownicy zyskują możliwość systematycznego uporządkowania wyników według ogólnie przyjętych kryteriów naukowych.

Inteligentny ranking dokumentów

Jeżeli zapytanie zwraca wielką liczbę wyników, to można liczyć się z tym, że dokumenty, które rzeczywiście zawierają informacje, których poszukujemy zostaną przez nas niezauważone. Dlatego system RetrievalWare jest wyposażony w technologię inteligentnego rankingu dokumentów. Każdy dokument stanowiący wynik zapytania posiada swoją trafność w stosunku do zadanych warunków. Trafność dokumentu wyliczana jest na podstawie ilości wystąpień wyrazów powiązanych semantycznie z wyrazami zapytania, stopnia bliskoznaczności oraz stopnia rozprzestrzenienia znalezionych wyrazów w dokumencie.
 

 

   ACSYS BSC Sp. z o.o.: © wszelkie prawa zastrzeżone