File Classification Infrastructure

File Classification Infrastructure

Rate This
  • Comments 2

Opowiadając podczas konferencji MTS o niewątpliwych zaletach Windows Server 2008 R2 pokazałem na żywo tylko kilka funkcjonalności i to właśnie tytułowy mechanizm FCI został przedstawiony jako pierwszy. FCI jest nowością niedostępną we wcześniejszych wersjach systemu i w przeciwieństwie do wielu innych udoskonaleń – działa wyłącznie po stronie serwera, bez oglądania się na wersje systemów klienckich. Prostota użycia, dostępność w każdej wersji serwera i brak wymagań dla klientów sprawia, że FCI można użyć praktycznie natychmiast, na każdym serwerze 2008R2 pełniącym rolę serwera plików.

Idea FCI jest bardzo prosta i sprowadza się do dwóch zadań:

  1. Klasyfikacji pliku
  2. Wykonania zadań na plikach stosownie do ich klasyfikacji.

Diabeł oczywiście tkwi w szczegółach i zwłaszcza mechanizm klasyfikacji pliku może budzić pewne wątpliwości u administratorów konfigurujących go po raz pierwszy. Wynika to głównie z faktu, że mechanizm, ten skonstruowany został maksymalnie elastycznie i zamiast prostego kreatora, do dyspozycji mamy interfejs z wieloma opcjami, z których najcenniejsze dostępne są po kliknięciu przycisków zawierających słowo "Advanced". Poza detalami technicznymi, myśląc o klasyfikacji plików, warto znać również sposób i kryteria tej klasyfikacji. Dlatego, moja nieśmiała sugestia brzmi następująco: skonfiguruj i przetestuj FCI w środowisku laboratoryjnym i poznaj jego możliwości. Gdy będziesz już dokładnie wiedzieć co da się w praktyce zrobić – porozmawiaj z biznesem. To zwykle są ich dane, więc to oni powinni podejmować decyzje o tym jak je traktować. IT powinno robić to, czego pragnie biznes, ale czasem warto im podpowiedzieć, że coś zrobić się da i że nie będzie to dużo kosztowało.

Mając już wiedzę o tym, jak chcemy pliki klasyfikować, musimy przełożyć ją na atrybuty. Przykładem może być atrybut "Dane osobowe" przyjmujący wartości TAK lub NIE. Albo "Klauzula tajności " z wartościami Jawne/Zastrzeżone/Poufne/Tajne/Ściśle tajne. Albo "Data obowiązywania", gdzie wartości są datą z kalendarza. Do dyspozycji mamy typy:

  • Tak/Nie
  • Data i czas
  • Liczba
  • Lista wielokrotnego wyboru
  • Lista jednokrotnego wyboru
  • Łańcuch tekstowy
  • Kilka łańcuchów tekstowych

Jak ich w praktyce użyć i do czego – to właśnie powinien mniej lub bardziej jasno powiedzieć biznes.

Typy te łatwo przełożyć na konfigurację serwera w specjalnym interfejsie FSRM, w gałęzi Classification Management / Classification Properties:

FCI01

Następnym, bardzo istotnym krokiem jest utworzenie zasad, według których plikom nadane zostaną skonfigurowane wcześniej atrybuty. To tak naprawdę dość trudny etap, bo skoro autor czasem nie jest w stanie jednoznacznie powiedzieć jak ważny jest dokument, to czego można oczekiwać od programu? Tak więc, podstawą są najpierw jasne kryteria. Dopiero gdy je mamy, możemy myśleć o nauczeniu serwera jak to robić automatycznie.

Metoda pierwsza jest bardzo prosta i oddaje użytkownikowi istotną część decyzji. Jeżeli plik trafia do folderu X, to nadajemy mu atrybut Y. Plik taki, niezależnie gdzie sobie potem powędruje, atrybut już ma. Dla jasności warto tutaj zwrócić uwagę, jak nadawanie atrybutów jest realizowane. Tam gdzie format pliku (na przykład DOCX) pozwala na opisywanie pliku dodatkowymi atrybutami, tam funkcjonalność ta jest wykorzystywana. Jeżeli nie da się tego zrobić (na przykład dla plików tekstowych) – używane są Alternate Data Streams.

fci02

Wewnątrz alternatywnego strumienia, dane zapisywane są w wewnętrznym binarnym formacie, więc nie są szczególnie interesujące dla użytkowników. Użycie ADS oznacza również, że skopiowanie raz sklasyfikowanego pliku na inny wolumen NTFS sprawi, że klasyfikacja zostanie skopiowana razem z plikiem. Warto o tym wiedzieć zwłaszcza, że domyślne ustawienia FCI mówią, że raz nadane atrybuty nie będą już modyfikowane, nawet gdy plik trafi do folderu, w którym obowiązują inne zasady. Można to oczywiście zmienić, używając standardowego interfejsu zarządzającego.

FCI03

Druga (oprócz położenia w folderze X) metoda klasyfikacji opiera się na treści pliku. Tutaj oczywiście nie chodzi o binarną zawartość tylko o faktycznie zapisaną informację. System Windows potrafi przeczytać i zrozumieć wiele formatów plików dzięki mechanizmom tak zwanych iFilters. Metoda ta znana i stosowana jest od czasów, gdy ktoś wpadł na pomysł, że system mógłby indeksować pliki. Jeżeli jakiś iFilter jest dla danego typu plików zarejestrowany – system zrozumie zapisane dane. Zrozumie pliki Office, pliki TIFF (tutaj obrazki są rozpoznawane mechanizmami OCR), pliki PDF (po doinstalowaniu dodatkowego iFiltra) czy dowolny inny format. Mechanizm iFilters jest znany od dawna, dobrze udokumentowany i sprawdza się od lat w praktyce.
Aby klasyfikować pliki na podstawie treści, należy utworzyć regułę i przełączyć w niej domyślny tryb "Folder Classifier" na "Content Classifier", po czym kliknąć "Advanced", przełączyć na zakładkę "Additional Classification Parameters" i tam wpisać co musi zawierać treść pliku, żeby automat nadał mu określoną klasyfikację.

fci04

Możemy tu używać prostych porównań, wyrażeń regularnych i w ogóle elastyczność mechanizmu jest spora, ale sprawdzi się pod warunkiem, gdy administrator rzeczywiście wie, czego chce.

Na koniec, warto wspomnieć o automatach, które sklasyfikowane pliki mogą automatycznie w jakiś sposób przetworzyć. Tworzy się je, wybierając z drzewa w lewej części okna pozycję "File Management Tasks" i tworząc nowe zadanie. Po nazwaniu go i określeniu folderów, można utworzyć praktycznie dowolny automat, który wykona zadane operacje o zadanym czasie.

fci05

Gotowe!

Jak widać, zarządzanie FCI nie jest bardzo trudne, jeżeli tylko wiemy, co tak naprawdę chcemy uzyskać. FCI już jest i działa w systemie, więc warto z niego skorzystać.

Na koniec jeszcze raz powtórzę, to co jasno starałem się pokazać w treści: pliki na serwerze zawierają zwykle dane nie należące wcale do IT. IT dostało je tylko pod troskliwą opiekę. Dlatego, wszelkie istotne działania na plikach koniecznie należy z właścicielem danych uzgodnić.

Autor: Grzegorz Tworek [MVP]

Comments
  • Gdy pierwszy raz, jeszcze przed premierą widziałem FCI na prezentacji wydawał mi się świetnym pomysłem - do czasu gdy zadałem pytania. I tutaj myśle też tkwi problem dlaczego nie jest szeroko używany. Główne zastrzeżenia albo punktu z mojej strony co do wdrożenia FCI:

    - brak mechanizmu spójnego zarządzania konfiguracją na wszystkich serwerach w organizacji. Nie ma mechanizmu pozwalającego na zrobienie 'push' polityki na wszystkie maszyny. Można dystrybucję konfiguracji oskryptować, ale pytanie czy to jest rozwiązanie, które jest do ogarnięcia w dużej skali.  Do ogarnięcia jest, to wiem ... w końcu administrator potrafi. Pytanie czy to dobry sposób zarządzania tego typu rzeczami

    - brak mechanizmu zapewniającego spójność przyjętej taksonomii opisu plików, chociażby pomiędzy FS i Sharepoint gdzie taka istnieje. Ja wiem że to kwestia biznesu bardziej, ale jeżeli biznes ma możliwość tworzenia "tagów" i opisywania plików na SPS, a potem te pliki lądują na FS gdzie jest już totalnie inna polityka, i trafaja ponownie na SPS. Zaczyna się rozjazd.

    I tak, doczytałem to co napisałeś, czyli : (...) Jak widać, zarządzanie FCI nie jest bardzo trudne, jeżeli tylko wiemy, co tak naprawdę chcemy uzyskać. FCI już jest i działa w systemie, więc warto z niego skorzystać. (...). Tylko to punkt widzenia od strony technologicznej, od strony merytorycznej ten mechanizm już aż taki gotowy nie jest. Trochę przypomina kilka innych przypadków, gdzie w systemie mamy fajne możliwości a nie mamy do nich tego małego "czegoś" co by zamkneło rozwiązanie.

    Teraz z Win8 dodatkowo dojdzie nam warstwa polityki dostępu, która będzie również uwzględniała kalsyfikację plików, i z moich ostatnich rozmów na TEC wynika, że problemy jakie występowały przy FCI w kwestii spójności zarządzania tą informacją, zostaną przeniesione również na tą warstwę.

    I żeby nie było że marudzę - FCI to naprawdę fajny mechanizm, po prostu wydaje mi się że te rzecyz które wspomniałem, powodują że nie jest szeroko używany.

  • ad 1) pytanie, czy na wszystkich serwerach faktycznie ma być tak samo? To po co wiele serwerów w takiej sytuacji... wydaje mi się, że oskryptowanie się sprawdzi, jeżeli naprawdę pełnej powtarzalności potrzebujesz.

    ad 2) trochę masz rację. I znowu moje pytanie: czy to faktycznie wada FCI?

    IMHO szeroko używany nie jest głównie dlatego, że serwery plików na 2008R2 są rzadkością i nowością. Z czasem będzie lepiej. :)

Page 1 of 1 (2 items)
Leave a Comment
  • Please add 7 and 8 and type the answer here:
  • Post