Jak hakerzy zarabiają na twoich skradzionych danych?
23 września 2020Cyberprzestępcy włożą wiele wysiłku w kradzież Twoich danych - ale co tak naprawdę zrobią z Twoimi danymi, gdy już je zdobędą? W większości przypadków kradzież danych jest...
Jeśli chodzi o oprogramowanie antywirusowe, niektórzy sprzedawcy wywołują uczenie się maszyn jako srebrny pocisk do złośliwego oprogramowania - ale ile prawdy jest w tych twierdzeniach?
W dzisiejszym wpisie przyjrzymy się temu, w jaki sposób nauka maszynowa jest wykorzystywana w oprogramowaniu antywirusowym i czy rzeczywiście jest to doskonałe rozwiązanie zabezpieczające.
Jak działa nauka maszynowa?
W branży antywirusowej uczenie maszynowe jest zazwyczaj stosowane w celu poprawy zdolności wykrywania produktu. Podczas gdy konwencjonalna technologia wykrywania opiera się na zasadach kodowania w celu wykrycia złośliwych wzorców, algorytmy uczenia maszynowego budują model matematyczny oparty na przykładowych danych w celu przewidzenia, czy plik jest "dobry" czy "zły".
Mówiąc prościej, polega to na zastosowaniu algorytmu do analizy obserwowalnych punktów danych dwóch, ręcznie utworzonych zbiorów danych: jednego, który zawiera tylko złośliwe pliki, i drugiego, który zawiera tylko pliki niezłośliwe.
Następnie algorytm opracowuje zasady, które pozwalają mu odróżnić dobre pliki od złych, bez podawania żadnych wskazówek co do tego, jakiego rodzaju wzorców czy punktów danych należy szukać. Punktem danych jest każda jednostka informacji związana z plikiem, w tym wewnętrzna struktura pliku, kompilator, który został użyty, zasoby tekstowe skompilowane do pliku i wiele innych.
Algorytm kontynuuje obliczanie i optymalizację swojego modelu aż do momentu, w którym osiągnie precyzyjny system detekcji, który (idealnie) nie klasyfikuje żadnych dobrych programów jako złych i żadnych złych jako dobre. Rozwija swój model poprzez zmianę wagi lub znaczenia każdego punktu danych. Z każdą iteracją, model staje się nieco lepszy w precyzyjnym wykrywaniu szkodliwych i nieszkodliwych plików.
Oprogramowanie antywirusowe od czołowych światowych ekspertów w dziedzinie okupu. Pobierz bezpłatną wersję próbną już dziś. Spróbuj teraz.
Nauka maszynowa może pomóc w wykryciu nowego złośliwego oprogramowania
Nauka maszynowa pomaga programom antywirusowym wykrywać nowe zagrożenia bez polegania na podpisach. W przeszłości oprogramowanie antywirusowe polegało w dużej mierze na pobieraniu odcisków palców, co działało poprzez porównywanie plików z ogromną bazą znanego złośliwego oprogramowania.
Główna wada polega na tym, że sprawdzarki sygnatur mogą wykrywać tylko złośliwe oprogramowanie, które było już wcześniej widziane. Jest to dość duża martwa strefa, biorąc pod uwagę, że każdego dnia powstają setki tysięcy nowych wariantów złośliwego oprogramowania.
Z drugiej strony, uczenie maszynowe może być szkolone w zakresie rozpoznawania oznak dobrych i złych plików, co pozwala na identyfikację szkodliwych wzorców i wykrywanie złośliwego oprogramowania - niezależnie od tego, czy było ono już wcześniej widziane, czy nie.
Ograniczenia nauki maszynowej
Podczas gdy uczenie się maszyn może być bardzo skutecznym narzędziem, technologia ta ma swoje ograniczenia.
Potencjał eksploatacyjny
Jedną z kluczowych słabości uczenia się maszynowego jest to, że nie rozumie ona implikacji tworzonego przez siebie modelu - po prostu to robi. Po prostu wykorzystuje najbardziej efektywną, sprawdzoną matematycznie metodę do przetwarzania danych i podejmowania decyzji.
Jak zauważono wcześniej, algorytm jest zasilany milionami punktów danych, ale nikt specjalnie nie mówi mu, które punkty danych są wskaźnikami złośliwego oprogramowania. To jest do odkrycia przez model uczenia się maszynowego na własną rękę.
Skutek jest taki, że żaden człowiek nigdy nie może się dowiedzieć, które punkty danych mogą - zgodnie z modelem uczenia maszynowego - wskazywać na zagrożenie. Może to być pojedynczy punkt danych lub konkretna kombinacja 20 punktów danych. Zmotywowany atakujący może potencjalnie odkryć, w jaki sposób model wykorzystuje te parametry do identyfikacji zagrożenia i wykorzystania go na swoją korzyść. Zmiana jednego konkretnego, pozornie nieistotnego punktu danych w złośliwym pliku może być wystarczająca, by zmusić model do sklasyfikowania złośliwego oprogramowania jako bezpiecznego i podważyć cały model.
Aby rozwiązać ten problem, sprzedawca musiałby dodać zmanipulowany plik do zestawu danych i ponownie obliczyć cały model, co może zająć kilka dni lub tygodni. Niestety, to i tak nie naprawiłoby podstawowego problemu - nawet po przebudowie modelu, byłoby tylko kwestią czasu, aż napastnik znajdzie inny punkt danych lub kombinację punktów danych, które mogłyby zostać wykorzystane do oszukiwania systemu uczenia maszynowego.
Dokładnie tak było w lipcu 2019 r., kiedy to naukowcy z firmy Skylight Cyber odkryli, że popularny produkt zabezpieczający oparty na sztucznej inteligencji posiada białą listę pewnych plików, aby uniknąć wywoływania fałszywych wyników pozytywnych. Ciągom kodu w tych plikach z białej listy nadano dużą wagę w systemie punktacji algorytmu, co oznaczało, że niemalże zagwarantowano ich nadrzędność nad naturalnym procesem decyzyjnym algorytmu. Kiedy model natknął się na kod zawarty w plikach z białej listy, oznaczał plik jako bezpieczny - nawet jeśli był on osadzony w innym złośliwym pliku. W rezultacie badacze byli w stanie podważyć algorytm, po prostu pobierając ciągi kodu z nieszkodliwego pliku z białą listą i dołączając je do złośliwego pliku.
Jak zauważyli naukowcy, tego typu atak nie byłby możliwy, gdyby produkt wykorzystywał dodatkowe technologie ochrony, takie jak skaner sygnatur, który nie opiera się na algorytmach, czy heurystyka, która wykrywa zagrożenia w oparciu o zachowanie, a nie parametry pliku.
Wymaga dużego, dobrze oznakowanego zbioru danych
Systemy uczenia się maszyn są tylko tak dobre jak dane, które są im dostarczane. Szkolenie efektywnego modelu wymaga ogromnej ilości danych wejściowych, z których każda musi być prawidłowo oznakowana. Etykiety te pomagają modelowi zrozumieć pewne cechy danych (np. czy dany plik jest czysty, złośliwy czy potencjalnie niechciany).
Zdolność modelu do skutecznego uczenia się zależy jednak od tego, czy zestaw danych jest doskonale oznaczony, co może być trudne do osiągnięcia i wymagać dużych nakładów. Pojedyncze nieprawidłowo oznaczone dane wejściowe wśród milionów doskonale oznaczonych punktów danych mogą nie brzmieć zbyt dobrze, ale jeśli model wykorzystuje nieprawidłowo oznaczone dane wejściowe do podjęcia decyzji, może to skutkować błędami, które są następnie wykorzystywane jako podstawa do uczenia się w przyszłości. Tworzy to efekt kuli śnieżnej, który może mieć znaczące reperkusje w dalszej części linii.
Wielowarstwowe podejście do bezpieczeństwa cyberprzestrzeni
Uczenie się maszynowe to potężna technologia, która w nadchodzących latach może odgrywać coraz większą rolę w świecie bezpieczeństwa cybernetycznego. Jednakże, jak wspomniano powyżej, ma ona swoje wady i ograniczenia. Poleganie na oprogramowaniu antywirusowym, które jest zasilane wyłącznie przez SI lub uczenie maszynowe może pozostawić użytkownika podatnym na złośliwe oprogramowanie i inne zagrożenia.
Rozwiązania, które wykorzystują kombinację technologii ochrony, prawdopodobnie zapewnią lepsze bezpieczeństwo niż produkt, który jest w całości oparty na sztucznej inteligencji. Na przykład, Emsisoft wykorzystuje moc SI i uczenia maszynowego, a także inne technologie ochrony, takie jak analiza behawioralna i sprawdzanie podpisów. Systemy te działają synergicznie, podwójnie i potrójnie sprawdzając swoje wyniki w celu zapewnienia najlepszej możliwej ochrony przed złośliwym oprogramowaniem.
Wielowarstwowe podejście do bezpieczeństwa pozwala uniknąć wrzucania wszystkich jaj do jednego koszyka i maksymalizuje szanse na zatrzymanie złośliwego oprogramowania zanim zainfekuje ono Twój system.
0Komentarze