Data mining, czyli zgłębianie danych

28 Lutego 2023

Aktualności

Naukowcy z Wydziału Matematyki i Informatyki UWM zajmują się rozmaitymi zagadnieniami z zakresu sztucznej inteligencji. Jednym z nich jest to, jak opakować pomysł w technologię SI i stworzyć gotowy produkt. O tym rozmawiamy z dr. hab. Piotrem Artiemjewem, prof. UWM, który nie tylko zawodowo zajmuje się sztuczną inteligencją, ale także jest jej pasjonatem.

Gdy mówimy o sztucznej inteligencji, to jednym z ważnych pojęć jest data mining. Co ono oznacza i jak możemy zdefiniować produkt data miningowy?

Data mining to proces odkrywania wzorców w danych w tym z zastosowaniem technik sztucznej inteligencji. Technologie sztucznej inteligencji obejmują metody inteligentnego przetwarzania informacji, będące przynajmniej na równi z możliwościami człowieka. Produkt data miningowy, to oprogramowanie, które wykonuje ustalone zadania za pomocą inteligentnych metod przetwarzania informacji.

Jakich dyscyplin naukowych dotyczy modelowanie produktów data miningowych?

Śmiało można stwierdzić, że modelowanie produktów data miningowych dotyczy wszystkich dyscyplin naukowych. Rozwój każdej dyscypliny prędzej czy później zetknie się z modelowaniem z użyciem technik sztucznej inteligencji, ponieważ w każdej sferze badań podejmujemy jakieś decyzje oraz tworzymy nowe, ustrukturyzowane treści na podstawie zebranych informacji.

Do jakich obszarów wykorzystuje się produkty data miningowe?

Przykładowe obszary formowania produktów obejmują modelowanie problemów na danych historycznych z podjętymi decyzjami oraz tworzenie modeli nadzorowanych. W tym obszarze tworząc produkt, uczymy model podejmowania decyzji najlepiej jak to możliwe, odwzorowując wiedzę eksperta. Produktem może być np. system wspomagania decyzji medycznej. Drugim podstawowym typem metod są modele nienadzorowane. To techniki, w których stosujemy informacje o podobieństwie analizowanych problemów w celu znalezienia w nich wzorców. Przykładem może być wyszukiwanie grupy użytkowników o podobnych cechach dla zmaksymalizowania zainteresowania wybraną informacją. Trzecim nurtem technik data miningowych jest uczenie przez wzmocnienie. W tych metodach prowadzimy obserwację otoczenia z interakcją. Uczymy się rozwiązywania problemów przez zbieranie w czasie rzeczywistym informacji i strojenie modelu do uzyskania oczekiwanego efektu. Przykładem dla tego trzeciego nurtu może być np. sterowanie autonomicznym pojazdem latającym w warunkach wcześniej nieznanych. Możliwe jest łączenie tych trzech rodzin technik, tworząc metody hybrydowe przeznaczone pod konkretne rozwiązania.

Jak metodologicznie podejść do opakowania pomysłu w techniki sztucznej inteligencji?

Praktycznie każdy proces rozumowania możemy lub będziemy mogli zautomatyzować w niedalekiej przyszłości przez zastosowanie pewnej sekwencji kroków przetwarzania danych. Jedną z popularnych metodologii modelowania jest CRISP-DM (Cross Industry Strandard Process for Data Mining). Zaprezentujmy, jak działa cykl modelowania CRISP-DM. Przede wszystkim stosujemy cykl kroków: zdefiniowanie i zrozumienie celu, zrozumienie danych, przygotowanie danych, modelowanie, ewaluacja. Następnie formowany jest finalny produkt z użyciem najlepszego spośród przetestowanych sposobu rozwiązywania problemu. Stosujemy całą dostępną wiedzę, najlepszą odkrytą metodę rozwiązywania problemu (z określeniem oszacowaniem jej efektywności). I stosujemy opakowany w stosowny interfejs użytkownika produkt. Oczywiście produkt data miningowy oferowany na rynku powinien funkcjonować w cyklu życia oprogramowania.

Mógłby pan wyjaśnić, co oznaczają te poszczególne kroki?

Zdefiniowanie i zrozumienie celu to określenie problemu do rozwiązania i w miarę możliwości zatrudnienie ekspertów dziedzinowych. Zrozumienie danych to zdefiniowanie, jakiego typu danych i w jakim kontekście możemy używać. Przygotowanie danych to proces ich przetwarzania do formy, która może być skutecznie użyta w uczeniu wybranego modelu SI. Pewne techniki wymagają specyficznej postaci danych, np. sieci neuronowe znormalizowanych wartości. Modelowanie to proces szukania najlepszego sposobu podejmowania decyzji. W tym procesie szacuje się skuteczność użytej metody przez zastosowanie wybranego kryterium docelowego. W zależności od modelu dzieląc dane wielokrotnie na systemem testowy i treningowy. Ewaluacja to określenie finalnej skuteczności wybranego najlepszego modelu w warunkach rzeczywistych. Wdrożenie to opakowanie produktu i osadzenie na docelowej platformie. Muszę jednak podkreślić, że powyższy przepis jest uproszczony. W tworzeniu oprogramowania opartego na sztucznej inteligencji, należy pamiętać o sferze etycznej oraz prawnej działania oprogramowania, stronie cyklu życia oprogramowania i wszelkich szczegółowych ustaleniach co do działania finalnego modelu.

Z tego wszystkiego, co pan powiedział, jako laik mogę wyciągać tylko jeden prosty wniosek: sztuczna inteligencja jest wszechobecna w cyfrowym świecie.

To prawda, i często jest stosowana nawet bez świadomości jej użytkowników. Stanowi systemy rozpoznawania i generowania tekstu i mowy, systemy wizji komputerowej, metody rekomendacji produktów, techniki podejmowania decyzji, przetwarzania danych, odkrywania nowej wiedzy z danych. Każde z wymienionych zagadnień ma szerokie teoretyczne i techniczne zaplecze w świecie nauki. Techniki SI wkraczają do codziennego życia w postaci czarnych skrzynek (produktów), bez których finalnie świat nie będzie mógł funkcjonować na wysokim poziomie rozwoju.

Rozmawiała Marta Wiśniewska

Dr hab. Piotr Artiemjew, prof. UWM pracuje w Katedrze Metod Matematycznych Informatyki, Wydziału Matematyki i Informatyki. Jest przewodniczącym zespołu ds. dyscypliny informatyka techniczna i telekomunikacja. Należy do grup zajmujących się rozwojem technik sztucznej inteligencji. W tym Polskiego Stowarzyszenia Sztucznej Inteligencji oraz Międzynarodowego Towarzystwa Zbiorów Przybliżonych. Jego specjalnością badawczą są systemy decyzyjne (doktorat) i uczenie maszynowe (habilitacja).

fot. freepik, archiwum prywatne

Tagi

data mining

zbieranie danych

sztuczna inteligencja

Wydział Matematyki i Informatyki

Piotr Artiemjew

Nauka

Rodzaj artykułu

Aktualności

Najnowsze

Popularne tagi