Świat potrzebuje bioinformatyków

Dr Jan Jastrzębski stoi obok maszyny informatycznej, fot. Janusz Pająk

10 Lutego 2026

Aktualności

O rozwoju bioinformatyki i zmianach, których dokonała w tym obszarze sztuczna inteligencja, a także o potrzebie tworzenia analiz w naukach biologicznych opowiada dr Jan Jastrzębski z Wydziału Biologii i Biotechnologii UWM.

Jak możemy zdefiniować bioinformatykę?

To dziedzina nauk biologicznych, która jest odpowiedzią matematyków i informatyków na potrzeby biologii. Zaangażowana w nią jest nawet sztuka, bo wykorzystuje grafikę komputerową, gdy chcemy w sposób atrakcyjny i zrozumiały zwizualizować wielowymiarowe dane. Bioinformatyka znajduje się na pograniczu kilku dziedzin. Rozwija się intensywnie i doświadcza skoków rozwojowych, które zależą od skoków w każdej z dziedzin, których dotyka. Jej początkiem było gromadzenie danych w formie cyfrowej, przechowywanie ich i przetwarzanie. Pierwszym dużym skokiem rozwoju bioinformatyki był Human Genome Project, gdy potrzebne były metody przetwarzania danych do sekwencjonowania ludzkiego genomu. Gdy około 2005 r. zastosowano na masową skalę technologię mikromacierzową i można było robić analizy wielu genów na raz, a potem sekwencjonowanie wysokoprzepustowe NGS, był to potężny skok w biologii, szczególnie biologii molekularnej. Przyspieszyła wtedy także bioinformatyka. Ostatnie lata to dynamiczny rozwój technologiczny i narzędzi opartych na sztucznej inteligencji, które są wykorzystywane do analizy danych biologicznych.

Jak wykorzystuje pan sztuczną inteligencję?

W moim zespole piszemy skrypty analityczne. Bez sztucznej inteligencji napisanie takiego skryptu zajmowało nam nawet kilka miesięcy. Dzisiaj taki sam czasami jestem w stanie napisać w kilka minut. To niesamowity przeskok. Oczywiście, są skrypty, które nawet z narzędziami AI piszę tygodniami. Niektóre analizy są czasochłonne. Ale nie muszę już palcami kodować wszystkich zapisów, słów, komend, pętli, tylko pomaga mi w tym sztuczna inteligencja. Ona także weryfikuje mój skrypt, zanim go uruchomię. Przy wsparciu AI mogę szukać nowych rozwiązań. Korzystam z płatnych wersji programów (np. ChatGPT, Gemini), ale także z autorskich rozwiązań. Mam w swoim pokoju dwie maszyny, na których mam zainstalowane moduły sztucznej inteligencji nastawione na kodowanie. Wrzucam AI manuale i tutoriale danych programów (metody tworzenia np. kodów) i na ich podstawie pomaga mi ona dobrać parametry do analiz. Sam musiałbym tygodniami czytać i testować.

To zupełnie zmieniło styl pracy.

Tak. Podaję także AI parametry mojego komputera i sprawdzam, czy jest w stanie zoptymalizować działanie danych programów. Robi to skutecznie, bo np. mapowanie bardzo dużego projektu, który zawiera 24 próbki pełnego transkryptomu, dokładnie na tej samej maszynie po optymalizacji przez AI zajmuje mi siedem godzin zamiast ok. siedmiu dni. Jest to tylko kwestia optymalizacji kodu, żeby lepiej wykorzystywać zasoby procesowe, pamięciowe i paralelizm niektórych procesów, by szły równolegle. Dzięki sztucznej inteligencji pojawiają się też nowe wersje starych programów, które mają trochę większy sens biologiczny, czyli są bardziej dokładne i korzystają z większej ilości danych. Do niedawna korzystano tylko z programów, które zostały napisane przez informatyków. Otrzymując dane biologiczne, nie byli oni w stanie popatrzeć na nie pod kątem biologii. W sekwencji genetycznej widzieli np. cztery literki ATGC w pewnych ciągach, natomiast dla biologa pod tymi literkami kryją się związki chemiczne i tryplety kodujące. Informatycy pisali bardzo efektywne programy, które rzeczywiście szybko robiły jakąś analizę, ale okazywało się, że gdzieś po drodze gubiliśmy sens biologiczny. Do dzisiaj korzystamy z tych programów, czego przykładem jest narzędzie BLAST, które służy do porównywania sekwencji i przeszukiwania baz danych. Ono działa bardzo dobrze, ale na niektórych etapach możemy z nim zgubić sens biologiczny, bo coś, co dla informatyka było tą samą literką, w procesach biologicznych na pewnym etapie mogło stać się innym związkiem. Takie zmiany w sekwencjach oznaczeń literowych dotyczą np. aminokwasów.

Czyli sztuczna inteligencja może tworzyć nowe wersje takich programów?

W tej chwili przy pomocy AI modyfikujemy niektóre narzędzia. Są też narzędzia, które się tworzy na nowo, np. te służące do mapowania. W procesach biologicznych często nie ma sytuacji czarno-białych, bo jest bardzo dużo zależności i narzędzia bioinformatyczne muszą to uwzględniać. Największe obliczeniowo wyzwanie to zbudować jak najwięcej możliwych ścieżek i potem wybrać najlepszą z nich.

Czy tworzy pan własne narzędzia bioinformatyczne?

Tak. Właśnie opublikowałem narzędzie, które ma na celu usystematyzować sposób identyfikacji długich niekodujących RNA, czyli takich cząsteczek, które wyglądają jak geny kodujące białka, ale działają tylko na poziomie cząsteczki przejściowej. W organizmie jest ich znacznie więcej niż genów kodujących białka, a do niedawna nazywano je czarną materią albo śmieciami genetycznymi. Okazuje się, że pełnią w komórce ważne funkcje – głównie regulacyjne. Moje narzędzie systematyzuje cały proces identyfikacji i robi pełną analizę efektywności poszczególnych ścieżek, które zostały wybrane. Nie musimy wybierać narzędzia ad hoc, bo kiedyś na nim pracowaliśmy albo dlatego, że łatwo się instaluje. Obecnie możemy wybrać taką ścieżkę analityczną i taki dobór poszczególnych parametrów, żeby uzyskać jak największy sens biologiczny.

Czy możemy wykorzystać narzędzia bioinformatyczne np. w medycynie?

Tak. Współpracuję z wieloma zespołami, w tym z biologami molekularnymi, mykologami, fizjologami, specjalistami rolnictwa, lekarzami weterynarii czy zespołem z naszej medycyny. Są to bardzo zróżnicowane projekty i wymagają elastyczności, nowatorskich, nieszablonowych rozwiązań, jednak często mają wspólny mianownik lub przynajmniej przecinają się w pewnych stałych punktach. Jednym z takich węzłów są biologiczne bazy danych, których obsługa odbywa się zazwyczaj na wielu poziomach: od prostej obsługi formularza graficznego w przeglądarce, poprzez API do pełnych potoków analitycznych z obsługą z poziomu kodu w różnych środowiskach programistycznych. Najbardziej popularnymi środowiskami w bioinformatyce są obecnie Python oraz środowisko R i ja głównie w nich pracuję. Tworzy się w nich tzw. biblioteki, czyli zestawy funkcji przeznaczonych do konkretnej procedury, np. przeszukiwania baz danych albo porównywania sekwencji do siebie lub zaawansowanych analiz statystycznych. Najczęściej koduję w środowisku R i w nim tworzę narzędzia do analiz. Mam tam opublikowane dwa z nich. We współpracy z Polską Akademią Nauk analizuję transkryptomy ryb tzw. niemodelowych, czyli nieposiadających genomów referencyjnych. Te gatunki nie mają w bazach swoich genomów albo mają je słabo opisane. W takiej sytuacji buduje się genom referencyjny, czyli pewien punkt odniesienia do nazwania genów i określenia ich funkcji. Korzysta się wtedy z zewnętrznych baz danych i pobiera zestawy informacji oraz u siebie lokalnie buduje nową bazę z opisanymi strukturami genów. Dobrze poznane genomy, które stosuje się jako przykład-model, mają np. człowiek, świnia czy wybrane rasy koni. Większość organizmów nie ma jednak genomów referencyjnych i jest to jedno z głównych wyzwań badawczych również dla bioinformatyków. Właśnie jestem na końcowym etapie składania genomu konia rasy kazachskiej w projekcie międzykontynentalnym.

Nad czym jeszcze aktualnie pan pracuje?

Mam dużo pracy. Przez lata byłem jedynym bioinformatykiem na naszym Uniwersytecie. W tej chwili zarówno na UWM, jak i w PAN pracują moi absolwenci i byli współpracownicy, którzy tworzą lokalne sieci bioinformatyczne. Już nie muszę być wszędzie, ale mam stałą potrzebę rozwoju i robię wiele analiz. Coraz bardziej otwieram się na współpracę międzynarodową. Na świecie jest mnóstwo miejsc, w których potrzebne są analizy z wykorzystaniem narzędzi bioinformatycznych i brakuje do nich specjalistów. Uczestniczyłem w wielu projektach. Współpracowałem z zespołami z Włoch, Portugalii, Finlandii, Niemiec, Francji, Norwegii, USA, Kazachstanu. Niedawno odezwano się do mnie z Jerozolimy. Często jeżdżę na wymiany do Włoch i aktywnie współpracuję tam z kilkoma ośrodkami bioinformatycznymi i mamy wspólne publikacje. Otrzymałem też zaproszenie na uczelnię w Bari na prowadzenie zajęć dla studentów z programowania w języku R.

Rozmawiała Anna Wysocka

Dr Jan P. Jastrzębski z wykształcenia jest biotechnologiem, a z zamiłowania informatykiem. Doktorat robił w Bari we Włoszech. Pracuje w Katedrze Fizjologii, Genetyki i Biotechnologii Roślin UWM. Zajmuje się tworzeniem i udoskonalaniem narzędzi bioinformatycznych, analizą struktur przestrzennych biomolekuł oraz modelowaniem komputerowym i analizą komputerową danych sekwencjonowania wysokoprzepustowego.

Tekst ukazał się w styczniowym numerze „Wiadomości Uniwersyteckich", którego tematem przewodnim jest „Jutro". Naukowcy z UWM śmiało spoglądają w przyszłość i pracują nad tym, by czynić ją lepszą. Wspólnie z naszymi rozmówcami przypominamy więc, że na jutro nie należy odkładać troski o zdrowie... i emeryturę, a także zastanawiamy się, czy czeka nas kwantowa przyszłość.