ENTREZ: ZRÓB POŻYTEK Z JEGO POTĘGI

Entrez to zintegrowana wyszukiwarka baz danych serwisu NCBI, ktora umożliwia pełny dostep do szerokiej rangi internetowych baz danych, właczajac literaturę, sekwencje nukleotydowe i proteinowe, kompletne genomy, trójwymiarowe struktury i inne. Entrez daje ogromne spektrum wykorzystania w przyszłosci nie tylko jesli chodzi o pobieranie wyników z bazy danych ale też pokrewnych elementów z danych domenowych, co czyni zbędnym przeszukiwanie innych baz w celu poszukiwania pokrewnych informacji. Umożliwia to nam uprzednio zgromadzone dane ułożyć w zupełnie inny sposób i spojrzeć na nie z innej perspektywy. Efektywne korzystanie z Entreza wymaga zrozumienia dostepnosci danych domenowych i różnorodnosci zródeł tych danych. Wykorzystujac ludzki gen MLH 1, zamieszany w powstawanie nowotworu odbytnicy, pokazano ogromna róznorodnosc informacji, które mozemy szybko zgromadzic dla pojedynczego genu. Oczywiscie numery wyników poszukiwan beda sie zmieniały wraz z rosnacym przeszukiwaniem baz danych.

Celami poszukiwań są:

Oddzielenie pszenicy od plew, czyli identyfikujac reprezentatywne, dobrze opisane rekordy sekwencji mRNA

Pobieranie spokrewnionych rekordów białek i literatury

Identyfikacja konserwatywnych domen wewnatrz białka

Identyfikacja podobnych białek

Identyfikacja znanych mutacji wewnatrz białka czy genu

Znalezienie wyjasnienia trójwymiarowej struktury dla białek, czy w ich obecnosci, identyfikacja struktur z homologiczna sekwencja

Obejrzenie genomowego kontekstu i pobieranie fragmentu sekwencji

Podsumowanie

Autorzy

ODDZIELANIE PSZENICY OD PLEW

W bazie danych Entrez zawarte sa dane z wielu różnych zródeł baz danych. Celem jest zidentyfikowanie dobrze opisanych rekordów sekwencji mRNA, z wielu dostepnych, w bazie nukleotydowej Entrez. Nukleotydowa domena Entrez zawiera sekwencje z archiwalnej bazy danych Gene Bank, bazy danych RefSeq, nukleotydowe sekwencje z Protein Data Bank i nowej bazy danych TPA. W wyniku tego, nieudoskonalone poszukiwania moga dac wyniki w przeróżnej jakosci i moga byc one wysoce zgodne z poszukiwanym wynikiem zależnie od tego, ile sekwencji poddano obróbce. Na przykład, niekompletne poszukiwania w nukleotydowej bazie Entrez dla nowotworu odbytnicy pozwalaja aktualnie pozyskac >10000 trafien. Uzyskane wyniki zawieraja archiwalne i odnowione rekordy, charakteryzujace sekwencje i sekwencje niższej jakosci jak np. ESTs (krótkie sekwencje DNA służace do identyfikacji danego cDNA). Opcja LIMITY pozwala na ograniczenie naszych poszukiwan, jesli chcemy uzyskac specyficzne dane, niezbedne do wykorzystania bazy danych RefSeq. To także pozwala nam ograniczac poszukiwania do specyficznych pól danych, przywracac rekordy z pewnymi cechami takie jak typ molekuły oraz wyłaczac niechciane rekordy takie jak ESTs, które sa typowo numerowane i z mniejsza jakoscia sekwencji niż charakteryzowane geny. W tym przypadku jesli użyjemy opcji LIMITY, żeby zawezic poszukiwanany wynik dla raka odbytnicy, do pola tytułu a potem tylko do rekordu z RefSeq, nasz wynik ograniczy się do 31 wyszukiwan. Jesli pózniej zrobimy nowe wyszukiwanie dla człowieka zaznaczajac w polu Organizm i użyjemy HISTORII, aby połaczyc dwa wyszukiwania z użyciem AND, otrzymamy 13 wyszukiwan , z dużo mniejsza i dużo bardziej specyficzna liczba wyników niż wyszukiwanie oryginalne >10,000 . W dodatku, ponieważ każdy rekord RefSeq prezentuje apogeum wiedzy o pojedynczym genie albo różnych jego wariantach, rzadziej niż praca w indywidualnym laboratorium, każde wyszukanie ma swoje odzwierciedlenie w artykule. Na omawianym przykładzie raka odbytnicy, bedziemy bliżej sprawdzenia NM_000249: Homo Sapiens mutL homologue 1 (MLH1), i dodatkowe informacje możemy otrzymac dla tego genu w Entrezie. Oczywiscie poszukiwania MLH1, zamiast raka odbytnicy, mogą byc skuteczne i te same techniki moga byc używane do zaweżenia wyników wyszukiwania. Poszukiwanie symbolu genu, może byc czasami mniej wiarygodne jesli gen był oznaczony fałszywym numerem. Chociaż rekordy RefSeq zawieraja oficjalne symbole genu, archiwalne rekordy , takie jak te w banku genów , zawieraja jedynie symbol genu który użył autor w czasie dostarczania lub ostatniej modernizacji.

Spis treści

POWIAZANIE DOMEN W BAZACH DANYCH

Domeny

Linki dla każdego rekordu pozwalaja nam otrzymac konkretne powiazanie rekordu z inna domena Entreza. Na przykład link PubMed dla rekordu NM_000249 dla otrzymanych 12 referencji w rekordzie RefSeq. Referencje te reprezentuja kilka artykułów z których można dowiedziec sie o mapowaniu, charakterystyce genu i fenotypie. Wracajac do nukleotydowego rekordu dla NM_000249, możemy łatwiej przeniesc go z nukleotydowej bazy danych do białkowej bazy danych. Przez zaznaczenie 'białko' w menu LINKS: możemy zobaczyc odpowiednia sekwencje aminokwasowa. Możemy tylko zobaczyc rekord dla NP_000240 który zawiera sekwencje które były wybierane z pól translacji Features/CDS dla NM_000249. Podobne sekwencje białkowe które były identyfikowane przez BLAST moga byc przywrócone przez link 'Related Sequences'. Podobnie , menu Link dla NM_000249 wszystkich innych baz danych ENTREZA które zawieraja powiazane informacje moga byc używane żeby ułatwic dostep do dodatkowych danych.

Spis treści

POZYSKAC POKREWNE REKORDY

Linki z bazy danych Entrez zapewniaja dostęp do innych danych, ale tylko takich które głównie przypominaja oryginalny interesujący rekord. Jednak opcja Related Records pozwala nam natychmiast rozszerzyć poszukiwania do innych odpowiednich rekordów w tej domenie, która nie byłaby przywracana za pomoca pierwotnej kwerendy. Na przykład, kiedy uzyskujemy 12 rekordów z bazy PubMed, 'Wykaz: pokrewne artykuły' jest opcja szybkiego wyszukiwania tysięcy rekordów z bazy danych PubMed, które zostały zidentyfikowane za pomoca słów algorytmu, znajdujac rekordy z podobnymi słowami w ich tytułach, abstraktach i tytułach medycznych. Podobnie , wykaz dla rekordów białkowych NP_000240 zawiera link pokrewnych sekwencji które zostały zidentyfikowane przy użyciu algorytmu BLASTA. W Entrez Protein, opcja BLink uwidacznia graficzny obraz 200 podobnych sekwencji, pokazuje regiony podobne do sekwencji która nas interesuje. BLink jest także elastycznym narzędziem wykorzystywanym do filtrowania oraz dopasowywania konkretnych ustawień podobnych sekwencji. Pozwala nam, np. zobaczyć najlepsze trafienia dla każdego organizmu, tylko te wyszukiwania które sa połaczone z rekordami struktury 3D, drzewa filogenetyczne (w których możemy wybierać wyłacznie organizm lub grupy organizmów) i więcej.

Spis treści

IDENTYFIKACJA DOMEN KONSERWATYWNYCH

Domeny konserwatywne, np. podobnych sekwencji, moga rzucac swiatło na funkcje białek, a także na ich organizacje. Każda sekwencja białka z Entrez jest porównywana z NCBI's Conserved Domain Database (CDD). Wracajac do rekordu oryginalnego białka NP_000240, możemy użyc linku 'Domains' żeby zobaczyć konserwatywne domeny , które zostały zidentyfikowane w sekwencji. Te wyniki sa porównywane z CDD, jesli klikniemy 'Details' zobaczymy obecnosć HATPase i błędy w naprawie DNA. Dodatkowo, opcja ukazuje rodzinę białek z którymi białko NP_000240 jest połaczone. Kliknięcie na grafikę dla jakiejs domeny lub białka prowadzi do wyszczególnienia wiekszej ilosci informacji. Opcja 'Show Domain Relatives' pokazuje pokrewne sekwencje białek z architektura podobnych domen identyfikowanych przez Conserved Domain Architecture Retrieval Tool(CDART).

Spis treści

IDENTYFIKACJA ZNANYCH MUTACJI

Zmiany w obrebie ludzkiego genu MLH1 moga byc identyfikowane przez link lub przez sekcje 'Allelic Variants' przekazywana przez rekord Online Mendelian Inheritance in Man (OMIM). Link SNP ukazuje rekordy dla zmian rozpatrywanych przez indywidualne laboratoria do dbSNP i wyrównuje przekazywanie mRNA używając algorytmu BLASTA. Graficzny skrót dla każdego SNP wskazuje czy mutacja jest w okolicy locus , w regionie transkrypcyjnym czy kodujacym i daje dodatkowe informacje o mapie konsystencji, heterozygotycznosci itd. Z drugiej strony rekord OMIM opisuje alleliczne warianty, o których mowa była w literaturze i podsumowane zostały przez redakcyjny personel OMIM. Na przykład, interesujaca mutacja w MIM noszaca numer 120436 jest allelicznym wariantem .0011 (Gly67Trp), w którym najmniejsze aminokwasy sa zastępowane przez najwieksze aminokwasy. Rekord przekazania budowy jaki jest opisany w następnym rozdziale może rzucac swiatło na możliwe znaczenie takiego postepowania.

Spis treści

ZNAJDOWANIE STRUKTUR 3D

Jak zauważył Mullan, znajdowanie takich struktur jest raczej wyjatkiem, a nie reguła. To jest prawda, ponieważ obecnie dostępne jest >2,7 miliona sekwencji białkowych co przewyższa dostępna liczbę indywidualnych struktur o około 20,250 w Entrez's Molecular Modeling Database(MMDB). Jakkolwiek, obecnosć homologicznych struktur może pomagać w analizie funkcji białek. Opcja LINK dla NP_000240 nie uwzglednia 'Structure',wskazujac że ta sekwencja nie jest bezposrednio połaczona z struktura 3D. Istnieje kilka opcji dla znalezienia możliwych struktur homologicznych:

a)przywracaja mniej więcej 600 sekwencji związanych z NP_000240 i potem ukazuja 'Structure Links' dla nich wszystkich;
b) użyj BLink by przedstawić graficznie sekwencje spokrewnione, a potem wyswietl podjednostki posiadajsce strukturę trójwymiarowa
c)użyj narzędzia BLAST aby porównać sekwencje białek NP_000240 z sekwencjami białek pochodzącymi z białkowej bazy danych PDB.

W tej sytuacji wszystkie trzy opcje wyszukuja ten sam zestaw szesciu struktur. Z powodu różnic między tymi narzędziami, wyszukane sekwencje moga być nieco inne. Np. BLAST może wyszukać dodatkowe sekwencje, w zależnosci od użytej punktacji odcięcia. BLink może natomiast wyszukać mniej sekwencji, dlatego, że wyswietla tylko pierwsze 200 trafień. My użyjemy pierwsza opcje. Pierwsze trzy struktury: 1B62, 1BKN, 1B63, pochodza od E.coli, ostatnie trzy: 1H7S, 1H7U, 1EA6 od człowieka. Te drugie zostały zdeponowane w laboratorium Guarne. Pierwsza proteina jest niezwiazana, druga wiaże ATPgammaS, trzecia ADP. Na przykładzie 1H7U zbadamy, czego będziemy w stanie dowiedzieć się o jego strukturze na podstawie sekwencji NP_000240. Program Cn3D (uruchomiony za pomocą przycisku view structure), w pierwszym oknie przedstawia 3D strukturę 1H7U. Drugie okno wyswietla odpowiadajaca sekwencję dla łańcucha A i B białka 1H7U. Program Cn3D umożliwia nam zaznaczać reszty (label residues), robić powiększenie, pomniejszenie, przedstawia strukturę na różne sposoby, kolorować, importować i dopasowywać sekwencję z Entrez Protein i wiele więcej. Wybierz opcje menu style, aby przedstawić strukture rurkową białka, zmien skrót kolorystyki na domeny. W rezultacie różowe i niebieskie regiony 1H7U_A przedstawiaja zageszczone domeny trójwymiarowe, które kolejno oddziałuja z HATPaza i z domenami naprawiajacymi błędy (złe dopasowanie) w DNA. Regiony brazowe i zielone reprezentuja te same domeny w 1H7U_B. Te kolory oddziałuja z graficznym podsumowaniem w Entrez Structure Database. Okno dopasowania sekwencji programu Cn3D koloruje domeny w 1H7U_A i B. Dlatego, że jestesmy zainteresowani powiazaniem sekwencji białka 1H7U z tą sekwencja z Np._000240 (gi 4557757), możemy zaimportować NP._000240 i dopasować z 1H7U_A. Tak więc identyfikacja łańcucha białkowego przez BLAST, BLink jest podobna do NP._000240. Import NP_000240 przedstawia tabela.
Etapy by zaimportować i dopasować NP_000240 z IH7U_A
Podczas wyswietlania IH7U_A za pomoca programu: Cn3D 4.1:
W oknie Sequence/Alignment viewer window wybierz w menu Imports/show imports. Ukaże się okno Import viewer.

Wybierz w menu opcję Edit/Import sequence.

W oknie dialogowym Select chain wybierz IH7U_A i kliknij OK.

W oknie dialogowym Select Import Source wybierz Network via GI/Accesion i kliknij OK.

W oknie dialogowym Input Identifier wprowadz NP_000240 i kliknij OK. Nowa sekwencja pojawi się w oknie Import Viewer.

Wybierz Algorithms/BLAST single' i kliknij gdziekolwiek w sekwencji NP_000240 by dopasować ja do IH7U_A przy pomocy algorytmu BLAST.

Aby wyswietlić dany alignment w oknie Sequence/Alignment Viewer wybierz opcję Alignments/Merge All w oknie Import Viewer.

Wyswietlony aligment w oknie Sequence/Alignment Viewer. Dopasowane domeny sa przedstawione na schemacie na czerwono.

Zresetuj Style/coloring shortcut w oknie s na domains i w oknie Sequence/Alignment Viewer wybierz Select rectangle.

Spis treści

ASPEKT GENOMOWY I SCIAGANIE REGIONÓW SEKWENCJI

Dalsze badania nad genem MLH1, można wykrzystac w celu identyfikacji regionu chromosomu zawierajacego ten gen, przez sciagniecie odpowiadajacej genomowej sekwencji (lub dane tej sekwencji) i uporzadkowanie klonów. Map Viewer link do NP_000240 może dostarczac pewnych informacji. Daje on graficzny poglad na własciwy rejon chromosomu. Opcja 'seq' dla MLH1 pozwala sciagnac dane o genomowych sekwencjach dla danego genu i dopasowac region. Okno dialogowe Mapy i Opcje moga byc użyte aby dodac komponenty map, które wyswietla rekordy GenBanku w celu gromadzenia regionów chromosomowych. Rekordy GenBanku zawieraja odpowiednie klony zródeł informacji, które moga byc użyte do własciwych klonów dla ich rozdzielenia do dalszych badan.

Spis treści

PODSUMOWANIE

Te techniki pokazuja, że Entrez można użyc do zdobycia informacji z informatycznych puzzli na dowolny temat w zależnosci od zainteresowan. Typy i ilosc informacji beda różnic sie w zależnosci od genu i organizmu i beda prowadzic do innych baz danych Entrez w dodatku do tych, których opis został tu zawarty. Istniejaca baza danych cały czas sie powieksza. Entrez nadal bedzie dostarczał pojedynczych kodów dostepu aż powstana zupełnie inne dane.

Spis treści

Wykonanie projektu:

Aneta Scharnowska,

Marlena Słupecka,

Natalia Sobocińska,

Marta Winnicka