Spośród wszystkich narzędzi dostępnych w NCBI ilość zawartych tam danych może być przytłaczająca. Sprawa wygląda podobnie jak w przypadku lodów, widzimy wiele określonych smaków nie wiedząc, które mamy wybrać.
Często jedynym sposobem na użycie narzędzi proponowanych przez NCBI jest zbadanie dokumentacji oprogramowania online. Chociaż dokumentacja w NCBI jest znakomita i wszechstronna ma skomplikowany charakter i można ją długo przeszukiwać. W rezultacie początkujący użytkownik może się łatwo pogubić lub pomylić i jego start może być dłuższy niż oczekiwano.
Pomoc w pierwszych krokach stanowi szybki przewodnik pomocy publicznej i społeczności naukowej. Pomaga to w wyborze opcji i korzystaniu z dostępnych, publicznych zasobów NCBI:
Pierwsze kroki nie będą nastawione na próbę omówienia założeń stosowanych zasobów w NCBI i nie będzie to próba zbadania wszystkich alternatywnych metod, które mogą być wykorzystywane podczas pracy z zasobami NCBI. Zamiast tego każda jednostka z serii Getting Started zapewnia użytkownikowi:
Informacje dostarczone przez zakładkę zaczynamy dadzą początkującym użytkownikom punkt wyjścia dla prowadzenia badań z wykorzystaniem zasobów NCBI, pozwoli to również działać sprawniej i wykorzystywać łatwiej informacje. Kliknij na dowolny link poniżej, lub w lewym pasku bocznym, aby rozpocząć poszukiwania jednej z naszych wielu baz danych lub narzędzi.
Widok mapy.
Zaczynamy używać widoku mapy.
Analiza genomowa: wszystko o lokalizacji
Możemy lepiej zrozumieć funkcję genomu organizmów kiedy znamy położenie istotnych elementów; analiza genomu wymaga czytania nukleotydowej sekwencji i lokalizacji istotnych miejsc wzdłuż chromosomu. Im więcej mamy informacji na temat tej lokalizacji, tym łatwiej jest określić znaczenie danego regionu.
Naukowcy zbierają informacje na temat gnomów różnych organizmów w szybkim tempie identyfikując geny, geny regulujące określone regiony czy markerów genotypowych. Jednak dokładna lokalizacja niektórych genów na chromosomach jest trudna. Poprzez włączenie funkcji identyfikacji informacji rezultatów całej sekwencji genomu możemy otrzymać bardziej kompletne i dokładne informacje. Widok mapy w NCBI jest przystosowany dla Ciebie do wykonywania tego zadania.
Co to jest widok mapy i do czego może Ci się przydać?
Co to jest widok mapy?
Widok mapy w NCBI jest dostosowany wiedzą zarówno do mapy genetycznej i fizycznej (tam gdzie zbierane są określonego typu dane). Genetyczne mapy dostarczają informacji na temat porządku i bliskości genów w stosunku do siebie nawzajem jako funkcja częstotliwości dziedziczenia, co znaczy, że im bliżej dwa geny są ze sobą tym bardziej prawdopodobne że będą dziedziczone razem. Fizyczne mapy dostarczają informacji o fizycznej lokalizacji i sekwencji. Obecni mapy te są w fazie konstrukcji i są nie pełne. Da się jednak skonstruować bardziej kompletną mapę genomu poprzez odwołanie się do dostępnych danych będących w zasobach. Widok mapy korzysta z systemu w celu zintegrowania różnych typów danych mapowania genomu, wzmacniając w ten sposób dokładność analizy genomu. Ponadto można sprawdzić połączenia między różnymi typami danych.
Możesz szukać gnomów różnych organizmów. Mysz – obok nazwy organizmu mamy opis źródła danych oraz link do tej strony – widoku mapy.
Do czego może Ci się przydać widok mapy?
Ponieważ każda MapViewer wyświetla zbiór danych dostępnych dla danego genomu, możesz go użyć w celu znalezienia sekwencji lub miejsca genomu z funkcją genów na chromosomie. Znane jest przewidywanie transkrypcji genów i przewidywanie wariantów czy regionów na chromosomie związanych z konkretną chorobą. Ponieważ MapViewer wyświetla trasy pomiędzy typami danych to możesz go używać jako narzędzia do odsyłania. Na przykład, możesz użyć MapViewer genomu w celu ustalenia lokalizacji sekwencji. MapViewer jest wszechstronnym i wieloaspektowym narzędziem.
W zaledwie kilka podstawowych umiejętności możemy uzyskać informacje o genomie. Aby rozpocząć korzystanie MapViewer wybierz:
4 kroki obejmują
Krok 1. Istnieje wiele sposobów na znalezienie genomu za pomocą MapViewer. Jednym ze sposobów jest bezpośrednie zapytanie za pomocą Szukaj formularza w górnej części strony. Ogólnie rzecz biorąc, "Szukaj " przyjmuje formę genu, nazw genów, znacznik, nazwiska, pseudonimy, nazwy dla znacznika, a w niektórych przypadkach, tekst słowa i frazy. Na przykład można wyświetlić 15q23-P24 regionie ludzkiego chromosomu 15. Innym sposobem jest użycie narzędzia BLAST. Po wysłaniu zapytania odbieramy informację zwrotną z wynikiem.
Krok 2. Wybór mapy. Po wybraniu tej funkcji lub regionu, do którego pasuje pytanie decydujemy, który zbiór danych lub mapy mogą zwierać szukane przez nas informacje. Celem tej sekcji jest pomoc w wybraniu mapy na podstawie wprowadzonych danych.
Krok 3. Dostosowanie wyświetlacza. Można dostosować ekran do własnych potrzeb klikając na "Opcje, Mapy i " na widoku mapy strony. Spowoduje to otwarcie nowego okna zawierającego funkcje, które umożliwiają zmianę regionu chromosomu lub genomu.
Krokiem 4 jest pobieranie danych.
NCBI umożliwia dostęp do Gene banku oraz korzystanie z zasobów Biologii molekularnej oraz korzystanie z baz danych oraz entrez czyli usługi wyszukiwania, tuneli podobieństwa genomu i danych związanych z zasobami.
Tematy:
Ma za zadanie pomagać nowym użytkownikom jak również weteranom w korzystaniu z narzędzia bazy NCBI jakim jest BLAST i PSI-BLAST. Trzy samouki (Query, BLAST i PSI-BLAST) oferuja punkty wyjścia dla użytkowników o różnym stopniu zaawansowania. Początkującym polecamy rozpoczęcie od samouczka kwerenda. Bardziej zaawansowani użytkownicy chcą pracować za pośrednictwem BLAST przed przystąpieniem do bardziej zaawansowanego PSI-BLAST samouczka.
Kwerenda.
Ten program ma na celu pomóc początkującemu użytkownikowi BLAST. Od sekwencji wejściowych program ten nauczy Cię wybrać program i bazę danych analizującą wyniki. Rdzeń NCBI to BLAST 2,0 usługa jest znana jako "Gapped BLAST ". Usługa ta jest przeznaczona do analizy sekwencji białkowych i kwasów nukleinowych oraz porównania ich z wybraną bazą danych NCBI.
BLAST akceptuje wejście sekwencji w trzech formatach : format FASTA, Accession numbers czy oznaczeń geograficznych.
BLAST samouczek
Ma za zadanie pomóc zarówno początkujących i doświadczonych użytkownikom do tworzenia i wykonywania BLAST. Pozwala to również w rozszyfrowywaniu produkcji i analizę wyników. Samouczek pokazuje potencjał wyszukiwań, zidentyfikować nawet słaby (subtelny) homolog z adnotacja wpisów w bazie danych. Pokazuje, że BLAST i PSI-BLAST (patrz oddzielny PSI-BLAST samouczek) są ważnymi narzędziami do przewidywania zarówno biochemicznych działalności i funkcji relacji w sekwencji. W uzupełnieniu do samouczka, w BLAST przewodnik może być przydatny w zapoznania się z tajnikami z wyszukiwania.
Przewodnik BLAST.
Obejmuje podstawowe strategie na rzecz wyszukiwania, opisuje format i znaczenie wyszukiwania produkcji i omawia wykorzystywanie PSI-BLAST i innych post-BLAST narzędzi w celu rozszerzenia i wzmocnienia wyników wyszukiwania w BLAST.
PSI-BLAST
Samouczek pozwala na wyszukanie i zidentyfikownie nawet subtelnych homologii w porównaniu z bazą danych. PSI-BLAST jest ważnym narzędziem dla przewidywania zarówno biochemicznych działalności i funkcji relacji z sekwencjami.
Wyszukiwarka PSI-BLAST w tej instrukcji ma dwa cele:
(1) w celu określenia odległych krewnych z rodziny
(2) aby uzyskać wgląd w funkcjonowanie tej rodziny białek.
Entrez integruje literaturze naukowej, DNA i białkowej sekwencji bazie danych, strukturze i 3D białka, analizie danych populacji, dane wypowiedzi, zgromadzeń kompletnych genomów i taksonomicznych.. Jest to system zaprojektowany do pobierania wyszukiwanie powiązanych z nią baz danych. Pomoc przy wykorzystaniu literatury składników Entrez, znany jako PubMed, jest również dostępny.
Klucz do BLAST podstawowe informacje i pojęcia:
- Uliniowienie – proces przedstawienia za pomocą linii dwóch lub więcej sekwencji aby uzyskać maksymalny stopień identyczności ( i konserwatywności, biorąc pod uwagę sekwencję aminokwasową) by móc ocenić stopień podobieństwa i możliwość homologii
- Algorytm- ustalona procedura przeprowadzana przez program komputerowy
- Bioinformatyka – połączenie biotechnologii i informatyki w celu odkrycia nowych praw i reguł w biologii
- Bit score – wartość S’ jest pochodną nieobrobionego wyniku uliniowienia S w którym statystyczne właściwości systemu liczbowego mogą być użyte do zliczania. Ponieważ bit scores zostały znormalizowane poprzez respektowanie systemu liczącego, mogą być użyte do porównywania punktów uliniowień z różnych wyszukiwań.
- BLAST- algorytm porównywania sekwencji zoptymalizowany do szybkiego używania do przeszukiwania biologicznych baz danych zawierających sekwencje. Algorytm wykonuje optymalny lokalny alingment odnalezionych sekwencji do sekwencji kwerendowej.
- BLOSUM - to sybstytucyjna macierz do wyszukiwania podobieństwa między białkami dla lokalnych alingmentów. Dla każdej matrycy podawana jest odległość ewolucyjna. W BLOSUM 62 alingmenty dla których ilość punktów byłą podobna były stworzone z użyciem sekwencji które nie miały więcej niż 62% podobieństwa. Sekwencje identyczne bardziej niż 62% są reprezentowane przez pojedynczą sekwencję w alingmencie tak więc unikamy over-weighting blisko związanych członków rodziny „białek”
- Conservation- zmiany w specyficznej pozycji aminokwasów ( rzadziej DNA) lub sekwencji, z zachowaniem właściwości fizyko-chemicznych oryginalnej sekwencji
- Domena- część białka przyjmująca zwijajacą się niezależnie od reszty białka i posiadająca własne funkcje
-DUST- program do filtrowania regionów kwasów nukleinowych o małej komplementarności
- E wartość- oczekiwana wartość. Liczba różnych alingmentów których ekwiwalent punktów jest równoważny lub lepszy niż S i mogą się one pojawić w bazie danych przez wyszukiwarkę „szans”
- FASTA- powszechnie stosowany algorytm wyszukiwania podobieństw w bazie danych. Program szuka optymalnych lokalnych alingmentów skanując sekwencję dla małych pasujących fragmentów „słów”. Początkowo liczba segmentów w których występuje szukane słowo są zliczne (init1).Później punkty z różnych segmentów są mogą być sumowane w celu wygenerowania punktów „initn”. Zoptymalizowany alingment zawiera przerwy zaznaczone jako „opt”. Czułość i szybkość wyszukiwania jest odwrotnie proporcjonalna i kontrolowana przez „k-tup” zmienną która określa wielkość „słowa”
- Filtrowanie- zwane również maskowaniem. To proces ukrywania regionów (kwasów nukleinowych lub aminokwasów)sekwencji posiadających cechy, które często prowadzą do fałszywie wysokich wyników.
- Gap(luka)- miejsce wprowadzone do alingmentu do zrekompensowania inercji i delecji w porównaniu jednej sekwencji do następnej. Aby zapobiec gromadzeniu się zbyt wielu luk w alingmencie, każda przerwa jest punktowana i odejmowana od całości punktów alingmentu. Przedłużenie luki która obejmuje dodatkowe nukleotydy bądź aminokwasy jest również karane w końcowej punktacji.
-Global alignament- alignment dwóch kwasów nukleinowych lub sekwencji białkowych na ich całej długości
- H – może być uważany za środek o średniej informacji (w bitach) dostępny na stanowisku który zmierza do wyrównania szans. Przy wysokich wartościach H, krótkie alignmenty mogą być rozpoznawane jako szansa.
- Homologia- podobieństwo wynikające ze wspólnego przodka
- HSP- wysokopunktowa segmentacja par. Lokalne alignmenty bez luk które osiągają jedne z najwyższych punktów w wyszukiwaniu
- Tożsamość- zakres w którym dwie sekwencje ( nukleotydowe lub aminokwasowi) są inwariantami
-K – Statystyczny parametr wykorzystywany do obliczania punktów BLAST, może być uważany za naturalną skalę do wyszukiwania wielkości. Wartość K jest używana w przekształcaniu surowych wyników (S) na wyniki punktowe (S’)
- lambda- statystyczny parametr wykorzystany do obliczania parametrów BLAST , może być uważany za naturalny system punktacji skali. Wartość lambda jest używana do przekształcania surowego wyniku (S) na punktację (S’)
- Lokalny alignment – Alignment fragmentów sekwencji kwasów nukleinowych lub białek
- LCR (regiony o małej złożoności)- regiony gdzie następuje wielokrotne powtarzanie jednego lub więcej aminokwasów. Do maskowania regionów LCR wykorzystywany jest program SEG.
- Maskowanie- zwane również jako filtrowanie . Usuwanie regionów powtarzających się lub o małej złożoności w celu poprawy wrażliwości w wyszukiwaniu podobieństw sekwencji
- Motif- krótki konserwatywny region sekwencji białkowej
- Multiple Sequence Alignment – alignment trzech lub więcej sekwencji z lukami. ClustalW jest jednym z najczęściej używanych programów dostosowania wielu sekwencji.
- Optymalny alignment – alignment dwóch sekwencji z najwyższą ilością punktów
- Ortologi – homologiczne sekwencje, których rozdzielenie nastąpiło na skutek specjacji czyli rozdzielenia gatunków. Geny ortologiczne mają zwykle taką samą albo zbliżoną funkcję
- Wartość P- prawdopodobieństwo uliniowienia na podstawie punktów albo zdanego pytania. Wartość P jest obliczana na podstawie obserwowanych ilości punktów alignmentu w porównaniu do losowej sekwencji tej samej długości. Najbardziej znaczące wartości P to te, które będą bliskie zeru
- PAM – procent akceptowalnych mutacji. Jednostka wprowadzona przez Dayhoff et al. W celu wyliczenia ilości ewolucyjnych zmian w sekwencji białka. 1.0 jednostki PAM to miara ewolucji które będą się zmieniać średnio o 1% aminokwasów w białku sekwencji.
- Paralogi – geny pochodzące od wspólnego przodka, rozdzielone w wyniku duplikacji genu.
- Profil – tabela w której wymieniono częstotliwość danego aminokwasu w każdej pozycji sekwencji białkowej
- Proteomika- analiza ekspresji białek normalnych i chorych tkanek która polega na separacji, identyfikacji i charakteryzacji wszystkich białek w badanym organizmie.
- PSI-BLAST- po początkowym wyszukiwaniu za pomocą BLAST tworzony jest profil który służy do następnych wyszukiwań. Proces ten może być powtarzany w razie potrzeby z nowymi sekwencjami z każdego cyklu z celu zawężenia profilu.
- PSSM- pozycyjno- specyficzna punktacja matrycy. W PSSM podaje log-odds dla znalezienia najlepszego dopasowania aminokwasów w docelowej sekwencji.
- Query-Zapytanie- wejściowa sekwencja ( lub inny typ szukanego wyrażenia) według której porównywane są wszystkie wpisy w bazie danych.
- Raw Score- wynik surowy- ilość punktów alignmentu ,S, wyliczona jako suma substytucji i przerw. Punkty za substytucję podane są przez ( PAM, BLOSUM). Punkty za luki są zazwyczaj wyliczane jako suma G, kar za przerwy i L kar za rozszerzenie. Na lukę o długości n składa się suma G +Ln. Kara za przerwy ma przyjętą wartość dla G(10-15) i niższe wartości dla L (1-2)
- Podobieństwo- stopień w jakim białka i nukleotydy są ze sobą powiązane. Stopnie podobieństwa między dwoma sekwencjami mogą być oparte na procentowej identyczności lub konserwatywności. W BLAST podobieństwo oznacza pozytywny wynik punktowy.
-SEG- program do filtrowania regionów o niskiej złożoności. Pozostałości, które zostaly zamaskowane są reprezentowane jako X w alignmencie. Filtrowanie SEG jest domyślnie stosowane w blastp.
- Substytucja- obecność różnych aminokwasów w danej pozycji w alignmencie. Jeśli badane sekwencje mają podobne właściwości fizyko-chemiczne są uważane za konserwatywne. - Matrix substytucji- Macierz substytucji zawiera wartości proporcjonalne do prawdopodobieństwa, że aminokwas "i" mutuje do aminokwasu "j" dla wszystkich par aminokwasów. Takie macierze zostały zbudowane dzięki zbieraniu wielu, rozmaitych przykładów sprawdzonych parami wyrównań aminokwasów.
- Unitarny matrix - zwana również jako Identyczna Macierz. System punktujący, w którym tylko identyczne cechy otrzymują pozytywny wynik.
Krótki słownik pojęć genetycznych.
Narodowy Instytut Badania Genomu Ludzkiego utworzył krótki słownik pojęć genetycznych by pomóc ludziom bez zaplecza naukowego zrozumieć terminy i pojęcia używane w badanich genetycznych. Wystarczy kliknąć na wyrażenie które nas interesuje aby otworzyć stronę z bogactwem informacji, w tym jego wymowę, informacje, zdjęcia i linki do dodatkowych stron. Studenci, rodzice i nauczyciele znajdą w słowniczku, łatwe w użyciu, zawsze dostępne źródło informacji do nauczenia się na genetyce.
http://www.genome.gov/glossary.cfm
Słownik pojęć genetycznych z programu "DOE Human Genome Program": http://www.ornl.gov/sci/techresources/Human_Genome/glossary/