Wyzwania stojące przed dzisiejszymi naukowcami związane są z analizowaniem i różnorodnością danych zebranych w Human Genome Project projekt w wileu innych mniejszych projektach. NCBI w sieci służy zintegrowaniu genomu infrastruktury informatycznej dla naukowców naukowców naukowców całego świata związanych z dziedziną nauk biomedycznych, tak by mogły one korzystać z tych danych do swoich celów badawczych.
Budowa genomu infrastruktury informatycznej w NCBI
Głównym wyzwaniem w Human Genome Projekt jest organizowanie, analizowanie i interpretowanie danych pojawiających się z sekwencjonowanych projektów na całym świecie. NCBI w sieci Web stara się oferować zintegrowane źródło informacji danych, które dostarczają nowe spojrzenie na biologię człowieka i dają nowe podejścia do walki z różnego typu chorobami.
Projekt genomu ludzkiego
Human Genome Project jest publicznie finansowanym, międzynarodowym wysiłkiem badawczym, powstałym z międzynarodowych wysiłków badawczych, którego celem jest rozszyfrowanie kodu genetycznego człowieka, a także dostarczyć te dane swobodnie i szybko do publicznej wiadomości. W dniu 26 stycznia 2000 roku członkowie Human Genome Projekt ogłosili, że udało im się zsekwencjonować ludzki genom. Artykuł opublikowany w lutym 2001 roku w czasopiśmie Nature pokazywał zarys strategii i metod stosowanych przez tą grupę do generowania sekwencji projektu. Dane z sekwencji ludzkiego genomu są do natychmiastowego użycia w wielu ważnych dzidzinach.
Integracja ogromnej ilości różnorodnych danych
Ludzki genom oznacza początek nowej ery ekscytującej nauki. Jako międzynarodowy lider w dziedzinie biologi obliczeniowej i bioinformatyki NCBI odgrywa aktywną rolę we współpracy i dalszym rozszyfrowywaniu ludzkiego genomu. GenBank stanowi bazę danych sekwencji prowadzonych przez NCBI i przechowywuje dane generowane przez ośrodki badawcze biorące udział w Human Genome Projekt. GenBank jest jedną z trzech baz danych, które tworzą międzynarodową bazę danych sekwencji nukleotydowych we współpracy. NCBI partnerują w tym wysiłku EBI czyli Europejski Instytut Bioinformatyki w Wielkiej Brytani oraz Narodowy Instytut Genetyki w Japonii. Wszystkie trzy instytucje współpracują, aby sekwencja danych generowanych przez Human Genome Project była szybko i swobodnie dostępna dla wspólnoty naukowej na całym świecie.
W NCBI są także rozwijane i wzmacniane narzędzia, które umożliwiają odkrycie genu. Te narzędzia, również swobodnie dostępne dla społeczeństwa, są wykorzystywane przez NCBI do montażu, komentowania i analizy sekwencji ludzkiego genomu, jak również sekwencji genomu innych organizmów. Te narzędzia umożliwiają naukowcom przechowywać, porządkować, analizować i integrować ogromne ilości różnorodnych danych takich jak sekwencje DNA i białek, genomowe i chromosomowe mapy czy struktury białkowe. Informacje uzyskane z tych badań pozwoliły naukowcom na połączenia między pozornie rozbieżnymi danymi i wnioskowanie bardziej miarodajnych opinii z tych danych.
Montaż ludzkiego genomu
NCBI wydała swój pierwszy montaż wglądu na sekwencje ludzkiego genomu. Ten montaż nie jest oparty tylko na gotowym projekcie, ale także nowych ciągle przesyłanych przez naukowców z całego świata naukowców z całego świata. Stąd ten zasób jest naprawdę międzynarodowym wysiłkiem publicznego sekwencjonowania. Montowanie sekwencji jest procesem ciągłym, który obejmuje wiele różnych kroków, zanim dane mogą być połączone w segmenty DNA. NCBI nadal poprawia montaż genomu poprzez włączanie nowych danych, wypełniając istniejące luki, a także zwiększając dokładność.
Nanoszenie ludzkiego genomu
Geny i zdrowie ludzkie
Genowe bazy danych
Nowa baza danych genów i związanych z nimi informacji jest już dostępna do wyszukiwania w Entrez.
OMIM
Przewodnik po ludzkich genach i zaburzeniach utrzymywany przez Johns Hopkins University i współpracowników.
RefSeq
Numer referencyjny sekwencji chromosomów, genomu, mRNA, białek itp. Dla człowieka i główniejszych modeli organizmów.
dbSNP
Baza danych polimorfizmów pojedynczych nukleotydów (SNPs) i innych odmian.
Reagenty
Klony c-DNA pełnej długości
NIH Mammalian Gene Collection (MGC) przewiduje kolejność weryfikacji odczynników do klonowania genów większośći organizmów ludzkich.
Sondy molekularne
Nowa baza danych NCBI przewiduje sekwencje sond molekularnych, ich zastosowań biomedycznych,i w jaki sposób uzyskać odpowiednie odczynniki
Sekwencje genomu
Pobieranie sekwencji DNA
Pięćdziesiąt lat po wykryciu podwójnej helisy, pełna sekwencja DNA jest już możliwa do pobrania.
zBLAST'uj genom
Służy do porównywania sekwencji genomu i jego produktów.
Rejestr klonów
Scentralizowany rejestr gnomów, klonów i danych oraz informacji na temat mapowania.
Mapy i markery
Mapy
Interaktywny widok z fizycznej i genetycznej mapy genomu sekwencji genów i inne adnotacje genomu.
UniSTS
Niezbędne zbieranie kolekcji STSów z linakmi do map i sekwencji
Elektroniczne PCR
Służy sprawdzeniu sekwencji STS i wyświetleniu go w kontekście całego genomu.
Cytogenetyka
BAC zasobów ludzkich
Cytogenetyczne zasoby FISH-mapped, sekwencji BAC klonów.
SKY/CGH
Kariotypowanie genomu i porównywanie hybrydyzacji genomu do badania nieprawidłowości chromosomowych.
Genomika porównawcza
HomoloGene
Domniemane oparte na szeroką skalę analizy porównawczej sekwencji.
HomologyMap
Kiedy sekwencje staną się dostępne dla organizmu, personel NCBI wprowadza dane jako sekwencje referencyjne (RefSeq) do wglądu w Map Viewer. Rozwineliśmy kilka protokołów do osiągnięcia tego celu oraz polegamy na współpracy z badaniami specyficznych grup genów, kiedy to tylko możliwe. NCBI dostarcza różnych poziomów obliczeń, analiz, a także kuracji przeznaczonych dla konkretnego organizmu. Przykładowo, większość genomów jest gromadzona przez zewnętrzną grupę i objaśniane przez ciąg objaśniający NCBI (annotation pipeline)np.: much, pszczoła, szczur. Dla genomów ludzkich i mysich, NCBI kalkuluje gromadzenie się danych we współpracy z międzynarodowym konsorcjum do spraw sekwencjonowania, NCBI oraz inne zewnętrzne grupy niezależnie umożliwiający tworzenie przypisu do gromadzonego genomu.Dla innych genomów, takich jak np. Drosophila melanogaster, NCBI RefSeq prezentują gromadzenie i przypisy przygotowywane przez konsorcjum sekwencjonowania genomu much. NCBI umożliwia odwoływanie się do wyników sekwencji (RefSeq) prezentowanych przez gromadzące się wyniki sekwecji genomowych zgodnych z sekwencjami białkowymi i RNA. Dla zewnętrznie utworzonych zespołów nie ma gwarancji, że genomowy RefSeq będzie konkretnie odpowiadał zamieszczonym zespołom, gdyż zanieczyszczenia zostaną usunięte w RefSeq (dalsze informacje na stronie Assembly). NCBI annotation pipeline komentuje wyniki genomowego RefSeq w oparciu o cechy takie jak: geny, RNA, białka, wariacje (SNP), markery STS, mapowane kolny FISH. Wszystkie sekwencje (genomowe, RNA, białkowe) są dostępne dla narzędzia BLAST. Wyniki BLAST, tak samo jak właściwości sekwencji są wyświetlane w NCBI Map Viewer.
Proces przypisu identyfikuje sekwencje występujące w contigs takich jak wariacje, tagged sekwencje, regiony klonów zmapowanych FISH, uliniowionych transkryptów, znanych i przewidywanych genów, a także modeli genów.
Cechy Klonu
Ludzkie klony mapowane FISH (4, 5)są opisywane przez ludzki genom w oparciu o ich uliniowione sekwencje w rejestrze narzędzia MegaBLAST oraz analizy e-PCR. Sekwencje te występują w formie numerów dosepu GeneBank z planu lub zakończonej sekwencji insertowej klonu. GeneBank Accession Numbers BAC-końcowych sekwencji lub markerów STS determinowanych przez PCR i eksperymenty hybrydyzacji.
Obecnie opisaliśmy ludzkie klony, które zostały zmapowane przez hybrydyzację fluorescencyjną in situ (FISH) przez human bac resource consortium. Wyniki te dostarczają informacji do porównania zależności między sekwencją, a cytogenetycznym systemem koordynacji.
Dodatkowo klony o zakończonej sekwencji (6) są opisywane przez uliniowienie ich BAC-końcowych sekwencji do zestawienia w narzędziu MegaBLAST.
Cechy STS
Elektroniczne PCR(ePCR) (3) jest używane do dopasowania primerów STS, zgromadzonych UniSTS,bazowanych na podobieństwie konsystencji między zdeterminowanym rozmiarem produktu i jego zreferowaną wielkością.
Zmienność
Zmienność w dbSNP są mapowane do Genome Assembly przez homologię BLAST. Wyniki są protokołowane z dużą wiarygodnością, jeśli 95% oflankowanych sekwencji wróci z uliniowieniem zawierającym od 0 do 6 błędów. Jeśli nie są obserwowane protokoły o duże wiarygodności, wyniki protokołowane są jako niska wiarygodność, czyli jeśli 75% oflankowanych sekwencji wraca w postaci uliniowionej z mniej niż 3% błędem.
Zmienność opisywana w Map Viewer raportuje ogólna jakość mapowania, pokazywaną jako numer chromosomów, numer przyległości, a także ogólny numer wyników w genomie. Odpowiednie pozycje mapy SNP są opisywane z ostrzeżeniem, gdy mapa zmienności jest mapą główną.Kompletna informacja mapowania dostępna jest zarówno na stronie dbSNP lub FTP.
Gen, Transkrypt i Cechy Białek
Geny opisywane są za pomocą (i) RefSeq uliniowionych transkryptów, a także (ii) Gnomon przewidywanania tych regionów, które nie są pokrywane przez ulioniowienie RefSeq. Opis zawiera transkrypty kodujące, pseudogeny i niekodujące transkrypty, reprezentowane przez cechy "misc_RNA".
RefSeq Uliniowienie transkryptu:
Pierwszy zestaw genów ( i odpowiadających im transkryptów oraz białek) identyfikowany jest przez uliniowienie odpowiednich sekwencji (RefSeq) do uporządkowanej sekwencji genomowej używającSPLIGN i uporządkowując wyniki zgodnie z zawężeniem i heuretrystryką (heuristics) struktury eksonu. Modele transkryptu są rekonstruowane poprzez próbę uporządkowania niezgodności pomiędzy uliniowionymi sekwencjami bez użycia modelu a priori (takich jak użycie kodonu inicjacji lub sygnałów pol A). Jednakże taki model nie jest używany, informacja wygenerowana podczas budowy (włączając przewidywania z Gnomon) jest używana do ulepszenia RefSeq.
Alternatywne modele RefSeq pochodzące z dostępnej sekwencji są zgrupowane w tym samym genie, jednak dzielą się na jeden lub więcej eksonów tej samej nici.
Jeśli zdefiniowana sekwencja RefSeq zorientowana jest do więcej niż jednej lokacji w genomie, najlepszym uliniowieniem jest to wybrane i odczytane w sąsiedztwie. Jeśli posiadają taką samą jakość, obie są odczytane. Geny (oraz odpowiednie transkrypty i białka) są odczytywane w sąsiedztwie jeśli uliniowienie transkryptu jest większe niż 95% podobieństwa i uliniowiony region pokrytych jest w więcej niż 50% długości lub przynajmniej 1000 punktów.
Gnomon prediction:
Kiedy RefSeq-ty są umiejscowione w genomie, podstawowe informacje zawierają inne mRNA, EST i informacje o homologii białek wygenerownae na podstawie porównania prztłumaczonegych regionów.
Dodatkowo mRNA i EST GeneBank jest uliniowiony do uporządkowanych sekwencji genomowych poprzez użycie SPLIGN, oraz razem z uliniowionymi RefSeq są łączone aby scalić uliniowienia oparte na wspólnych stronach wiązania. Zestaw optymalnych samoustalonych i nienakładających się uliniowionych transkryptów jest wybierany z każdej regionalnej grupy tych uliniowionych łańcuchowych transkryptów, używając miary skłonności kodowania,wynik wiązania oraz uliniowienia białek via BLASTX przeciwko filtrowanym NR białkom ( tym zawierającym CDD i wynikami u odległych organizmów).
Modele transkryptów generowane są przy użyciu Hidden Markov Model (HMM) używających więzy uliniowionych transkryptów i informacje o wynikach białek, jeśli są dostepne. Model dopuszcza niezgodności wiązań istniejące w uliniowionych transkryptach, wykonuje delecje/insercje w sekwencjach, aby zrekompensować przesunięcie ramki odczytu znalezione w uliniowieniach białek i zmniejsza wystepowanie kodowno STOP, znalezionych w "eksonach" uliniowionych białek.
Modele takie są mocnymi kandydatami na pseudogeny. HMM będzie kontynuowane przez region bez wymuszonej informacji i będzie tworzyć modeleab initio (podstawowy), są one uliniawiane za pomocą BLASTP przeciw filtrowaniu białek NR i optymalnych samouzgodnionych zestawów wyników dla białek, zostaje wybrana poprzez totalny wynik. Daje to ostateczny zestaw modeli genów Gnomon, sąsiedztwo zawiera tylko podzbiór nienakładających się modeli RefSeq.
Repeat Features
Używamy program RepeatMasker do maskowania sekwencji genomowych i identyfikacji interspresowanyych (interspersed) powtórzeń. Powtarzające się biblioteki są defioniowane jakoGiri, i zawierają się jako część RepeatMasker distribution.
Projekt NCBI Genome Annotation dostarcza sekwencji i wsparcia zasobów przez Entrez Gene, Map Viewer i anionimowego FTP.
Dane Sekwencji
Obszerny zestaw rekordów RefSeq jest dostarczany przez stronę FTP. Wieloskładnikowy mRNA i białkowy RefSeq dostarczane są dla genów, gdy pomocniczy RefSeq, GenBank mRNA i dane EST wspierają alternatywny splicing. Transkrypty są również [instantiated?] dla niektórych genów nie kodujących białek. Te wyniki reprezentują transkrybowane pseudogeny.
Zobacz RefSeq documentation dla kompletnej listy prefiksów dostępu. Dostęp który zaczyna się prefiksem XM_ (mRNA), XR_ (niekodujący transkrypt), and XP_ (białko) są modelem adnotacjami sekwencji wygenerowanymi przez projekt NCBI Genome Annotation. Te rekordy reprezentują transkrypty i białka które są opisane na NCBI Contigs (prefiks NT_ or NW_), które mogły zostać wygenerowane z iekompletnych danych. Dlatego XM_, XR_, and XP_ prefiksy dostępu opisują konkretny stan NCBI assembly dla sekwencji genomowej, mogą być różne dla GenBank submisji dla mRNA i/lub dla curated RefSeq wyników. Różnice te mogą odpowiadać prawdziwej zmienności sekwencji (polimorfizm), błędami w GenBank dostępami użytymi jako źródło dla jeszcze nie opisanych (tymczasowych) RefSeq rekordów, lub błędów bądź luk w dostępnej sekwencji genomu. Sekwencje te powinny być używane z ostrożnością, po porównaniu any XM_ or XP kodów dostępu do innych dostępnych sekwencji (Sprwadź BLink, Entrez Gene, lub powiązane sekwencje).
Resource Support
dbSNP dostarcza informacji o zmienności sekwencji włączając lokaklizację na mapie, allele, dane częstotliwości, dane genotypu, i dane funkcjonalne. Strony raportu zawierają linki do Entrez Gene, UniSTS, GenBank, PubMed, the NCBI Map Viewer, i innych zaakceptowanych stron internetowych.
Przewodnik po organizmie zawiera główny punkt do wejścia do informacji o postępie sekwencji, źródeł NCBI,źródeł NIH, spotkań i doniesień prasowych. Zobacz Genomic Biology w celu poznania listy dostępnych stron.
Entrez Gene zawiera strony dla wszystkich zdefiniowanych genomów . Każdy wysiłek wkładany jest po to aby poznać genom; dodatkowe strony zabezpieczone na Interim ID dostarczane są dla nowych genów lub tych które nie mogą być powiązane z żadnym poznanym genem.
Map Viewer prezentuje widok graficzny dostępnych sekwencji jak również niesekwencyjnych map takich jak cytogenetycznych, genetycznych, fizjologicznych, lub hybrydowych map promieniowania (typ i numer map jest dostępny dla każdego organizmu). Map Viewer dostarcza sporo pytań dotyczących interfejsu i widoku interaktywnego. Dodatkowe informacje na używanie źródła oraz na mapach specyficznych dla danego organizmu zawierających te dla człowieka i myszy is available. Widok Map Viewer może również zawierać linki do dostarczonych dokumentów (Evidence Viewer, Model Maker).
Entrez Graphical Sequence View dostarcza graficznego przeglądu GenBank Flat File plus sekcje danych sekwencji. Komentowane cechy są oznaczone zarówno dla przeglądu graficznego jak i sekwencji. Interfejs pozwala na zoomowanie i scrollowanie. Ten widok dostępny jest dla wszystkich sekwencji przez wybranie "Graphics" z menu "Display" ; linki do widoku graficznego są dostarczane przez Entrez Gene i Map Viewer (szukaj "sv" link). Widok ten jest użyteczny dla oglądania genów i innych cech opisanych.
RefSeq provides a niepotrzebne bazy danych sekwencji zawierających genom, transkrypt i białko. Transkrypty RefSeq są używane do opisywania genomu.
UniSTS dostarcza markerów STS dla primerów sekwencji, wielkości produktu, informacji o mapowaniu, GEnBank i rekordów RefSeq, które zawierają sekwencje primerów (zdeterminowanych przez Elektroniczne PCR) oraz dostarczają linków do sprawdzonych źródeł.
RefSeq contigs, model transkryptów, i model białek jest w całości zintegrowany z NCBI. Jednak może być zintegrowany z Entrez, dostępnych via dostosowaną stronę BLAST, zawierjącą białkowe "BLink" strony, które pokazują wyniki wyszukiwania BLAST.
BLAST
Strony BLAST specyficzne dla konkretnych organizmów (np.: człowiek , mysz) zapewniaja interfejs dla BLAST i Accession number lu format FASTA sekwencji przeciwko danym genomowym, tak samo jak transkrypty RefSeq i białka genomu.
Wyszukiwanie informacji za pomocą narzędzia Entrez
RefSeq, transkrypty, i białka są wyszukiwana przez standardowe narzędzie Entrez queries such as an Accession number, gene symbol, or protein name. You można również używać ustawień limitów, lub użyć Entrez "właściwości" dla zawężenia szukania.
Zobacz RefSeq web site dla Entrez query tips
FTP
genomes FTP site zawiera dane wygenerowane poprzez analizeę i/lub dodatkowy proces na NCBI. Strona ta zawiera sekwencje wygenerowane przez budowę genomu i przypis prób (zawartość, transkrypt i sekwencje białek) równie dobrze jak dane z Map Viewer. Proszę zobaczyć dołączone pliki README dla dalszych informacji