Sample GenBank
Record |
GenBank Flat File
Format |
|
LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999
DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION U49845
VERSION U49845.1 GI:1293613
KEYWORDS .
SOURCE Saccharomyces cerevisiae (baker's yeast)
ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 5028)
AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
TITLE Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae
JOURNAL Yeast 10 (11), 1503-1509 (1994)
PUBMED 7871890
REFERENCE 2 (bases 1 to 5028)
AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.
TITLE Selection of axial growth sites in yeast requires Axl2p, a novel
plasma membrane glycoprotein
JOURNAL Genes Dev. 10 (7), 777-793 (1996)
PUBMED 8846915
REFERENCE 3 (bases 1 to 5028)
AUTHORS Roemer,T.
TITLE Direct Submission
JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
Haven, CT, USA
FEATURES Location/Qualifiers
source 1..5028
/organism="Saccharomyces cerevisiae"
/db_xref="taxon:4932"
/chromosome="IX"
/map="9"
CDS <1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
AEVLLRVDNIIRARPRTANRQHM"
gene 687..3158
/gene="AXL2"
CDS 687..3158
/gene="AXL2"
/note="plasma membrane glycoprotein"
/codon_start=1
/function="required for axial budding pattern of S.
cerevisiae"
/product="Axl2p"
/protein_id="AAA98666.1"
/db_xref="GI:1293615"
/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE
VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE
TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV
YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG
DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ
DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA
NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA
CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN
NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ
SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS
YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK
HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL
VDFSNKSNVNVGQVKDIHGRIPEML"
gene complement(3300..4037)
/gene="REV7"
CDS complement(3300..4037)
/gene="REV7"
/codon_start=1
/product="Rev7p"
/protein_id="AAA98667.1"
/db_xref="GI:1293616"
/translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
LISGDDKILNGVYSQYEEGESIFGSLF"
ORIGIN
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga
481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga
601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta
661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag
721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa
781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata
841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga
901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac
961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg
1021 acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc
1081 tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa
1141 acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca
1201 ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac
1261 ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa
1321 actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag
1381 gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct
1441 ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac
1501 ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa
1561 acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc
1621 cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata
1681 cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca
1741 ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc
1801 cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc
1861 aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca
1921 agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc
1981 tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg
2041 caacgtccac aagaagttct caccactcca cctcaacaag ttcttacaca tcttctactt
2101 acactgcaaa aatttcttct acctccgctg ctgctacttc ttctgctcca gcagcgctgc
2161 cagcagccaa taaaacttca tctcacaata aaaaagcagt agcaattgcg tgcggtgttg
2221 ctatcccatt aggcgttatc ctagtagctc tcatttgctt cctaatattc tggagacgca
2281 gaagggaaaa tccagacgat gaaaacttac cgcatgctat tagtggacct gatttgaata
2341 atcctgcaaa taaaccaaat caagaaaacg ctacaccttt gaacaacccc tttgatgatg
2401 atgcttcctc gtacgatgat acttcaatag caagaagatt ggctgctttg aacactttga
2461 aattggataa ccactctgcc actgaatctg atatttccag cgtggatgaa aagagagatt
2521 ctctatcagg tatgaataca tacaatgatc agttccaatc ccaaagtaaa gaagaattat
2581 tagcaaaacc cccagtacag cctccagaga gcccgttctt tgacccacag aataggtctt
2641 cttctgtgta tatggatagt gaaccagcag taaataaatc ctggcgatat actggcaacc
2701 tgtcaccagt ctctgatatt gtcagagaca gttacggatc acaaaaaact gttgatacag
2761 aaaaactttt cgatttagaa gcaccagaga aggaaaaacg tacgtcaagg gatgtcacta
2821 tgtcttcact ggacccttgg aacagcaata ttagcccttc tcccgtaaga aaatcagtaa
2881 caccatcacc atataacgta acgaagcatc gtaaccgcca cttacaaaat attcaagact
2941 ctcaaagcgg taaaaacgga atcactccca caacaatgtc aacttcatct tctgacgatt
3001 ttgttccggt taaagatggt gaaaattttt gctgggtcca tagcatggaa ccagacagaa
3061 gaccaagtaa gaaaaggtta gtagattttt caaataagag taatgtcaat gttggtcaag
3121 ttaaggacat tcacggacgc atcccagaaa tgctgtgatt atacgcaacg atattttgct
3181 taattttatt ttcctgtttt attttttatt agtggtttac agatacccta tattttattt
3241 agtttttata cttagagaca tttaatttta attccattct tcaaatttca tttttgcact
3301 taaaacaaag atccaaaaat gctctcgccc tcttcatatt gagaatacac tccattcaaa
3361 attttgtcgt caccgctgat taatttttca ctaaactgat gaataatcaa aggccccacg
3421 tcagaaccga ctaaagaagt gagttttatt ttaggaggtt gaaaaccatt attgtctggt
3481 aaattttcat cttcttgaca tttaacccag tttgaatccc tttcaatttc tgctttttcc
3541 tccaaactat cgaccctcct gtttctgtcc aacttatgtc ctagttccaa ttcgatcgca
3601 ttaataactg cttcaaatgt tattgtgtca tcgttgactt taggtaattt ctccaaatgc
3661 ataatcaaac tatttaagga agatcggaat tcgtcgaaca cttcagtttc cgtaatgatc
3721 tgatcgtctt tatccacatg ttgtaattca ctaaaatcta aaacgtattt ttcaatgcat
3781 aaatcgttct ttttattaat aatgcagatg gaaaatctgt aaacgtgcgt taatttagaa
3841 agaacatcca gtataagttc ttctatatag tcaattaaag caggatgcct attaatggga
3901 acgaactgcg gcaagttgaa tgactggtaa gtagtgtagt cgaatgactg aggtgggtat
3961 acatttctat aaaataaaat caaattaatg tagcatttta agtataccct cagccacttc
4021 tctacccatc tattcataaa gctgacgcaa cgattactat tttttttttc ttcttggatc
4081 tcagtcgtcg caaaaacgta taccttcttt ttccgacctt ttttttagct ttctggaaaa
4141 gtttatatta gttaaacagg gtctagtctt agtgtgaaag ctagtggttt cgattgactg
4201 atattaagaa agtggaaatt aaattagtag tgtagacgta tatgcatatg tatttctcgc
4261 ctgtttatgt ttctacgtac ttttgattta tagcaagggg aaaagaaata catactattt
4321 tttggtaaag gtgaaagcat aatgtaaaag ctagaataaa atggacgaaa taaagagagg
4381 cttagttcat cttttttcca aaaagcaccc aatgataata actaaaatga aaaggatttg
4441 ccatctgtca gcaacatcag ttgtgtgagc aataataaaa tcatcacctc cgttgccttt
4501 agcgcgtttg tcgtttgtat cttccgtaat tttagtctta tcaatgggaa tcataaattt
4561 tccaatgaat tagcaatttc gtccaattct ttttgagctt cttcatattt gctttggaat
4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc
4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct
4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta
4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac
4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct
4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct
4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
//
Prawdziwy rekord dla U49845 może być
wyświetlony w Entrez. |
COMMENTS |
Pole LOCUS zawiera różne informacje, włączając nazwę locus, długość sekwencji, typ cząsteczki, podział GenBank i datę modyfikacji. Każdy z tych elementów zaostał opisany poniżej. |
|
Nazwa locus
w tym przykładzie to Nazwa locus
miała początkowo ułatwić grupowanie wpisów
zawierających podobną sekwencję: trzy pierwsze znaki zazwyczaj
określają organizm; czwarty i piąty pokazują inne
przynależności, takie jak produkt genu; dla wpisów dzielonych,
ostatni znak jest wspólny dla serii sekwencji stanowiących
całość. (zobacz sekcję 3.4.4 GenBank
release notes w celu poszerzenia informacji.) Jednakże 10 znaków w
nazwie locus nie wystarcza już do przekazania
ilości informacji, które oryginalnie miała przekazywać.
Jedyną zasadą obowiązującą obecnie podczas
przydzielania nazwy locus jest jej
unikalność. Dla przykładu, dla rekordów GenBank
mających 6-znakowe numery dostępu (np.: U12345), nazwą locus jest zwykle pierwsza litera rodzaju
czy nazwy gatunkowej, po której występuje numer dostępu. Dla
8-znakowych numerów dostępu (np.: AF123456), nazwa locus
to po prostu kod dostępu. Baza danych
odnośników sekwencji RefSeq przydziela formalne nazwy locus
każdemu rekordowi opierając się na symbolu genu. Baza danych RefSeq pracuje niezależnie od GenBank,
ale zawieraja odnośniki do zgodnych rekordów GenBank. Entrez Search Field: Accession
Number [ACCN] |
Liczba par nukleotydów
(lub reszt aminokwasowych) w zapisie sekwencji. W
tym przypadku, długość sekwencji wynosi 5028 bp. Nie
istnieje górna granica wielkości sekwencji zgłaszanych do GenBank. Możesz przedstawić cały genom,
jeśli posiadasz następujące po sobie sekwencje pochodzące
z pojedynczej cząsteczki modelowej. Istnieje jednakże limit 350 kb na pojedynczy wpis GenBank
(z nielicznymi wyjątkami, opisanymi w sekcji 1.3.2 informacji
wydanej dla GenBank 112.0 target="one").
Ograniczenie to zostało wprowadzone ze względu na
współuczestniczące międzynarodowe bazy sekwencji w celu
ułatwienia operacji na sekwencjach z użyciem różnorodnych
programów komputerowych. (W celu uzyskania dalszych informacji zobacz
artykuły NCBI News w Complete Genomes
i GenBank Enters
Megabase Era.) Minimalna długość
niezbędna do zgłoszenia sekwencji wynosi 50bp, mimo to w bazie
mogą znaleźć się krótsze zapisy z zeszłych lat. Entrez Search Field: Sequence Length [SLEN] Search Tip: (1) W celu uzyskania zapisów
mieszczących się w zakresie długości użyj dwukropka jako
operatora zakresu, np.: 2500:2600[SLEN]. (2) Aby otrzymać wszystkie
sekwencje krótsze niż określona górna granica, użyj 2 jako
dolnej granicy, np.: 2:100[SLEN]. (3) Aby otrzymać wszystkie sekwencje
dłuższe niż określona dolna granica, użyj serii
dziewiątek jako górnej granicy, np.: 325000:99999999[SLEN]. |
Typ zsekwencjonowanej
cząsteczki . W tym przykładzie, typem
cząsteczki jest DNA. Każdy zapis GenBank musi zawierać kolejne sekwencje pojedynczej cząsteczki . Różne typy cząsteczek są opisane w dokumentacji Sequin i mogą zawierać genomowy
DNA, genomowy RNA, prekursorowy
RNA, mRNA (cDNA), rybosomowy RNA, tRNA, mały
jądrowy RNA i mały cytoplazmatyczny RNA. Entrez Search Field: Własności [PROP] |
Dział GenBank, do którego należy dany rekord, jest
oznaczony przez trzyliterowy skrót. W tym przypadku dział GenBank to PLN. Baza danych GenBank
jest podzielona na 18 sekcji:
1. PRI -
sekwencje naczelnych
2. ROD – sekwencje gryzoni
3. MAM – sekwencje innych ssaków
4. VRT – sekwencje innych kręgowców
5. INV – sekwencje bezkręgowców
6. PLN -
sekwencje roślin, grzybów i glonów
7. BCT – sekwencje bakteryjne
8. VRL – sekwencje wirusowe
9. PHG – sekwencje bakteriofagowe 10. SYN – sekwencje
syntetyczne 11. UNA – sekwencje nieobjaśnione 12. EST – sekwencje EST (expressed sequence tags) 13. PAT – sekwencje
opatentowane 14.
STS. – sekwencje STS (sequence tagged sites) 15.
GSS - sekwencje GSS (genome survey sequences) 16.
HTG - sekwencje HTG (high-throughput genomic sequences) 17. HTC - niedokończone
wysoko-przepustowe sekwencjonowanie cDNA 18. ENV – sekwencje próbek
środowiska Niektóre z działów zawierają sekwencje
pochodzące od określonych grup organizmów, podczas gdy inne (EST,
GSS, HTG, itd..) zawierają dane
uzyskane przy użyciu określonych technologii sekwencjonowania,
pochodzące od wielu różnych organizmów. Podziały organizmów
są historyczne i nie odzwierciedlają aktualnej Taksonomii
NCBI. Służą one natomiast jako dogodny sposób
podziału GenBank na mniejsze części
dla tych, którzy chcą zamieścić dane w bazie danych FTP.
Ponieważ sekwencje od poszczególnego organizmu mogą egzystować
w opartych na technologii podziałach takich jak EST, HTG, itd., the NCBI
Taxonomy Browser powinna zostać użyta dla
odnalezienia wszystkich sekwencji od poszczególnego organizmu. Działy są
również sporządzone w postaci listy w sekcji 3.3 of the
GenBank release notes. Dział RNA w GenBank został usunięty w wydaniu 113.0 (sierpień 1999). Sekwencje , które
były poprzednio w dziale RNA, zostały przeniesione do odpowiedniej
sekcji organizmów. (Zobacz sekcja 1.3.2 of
the GenBank 113.0 release notes dla dodatkowej informacji.) Dział HTC
został dodany do GenBank w wydaniu 123.0 (kwiecień 2001) i opisany w sekcji 1.3.3 of the
GenBank 123.0 release notes. Inny dział, nazwany
CON, został dołączony w wydaniu 115.0 (grudzień
1999) ale nie jest skatalogowany powyżej, ponieważ rekordy w tym
dziale, nie zawierają żadnych danych o sekwencjach. Zamiast tego,
zawierają instrukcje składania sekwencji o tym jak tworzyć contigs ze złożonych rekordów GenBank. Zobacz Fall 1999 NCBI News i sekcję 1.3.3 of GenBank 115.0 release notes dla szczegółów. Entrez Search
Field:
Właściwości [PROP] human[ORGN,]
NOT gbdiv_est,[PROP] Z
powyższych powodów, nie
używaj działów GenBank, by
znaleźć wszystkie sekwencje danego organizmu. Zamiast tego użyj NCBI Taxonomy Browser. |
Data w polu LOCUS jest datą ostatniej modyfikacji.
Przykładowy wpis ostatni raz modyfikowany był 21-JUN-1999. W niektórych przypadkach data modyfikacji może pokrywać się z datą umieszczenia wpisu w bazie danych, nie da się tego jednakże określić na podstawie rekordu. Jeśli potrzebujesz informacji o dacie udostępnienia wpisu wyślij wiadomość do info@ncbi.nlm.nih.gov. Sprawdzimy dla ciebie historię rekordu. Jeśli sekwencja została oryginalnie wysłana do naszych współpracowników w DDBJ lub EMBL, nie do GenBank, poprosimy ich o wysłanie do ciebie informacji o dacie. (Zobacz również adnotacje re: date w odnośniku Direct Submission.) Entrez Search Field: Modification
Date [MDAT] |
Krótki opis sekwencji,
zawierający takie informacje jak organizm źródłowy, nazwa
genu/białka, lub opis funkcji (jeśli jest
to sekwencja niekodująca). Jeśli sekwencja
posiada region kodujący (CDS), po opisie może wystąpić
kwantyfikator kompletności, taki jak "complete cds".
(Zobacz sekcję 3.4.5 GenBank release notes w celu uzyskania pełniejszych
informacji). Entrez Search Field: Title
Word [TITL] |
Unikalny identyfikator rekordu.
Numer dostępu dotyczy kompletnego rekordu i jest zwykle kombinacją
liter(y) i liczb, np.: pięciu cyfr poprzedzonych pojedynczą
literą (np.: U12345) lub dwóch liter i sześciu cyfr (np.:
AF123456). Niektóre dostępy mogą być dłuższe, w
zależności od typu rekordu zawierającego sekwencję. Numery dostępu nie
zmieniają się, nawet jeśli dane
rekordu zmieniane są na prośbę autora. Czasami jednakże,
oryginalny numer dostępu może stać się drugorzędnym,
towarzyszącym nowemu, jeśli autor przedstawia nowy wpis
zawierający wcześniejsze sekwencje, lub
jeśli z jakichś powodów nowy wpis zastępuje
wcześniejszy rekord. Rekordy z bazy danych RefSeq
posiadają inny
format numeru dostępu rozpoczynający się dwoma literami
oddzielonymi przekreśleniem dolnym od sześciu lub więcej
liczb, np.: NT_123456 constructed genomic contigs NM_123456 mRNA NP_123456 białka NC_123456 chromosomy
Porównaj numery dostępu z
identyfikatorami sekwencji, takimi jak Version
i GI dla sekwencji nukleotydowych
i protein_id oraz GI sekwencji aminokwasowych. Entrez Search
Field: Accession [ACCN] |
Numer identyfikacyjny sekwencji nukleotydowej
reprezentuje pojedynczą, określoną
sekwencję w bazie danych GenBank. Ten numer
identyfikacji używa formatu accession.version wprowadzonego przez GenBank
/ EMBL / DDBJ w lutym 1999. Jeżeli jest jakakolwiek zmiana
w danych dotyczących sekwencji (nawet pojedyncza), numer wersji
będzie się zwiększać np. U12345.1 →
U12345.2, ale część accession pozostanie stała. System numerów identyfikacyjnych sekwencji accession.version biegnie równolegle do systemu numerów GI, , tzn., kiedy następuje jakakolwiek zmiana w
sekwencji, to otrzymuje ona nowy GI i następuje zwiększenie numeru
wersji. Aby, by uzyskać
więcej informacji, zobacz sekcję 1.3.2 of the GenBank 111.0 release notes, i sekcję 3.4.7 current GenBank
release notes. Narzędzie
jest dostępne, aby śledzić różne numery GI, numery wersji
i uaktualniać dane dla sekwencji, które pojawiły się w
określonym rekordzie GenBank (więcej
informacji i przykład). Więcej
szczegółów dotyczących numerów identyfikacyjnych sekwencji i
różnicy między numerem GI i wersji jest dostarczonych w Sequence Identifiers: A Historical Note. Entrez Search Field:
użyj domyślnych ustawień "All Fields" |
" Identyfikator GenInfo" jest to numer identyfikacyjny sekwencji, w tym
przypadku, dla sekwencji nukleotydowej. Jeżeli
sekwencja ulegnie zmianie w jakiś sposób, nowy numer GI będzie
wyznaczony. Oddzielny numer GI
przyznawany jest również dla każdego białka translacyjnego w
obrębie rekordu sekwencji nukleotydowej, podobnie nowy GI jest
wyznaczony, jeżeli białko translacyjne ulegnie zmianie na
jakiejś drodze (patrz poniżej). Identyfikatory sekwencji
GI są przydzielane równolegle do nowego systemu accession.version. Aby uzyskać więcej
informacji, zobacz opis Version
powyżej i sekcji 3.4.7 aktualnych GenBank release notes. Dostępne narzedzie Sequence Revision History pozwala na śledzenie różnych
numerów GI, numerów wersji i uaktualnionych dat dla sekwencji,
znajdujących się w określonym rekordzie GenBank
(więcej informacji i przykład). Więcej szczegółów o numerach identyfikacyjnych sekwencji i różnic między numerem GI i wersją można znaleźć w Sequence Identifiers: A Historical Note. Entrez Search Field: użyj
domyślnych ustawień "All Fields" |
Publikacje autorów sekwencji, opisujących informacje zgłoszone do rekordu. Odnośniki są automatyczne porządkowane w obrębie rekordu w oparciu o datę wydania. Pierwsze pokazywane są odnośniki najstarsze. Entrez Search Field: Liczne pola kategorii References można
wyszukiwać w polach Entrez wymienionych
poniżej. |
Skrót
MEDLINE nazwy czasopisma. (informacja o pełnej
nazwie może być znaleziona w bazie
danych artykułów Entrez.) Entrez Search
Field: Journal Name
[JOUR] |
Odnośniki zawierające ID PubMed posiadają w rekordzie sekwencji odnośniki do odpowiedniego rekordu PubMed. Rekordy PubMed zawierające numer(y) w polu SI (secondary source identifier) posiadają odnośniki do rekordu(ów) sekwencji. Entrez Search Field: Nie jest możliwe przeszukiwanie baz danych sekwencji nukleotydowych lub białkowych poprzez PubMed ID. Jednakże możesz przeszukiwać
bazę danych PubMed (literatury) Entrez przy pomocy PubMed ID a
następnie wybrać odnośnik do odpowiednich rekordów sekwencji. |
Dane kontaktowe autora, takie jak instytut/departament i kod pocztowy. Jest to zawsze ostatni cytat w polu References. Niektóre starsze rekordy nie zawierają odnośnika „Direct Submission”. W nowych rekordach jest to pole obowiązkowe. Podpola Autors zawierają nazwisko(a) autora(ów), Title zawiera słowa „Direct Submission”, a Journal zawiera adres(y). Data w podpolu Journal jest datą
przygotowania wpisu. W wielu przypadkach jest to również data, w której
pracownicy GenBank otrzymali sekwencję, nie
jest to jednak data pojawienia się rekordu w bazie. Jeśli musisz
poznać tę datę, wyślij wiadomość na info@ncbi.nlm.nih.gov. Sprawdzimy dla ciebie historię rekordu. Search Tip: Czasem pomocne jest wyszukiwanie zarówno dla
pełnej pisowni jak i skróconej, np.: "Washington University" OR
"WashU", ponieważ sposób zapisu jest
zależny od autorów. |
Sekwencja kodująca; region
nukleotydów odpowiadający sekwencji aminokwasów w białku (lokacja
zawiera również kodony start i stop). CDS
zawiera tłumaczenie aminokwasowi. Autorzy mogą
określić naturę CDS używając kwalifikatora "/evidence=experimental" lub "/evidence=not_experimental". Autorzy zachęcani są również do zaopatrzenia
rekordu w opis mRNA, zawierający nieulegający translacji region 5’
(5’UTR), sekwencje kodujące (CDS, egzony)
i 3’ nieulegający translacji region
(3’UTR). Entrez Search Field: Feature Key [FKEY] |
|
|
Entrez Search Field:
użyj domyślnych ustawień "All Fields" |
|
“GenInfo Identifier" numer
identyfikacyjny sekwencji, w tym przypadku dla sekwencji translacyjnej
białka. System GI działa równolegle z systemem accession.version, wprowadzonym przez GenBank,
EMBL i DDBJ w lutym 1999. Jeśli sekwencja białkowa zmieni się
w dowolny sposób, otrzyma nowy numer GI, a sufiks protein_id
zostanie zwiększony o jeden. W celu uzyskania dalszych informacji zobacz
opis protein_id
powyżej, sekcję 1.3.2 GenBank
111.0 release notes, i sekcję 3.4.7 aktualnego
GenBank release notes. Więcej informacji o numerach identyfikacyjnych sekwencji i różnicach między numerem GI a wersją znaleźć można w Sequence Identifiers: A Historical Note. Entrez Search Field: użyj
domyślnych ustawień "All Fields" |
|
Sekwencja
aminokwasowa odpowiadająca nukleotydowym
sekwencjom kodującym (CDS).
W wielu przypadkach są to sekwencje domniemane. Autorzy mogą
zaznaczyć, czy CDS opierają się na modelach
doświadczalnych lub teoretycznych. |
Region interesujący biologicznie
rozpoznany jako gen, któremu została przydzielona nazwa. Podstawowy
przedział genu zależny jest od najdalszych opisów 5’ i
3’. Dodatkowe przykłady rekordów pokazujące związek
między opisem genu, a innymi opisami, takimi jak mRNA
i CDS, to AF165912 i AF090832. |
|
Informuje, że opisana sekwencja znajduje się na nici komplementarnej. |
Przykłady innych rekordów
pokazujących zróżnicowanie biologicznych opisów; dostępny jest
w nich również graficzny format wizualnie przedstawiający dane
sekwencje:
Kompletna
lista features dostępna jest również w
materiałach podanych powyżej. |
Pole ORIGIN
może pozostać niewypełnione, opisane jako "Unreported” (niezgłoszone),
lub może zawierać strzałkę do początku sekwencji,
zwykle obejmując eksperymentalnie ustalone miejsca restrykcyjne lub locus genu (gdy jest to
możliwe). Informacja ta jest prezentowana jedynie w starszych rekordach. Sekwencja rozpoczyna się od linii znajdującej
się bezpośrednio poniżej pola ORIGIN. Aby
zobaczyć/zapisać jedynie sekwencję, wyświetl dany rekord
w formacie FASTA. Opis formatu FASTA
dostępny jest na stronach internetowych BLAST. |