Accepted Input Formats
Żądane sekwencje powinny być wklejone w
polu „Search”. Akceptowane są różne
typy pliku inputowego oraz automatycznie
określany jest format pliku inputowego. Aby umożliwić tę funkcję... . Są
one opisane poniżej w punkcie 3). Akceptowane typy pliku inputowego to FASTA, sama sekwencja czy też
identyfikatory sekwencji.
- FASTA
Sekwencja w formacie FASTA zaczyna się od opisu sekwencji, zawartego w pierwszej linijce. Następne linijki to nasza sekwencja. Linijka opisu (defline) odróżniana jest od sekwencji za pomocą symbolu > na początku linijki. Zalecane jest aby linijki nie zawierały więcej niż 80 znaków. Przykład sekwencji w formacie FASTA podany jest poniżej. >gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP
Puste linie nie są
dopuszczane w formacie FASTA.
Sekwencje powinny być
przedstawione za pomocą sekwencji aminokwasowych (IUB/IUPAC) lub
sekwencji nukleotydowych z następującymi wyjątkami:
małe litery są akceptowane i interpretowane jako duże
litery; myślnik(-) może być użyty jako przerwa o nie ograniczonej długości; w sekwencjach
aminokwasowych U i * są akceptowane (patrz niżej). Przed
wykonaniem operacji wszystkie liczny w żądanej sekwencji powinny
być usunięte luz zastąpione przez odpowiednie litery (np N dla nieznanego nukleotydu lub X dla nieznanego
aminokwasu). Akceptowane kody nukleotydowe to
A adenosine C cytidine G guanine T thymidine N A/G/C/T (any) U uridine K G/T (keto) S G/C (strong) Y T/C (pyrimidine) M A/C (amino) W A/T (weak) R G/A (purine) B G/T/C D G/A/T H A/C/T V G/C/A - gap of indeterminate length
Dla tych programów
które używają sekwencji aminokwasowych (BLASTP i TBLASTN),
akceptowane kody aminokwasowe to
A alanine P proline B aspartate/asparagine Q glutamine C cystine R arginine D aspartate S serine E glutamate T threonine F phenylalanine U selenocysteine G glycine V valine H histidine W tryptophan I isoleucine Y tyrosine K lysine Z glutamate/glutamine L leucine X any M methionine * translation stop N asparagine - gap of indeterminate length UWAGA. 1Uproszczone kody nukleotydowe(kody 1 literowe) zaznaczone na czerwono są traktowane jako mismatches (niedopasowanie) w alignmencie nukleotydów. Zbyt wiele uproszconych kodów sekwencji nukleotydowych spowoduje, że blast.cgi odrzuci plik inputowy. Dla białek zbyt wiele kodów przypominających nukleotydy (ACGTN) także może spowodować taki efekt. 2W przypadku kodu białkowego U zastępowane jest przez X przed wyszukiwaniem ponieważ nie jest ono rozpoznawane przez scoring matrices (matryce dopaswania). 3blast.cgi nie uwzględni myślnika (-), aby przedstawić przerwę należy użyć N lub X. 2. Bare Seqence (Naga sekwencja) Może być to sekwencja bez linijki definicji z FASTA np.
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP Może być także użyta sekwencja oddzielona liczbami/lub spacjami tak jak sekwencja GenBank/GenPept flatfile report: 1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek 121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp Puste linie nie są dozwolone. 3. Identifiers (Identyfikatory) Zazwyczaj są to accession, accession.version lub gi's (np. p01013, AAA68881.1, 129295), ale identyfikatory sekwencji NCBI oddzielone kreską także są akceptowane (Np. gi|129295). Takie identyfikatory sekwencji NCBI maja bardzo specyficzna składnię tak jak opisano na stronie ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html. Identyfikator może składać się z jednego znaku (tzn. Słowa). Spacje pomiędzy literami spowodują że będzie on traktowany jako naga sekwencja (spacje przed lub po identyfikatorze są dozwolone). Przykłady niepoprawnych wpisów podane są poniżej: ACCESSION P01013 AAA68881. 1 gi| 129295 W pierwszym przypadku „ACCESSION” musi być usunięte. W drugim przypadku występuje spacja przed verssion number. W trzecim przypadku występuje spacja po kresce („|”). W przypadku MegaBlast gdzie może być wprowadzona więcej niż jedna sekwencja, poszczególny identyfikator powinien być umieszczony w oddzielnej linijce.
Load query file from disk (Załaduj plik z dysku).
Ta funkcja umożliwia
użytkownikom załadowanie pliku tekstowego zawierającego
żądane sekwencje w formacie FASTA. Plik może także
zawierać identyfikatory sekwencji zamiast sekwencji w formacie FASTA.
Ta funkcja jest możliwa tylko dla MegaBlast.
Długie sekwencje powinny być załadowywane dzięki tej opcji aby uniknąć możliwego zablokowania
strony.
Set Subsequence
Fragment żądanej sekwencji
może być użyty w przeszukiwaniu w programie BLAST. Można go
wprowadzić w polach „FROM” i „TO”, które występują pod „Set subsequence”. Na przykład żeby
zawęzić obszar przeszukiwań od pozycji 24 do 200 naszej
sekwencji należy wpisać 24 w pole „FROM” i 200 w polu „TO”.
Jeżeli jeden z limitów jest poza zakresem,
część wspólna z [FROM,TO] i
[1length] będzie przeszukana, gdzie length
oznacza długość całej sekwencji.
Databases available for BLAST serach (Bazy danych dostępne w BLAST)
W BLAST oferowanych jest kilka
różnych baz danych do przeszukiwania. Niektóre z nich jak na
przykład SwissProt i PDB nie podlegają
pod bazy danych NCBI. Inne takie jak ecoli dbEST i month podlegają
pod bazy danych NCBI.
Inne „wirtualne bazy danych” mogą być stworzone poprzez
użycie opcji "Limit
by Entrez Query" .
Peptide
Sequence Databases
v
nr
Wszystkie nie powtarzające się (non-redundant)
translacje z GenBank CDS + RefSeq Proteins + PDB + SwissProt + PIR + PRF
v
refseq
Sekwencje białkowe RefSeq z NCBI's Reference Sequence Project.
v
Swissprot
Największy produkt białkowej bazy
danych Swiss-Prot
v
Pat
Białka sekcji Patent bazy danych GenPept.
v
Pdb
Sekwencje uzyskane z trójwymiarowej struktury z Brookhaven
Protein Data Bank.
v
Month
Wszystkie nowe i
zweryfikowane translacje z GenBank CDS +PDB+SwissProt+PIR+PRF
opublikowane w przeciągu ostatnich 30 dni.
v
env_nr
Sekwencje
białkowe z naturalnych próbek, ze środowiska naturalnego.
Nucleotide
Sequence Databases (Nukleotydowe bazy danych)
- nr
Wszystkie GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB seklwencje
(z wyłączeniem HTGS0,1,2, EST, GSS, STS, PAT, WGS). Nie
są już nie powtarzające
się (non redundant)
- refseq_rna
Sekwencje RNA z NCBI's Reference
Sequence project
- refseq_genomic
Sekwencje genomiczne z NCBI's
Reference Sequence
project
- est
Baza danych GenBank + EMBL + DDBJ sekwencji z EST Divisions
- est_human
Podzbiór jest zawierający organizm “człowiek”(human)
- est_mouse
Podzbiór jest zawierający
organizm “mysz”(mouse)
Opcja
Return alignment endpoints
only
Jest to najprostszy format outputowy BLAST dostępny tylko dla MegaBlast. Wybranie tej opcji uniemożliwi
przeformatowanie tego samego przeszukania BLAST poprzez przeszukanie RID.
Peptide Sequence Databases
v
nr
Wszystkie nie
powtarzające się (non-redundant)
translacje z GenBank CDS + RefSeq Proteins
+ PDB + SwissProt + PIR + PRF
v
refseq
Sekwencje
białkowe RefSeq z NCBI's Reference
Sequence Project.
v
Swissprot
Największy
produkt białkowej bazy danych Swiss-Prot
v
Pat
Białka
sekcji Patent bazy danych GenPept.
v
Pdb
Sekwencje
uzyskane z trójwymiarowej struktury z Brookhaven Protein Data Bank.
v
Month
Wszystkie nowe i zweryfikowane translacje z GenBank CDS +PDB+SwissProt+PIR+PRF opublikowane w przeciągu
ostatnich 30 dni.
v
env_nr
Sekwencje białkowe z naturalnych próbek, ze
środowiska naturalnego.
Nucleotide Sequence Databases (Nukleotydowe bazy danych)
Podzbiór jest zawierający
organizm “mysz”(mouse)
Opcja
Return alignment endpoints
only
Jest to najprostszy format outputowy BLAST dostępny tylko dla MegaBlast. Wybranie tej opcji uniemożliwi
przeformatowanie tego samego przeszukania BLAST poprzez przeszukanie RID.
.
Hits computed (obliczone trafienia)
Możliwe jest przyspieszenie
przeszukiwania poprzez określenie maksymalnej ilości
trafień. Opcja jest dostępna jedynie dla Trace megablast.
CDD search.
Funkcja
ta jest odpowiednia tylko dla Protein BLAST. Po aktywacji istnieje
możliwość porównania inputowych
sekwencji białkowych znajdujących się w bazie CDD.
Domeny
konserwatywne pasują do żądanej sekwencji mogą dać
dodatkowe informacje na temat możliwej funkcji żądanej
sekwencji. CDD to baza danych zawierająca zbiór profilów porównawczych
białek (protein alignment profiles) uzyskanych z dwóch zewnętrznych zbiorów Smart
i Pfam, oraz dane stworzone w obrębie NCBI:
COG i cd. W celu uzyskania dalszych informacji
odwiedź stronę http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml.
Choose a
translation (stara wersja Blast)
W nowej
wersji jest:
Wybierz
program BLAST, którego chcesz używać:
|