Databases

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΝΟΥΚΛΕΪΝΙΚΩΝ ΟΞΕΩΝ ΚΑΙ ΠΡΩΤΕΪΝΩΝ

Νικόλαος Χ. Παπανδρέου & Σταύρος Ι. Χαμόδρακας

Τομέας Βιολογίας Κυττάρου & Βιοφυσικής

Τμήμα Βιολογίας

Παν/μιο Αθηνών

Μάρτιος 2002

ΓΕΝΙΚΑ

Οι βάσεις δεδομένων ακολουθιών και δομών DNA και πρωτεϊνών αποτελούν το χαρακτηριστικότερο δείγμα της αλματώδους εξέλιξης που έχει επιτελεστεί τα τελευταία χρόνια στη Βιολογία. Όταν πρωτοξεκίνησε η δημιουργία τους ο όγκος της πληροφορίας ήταν τόσο μικρός που και ένας μικρός αριθμός ερευνητών αρκούσε για την συντήρηση και για την ανανέωση των βάσεων αυτών. Αν κάποιος ερευνητής ενδιαφέρονταν να έχει πρόσβαση στις εγγραφές της βάσης επικοινωνούσε με τους επιστημονικούς υπευθύνους και εκείνοι του έστελναν με συμβατικό ταχυδρομείο όλη τη βάση η οποία αρκούσε να αποθηκευτεί ακόμη και σε μερικές δισκέτες ή μια μαγνητοταινία.

Την τελευταία δεκαετία όμως η τεχνολογική εξέλιξη βοήθησε στη διεκπεραίωση μεγάλου όγκου πειραματικής εργασίας η οποία σε συνάρτηση με τον διαρκή προσδιορισμό γονιδιωμάτων διαφόρων οργανισμών αύξησε τον όγκο της πληροφορίας στο επίπεδο της ακολουθίας και όχι μόνο, σε δυσθεώρητα μεγέθη. Οι βάσεις πλέον δεν περιέχουν απλώς πολλά δεδομένα αλλά και η διαδικασία ανανέωσης τους είναι απαραίτητα καθημερινή υπόθεση. Πλέον η συντήρηση μιας βάσης απαιτεί ένα πολυάριθμο επιτελείο επιστημόνων οι οποίοι ασχολούνται αποκλειστικά με το σχολιασμό (annotation) των νεοεισερχόμενων δεδομένων καθώς και με τη διόρθωση λαθών των ήδη υπαρχόντων. Χαρακτηριστικά παραδείγματα αποτελούν η βάση πρωτεϊνικών ακολουθιών SWISS-PROT που περιέχει 104948 ακολουθίες (Rel. 40.9 - Ιανουάριος 2002), ενώ η EMBL Nucleotide Sequence Database που περιέχει νουκλεοτιδικές αλληλουχίες έχει 14366182 εγγραφές (Rel. 69 - Δεκέμβριος 2001). Η πρόσβαση στις βάσεις αυτές είναι πλέον εύκολη μέσω της χρήσης του Διαδικτύου. Ο χρήστης μπορεί να επισκεφτεί την ιστοσελίδα που διατηρείται από τους υπευθύνους της βάσης και να κάνει αναζητήσεις αποθηκεύοντας στον υπολογιστή του δεδομένα του άμεσου ενδιαφέροντός του. Παράλληλα έχουν δημιουργήθεί και μια σειρά από βάσεις που αποσκοπούν στην ταξινόμηση της πληροφορίας στο επίπεδο της ακολουθίας και της δομής προκειμένου να οργανωθεί η πληροφορία και να εξαχθούν συμπεράσματα για την βιολογική τους σημασία.

Παρακάτω παρατίθενται οι κυριότερες κατηγορίες βάσεων νουκλεϊνικών οξέων και πρωτεϊνών και οι κυριότεροι αντιπρόσωποι τους.

Α. Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών.

Οι βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών αποτελούν τις μεγαλύτερες βάσεις στο ευρύτερο πεδίο της Βιολογίας τόσο από άποψη του όγκου της πληροφορίας που περιέχουν όσο και από την άποψη του εκθετικού ρυθμού συσσώρευσης δεδομένων που εμφανίζουν. Τα τελευταία χρόνια λόγω της εξέλιξης της τεχνολογίας στην εύρεση της αλληλουχίας (sequencing) πολυνουκλεοτιδίων έγινε εφικτός σε μικρό χρονικό διάστημα, ο προσδιορισμός της αλληλουχίας ολόκληρων γονιδιωμάτων αρκετών οργανισμών όπως ο άνθρωπος. Σε αρκετές περιπτώσεις μάλιστα υπάρχουν εξειδικευμένες βάσεις δεδομένων που περιέχουν τις αλληλουχίες για ένα και μόνο οργανισμό (π.χ. Flybase a database of the Drosophila genome http://flybase.bio.indiana.edu/ ).

Εδώ πρέπει να σημειώσουμε τις τρεις μεγαλύτερες βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών που είναι ελεύθερα διαθέσιμες στην ακαδημαϊκή κοινότητα. Πρόκειται για τις GENBANK (NCBI), DNA Data Bank of Japan (DDBJ) και EMBL Nucleotide Sequence Database (ΕΒΙ) οι οποίες σε συνεργασία έχουν δημιουργήσει την International Nucleotide Sequence Database Collaboration. Η συνεργασία μεταξύ των βάσεων περιλαμβάνει την ανταλλαγή σε καθημερινή βάση εγγραφών που κατατίθενται ανεξάρτητα σε κάθε βάση δεδομένων έχοντας θέσει παράλληλα και κοινούς κανόνες για την ταξινόμηση και το σχολιασμό των δεδομένων. Στο παρακάτω σχήμα παρουσιάζεται η ροή της πληροφορίας ανάμεσα στις βάσεις.

Λίγα λόγια για κάθε βάση δεδομένων που συμμετέχει στην International Nucleotide Sequence Database Collaboration :

GENBANK: Η GENBANK¹ ( http://www.ncbi.nlm.nih.gov/Genbank/index.html ) αποτελεί μια βάση δεδομένων νουκλεοτιδικών αλληλουχιών που είναι ελεύθερα διαθέσιμη στην επιστημονική κοινότητα. Βρίσκεται υπό την αιγίδα του Εθνικού Ινστιτούτου Υγείας των Η.Π.Α. Η κύρια πηγή της πληροφορίας που περιέχεται στην GENBANK προέρχεται από απευθείας υποβολές δεδομένων όπως προκύπτουν από πειραματικές διεργασίες διαφόρων ερευνητικών ομάδων. Τα νεοεισερχόμενα δεδομένα υφίστανται επεξεργασία και προστίθενται σχόλια (annotation) για την διευκόλυνση των ερευνητών. Ανά τακτά χρονικά διαστήματα τα ήδη κατατεθειμένα δεδομένα επανεξετάζονται και γίνονται διορθώσεις αν προκύπτουν νέα δεδομένα σχετικά με τις εγγραφές. Η διαδικασία κατάθεσης των δεδομένων μπορεί να πραγματοποιηθεί πολύ γρήγορα μέσω του Διαδικτύου με την συμπλήρωση κατάλληλης φόρμας και στη συνέχεια οι υπεύθυνοι της βάσης αναλαμβάνουν το σχολιασμό της εγγραφής και τη δημοσιοποίηση της στην βάση. Έχει διαπιστωθεί ότι κάθε 14 μήνες ο αριθμός των νουκλεοτιδικών βάσεων που περιέχονται στην GENBANK διπλασιάζεται με αποτέλεσμα η παρούσα έκδοση (Rel. 128, Φεβρουάριος 2002) να περιέχει 15465325 ακολουθίες με τον συνολικό αριθμό βάσεων να φτάνει τις 17089143893.

EMBL-Bank: Η EMBL Nucleotide Sequence Database² ( http://www.ebi.ac.uk/embl/ ) αποτελεί τη μεγαλύτερη βάση νουκλεοτιδικών αλληλουχιών στην Ευρώπη και βρίσκεται υπό την αιγίδα του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (EMBL). Εδράζεται και συντηρείται στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (EBI) στο Cambridge, UK. Τα δεδομένα προέρχονται από ανεξάρτητα ερευνητικά εργαστήρια καθώς και από ομάδες που ασχολούνται με τον προσδιορισμό των γονιδιωμάτων διαφόρων οργανισμών. Η κατάθεση ακολουθιών στην EMBL-Bank είναι μια διαδικασία απλή και πραγματοποιείται μέσω του Διαδικτύου κατ' αντίστοιχο τρόπο με αυτό της GENBANK. Στη συνέχεια οι νεοεισερχόμενες ακολουθίες υφίστανται επεξεργασία και σχολιασμό από τους υπευθύνους της βάσης προτού γίνουν διαθέσιμες στην επιστημονική κοινότητα. Επιπλέον μέσω του Διαδικτύου παρέχονται μια σειρά από εργαλεία ανάλυσης ακολουθιών (π.χ. Fasta, BLAST). Η τελευταία έκδοση της EMBL-Bank (Rel. 69 - Μάρτιος 2002) περιέχει 15960527 εγγραφές ενώ ο συνολικός αριθμός των νουκλεοτιδίων φτάνει τα 17868806247.

DDJB: H DNA Databank of Japan (DDJB - http://www.ddbj.nig.ac.jp/ ) ιδρύθηκε το 1986 στο Εθνικό Ινστιτούτο Γενετικής (NIG) το οποίο βρίσκεται υπό την αιγίδα του Υπουργείου Παιδείας, Επιστημών και Αθλητισμού της Ιαπωνίας. Αποτελεί τη μοναδική διεθνώς αναγνωρισμένη βάση νουκλεοτιδικών αλληλουχιών στην Ιαπωνία ενώ η κύρια πηγή δεδομένων της είναι οι εργασίες Ιαπώνων ερευνητών. Επιπλέον παρέχονται μια σειρά από εργαλεία για την ανάλυση των νουκλεοτιδικών αλληλουχιών. Η παρούσα έκδοση της DDJB (Rel. 48, Ιανουάριος 2002) περιέχει 15016100 εγγραφές ενώ ο συνολικός αριθμός των νουκλεοτιδικών βάσεων που περιέχονται στις ακολουθίες είναι 16197713855.

Β. Βάσεις δεδομένων πρωτεϊνικών ακολουθιών και βάσεις για την ανάλυση ακολουθιών.

Η SWISS-PROT³ ( http://www.expasy.ch/sprot/ ), είναι μια βάση δεδομένων πρωτεϊνικών ακολουθιών που ιδρύθηκε το 1986 και στις μέρες μας συντηρείται από το Ελβετικό ινστιτούτο Βιοπληροφορικής (Swiss Institute of Bioinformatics) σε συνεργασία με το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute). H παρούσα έκδοση της SWISS-PROT περιέχει 104948 καταχωρήσεις (Ιανουάριος 2002) στις οποίες εκτός από την ακολουθία να υπάρχουν και συμπληρωματικά σχόλια όπως, βιβλιογραφικές αναφορές, γενικά στοιχεία δευτεροταγούς δομής, σύνδεσμοι σε άλλες βάσεις δεδομένων σχετικές με κάθε εγγραφή καθώς και σημειώσεις για τη βιολογική λειτουργία (αν είναι γνωστές) και άλλες χρήσιμες πληροφορίες.

Η Protein Information Resource⁴ (PIR - http://pir.georgetown.edu/ ) εδράζεται στο Πανεπιστήμιο του Georgetown και αποτελεί τμήμα του Εθνικού Ιδρύματος Βιοϊατρικής Έρευνας (NBRF) των Η.Π.Α. Η PIR περιλαμβάνει μια σειρά από βάσεις δεδομένων που σχετίζονται με τη μελέτη των πρωτεϊνών με κυριότερη από αυτές την PIR-International Protein Sequence Database (PSD). H PSD αποτελεί όπως και η SWISS-PROT μια βάση δεδομένων πρωτεϊνικών ακολουθιών συνοδευόμενη από συμπληρωματικά σχόλια. Τα δεδομένα της PSD προκύπτουν από την συνεργασία της PIR με τo Munich Information Center for Protein Sequences (MIPS) και την Japanese International Protein Information Database (JIPID). H τελευταία έκδοση της PSD (Rel. 71.03, Φεβραυάριος 2002) περιλαμβάνει 283138 εγγραφές. Πρέπει να σημειωθεί ότι η PIR-PSD σε 4 υποενότητες τις PIR1, PIR2, PIR3 και PIR4. Μεταξύ των PIR1 και PIR2 δεν υπάρχει ουσιαστική διαφορά. Ο διαχωρισμός διατηρείται κυρίως για ιστορικούς λόγους. Οι ενότητες αυτές περιέχουν το 99% των εγγραφών της βάσης και τα κριτήρια ταξινόμησης και σχολιασμού είναι ακριβώς τα ίδια. Αντίθετα οι εγγραφές της PIR3 δεν έχουν ακόμη υποστεί έλεγχο και σχολιασμό. Τα περιεχόμενα της PIR4 είναι ακολουθίες οι οποίες είτε δεν συναντώνται στη φύση είτε δεν εκφράζονται υπό φυσιολογικές συνθήκες. Επίσης μπορεί να περιέχει ακολουθίες που έχουν συντεθεί de novo σε εργαστήριο. Σε κάθε περίπτωση πάντως έχουν υποστεί έλεγχο και σχολιασμό από τους υπεύθυνους της βάσης.

Η PROSITE⁵ ( http://www.expasy.ch/prosite/ ) είναι μια βάση ταξινόμησης σε οικογένειες πρωτεϊνικών ακολουθιών και αυτοτελών περιοχών ακολουθιών (sequence domains). Βασίζεται στη γενικότερη παρατήρηση ότι ενώ υπάρχει ένας τεράστιος αριθμός διαφορετικών πρωτεϊνών στη φύση, αυτές μπορούν να ομαδοποιηθούν με βάση την ομοιότητα στην ακολουθία τους σε ένα μικρό αριθμό οικογενειών. Οι πρωτεΐνες ή οι αυτοτελείς δομικές περιοχές που ανήκουν στην ίδια οικογένεια έχουν την ίδια λειτουργία και προέρχονται από κοινό πρόγονο. Είναι φανερό ότι πρωτεΐνες που ανήκουν στην ίδια οικογένεια, έχουν τμήματα της ακολουθίας τους που είναι περισσότερο συντηρημένα στην πορεία της εξέλιξης τους. Αυτές οι περιοχές σχετίζονται άμεσα με τη λειτουργία τους και με τη δομή των πρωτεϊνών στο χώρο. Αναλύοντας τις ακολουθίες πρωτεϊνών που ανήκουν στην ίδια οικογένεια είναι δυνατό να προκύψει ένα 'αποτύπωμα' χαρακτηριστικό για κάθε ομάδα, ικανό ώστε να τη διαχωρίζει από τις άλλες πρωτεϊνικές αλληλουχίες που δεν ανήκουν στην οικογένεια αυτή. Μια ανάλογη περίπτωση αποτελεί η λήψη αποτυπωμάτων από την αστυνομία. Ένα αποτύπωμα είναι ικανό για να ταυτοποιήσει ένα άτομο. Παρόμοια και στις πρωτεΐνες η χρήση ενός τέτοιου αποτυπώματος μπορεί να χρησιμεύσει για να ταξινομηθεί μια άγνωστη πρωτεϊνική αλληλουχία σε μια γνωστή οικογένεια πρωτεϊνών δινόντας μας ενδείξεις για την πιθανή λειτουργία τους. Αυτή τη στιγμή η PROSITE περιέχει 'αποτυπώματα' για 1000 περίπου οικογένειες. Για κάθε οικογένεια υπάρχει λεπτομερής ανάλυση για τη δομή και τη λειτουργία των πρωτεϊνών αυτών.

Γ. Βάσεις δεδομένων δομικής βιολογίας.

Protein Data Bank: H Protein Data Bank⁶ (PDB - www.rcsb.org ) αποτελεί τη μοναδική βάση παγκοσμίως όπου είναι κατατεθειμένες οι τρισδιάστατες δομές βιολογικών μακρομορίων. Ιδρύθηκε το 1971 στα Brookhaven National Laboratories (BNL) των ΗΠΑ και περιελάμβανε 7 δομές μακρομορίων όπως αυτές προέκυψαν από κρυσταλλογραφικές μελέτες. Ο ρυθμός αύξησης των εγγραφών στη δεκαετία του '70 ήταν πολύ μικρός. Από το 1980 και μετά λόγω της τεχνολογικής εξέλιξης σε κάθε στάδιο του προσδιορισμού δομών ο ρυθμός προσθήκης δεδομένων στην PDB αυξήθηκε δραματικά. Πλέον στην βάση περιλαμβάνονται και δομές όπως προκύπτουν με φασματοσκοπία Πυρηνικού Μαγνητικού Συντονισμού (NMR). Στην παρούσα φάση (Μάρτιος 2002) η PDB περιλαμβάνει 17493 δομές βιομορίων. Οι εγγραφές στην PDB εκτός από τις συντεταγμένες των ατόμων που απαρτίζουν τη δομή περιλαμβάνουν και επιπρόσθετα βοηθητικά στοιχεία όπως βιβλιογραφικές αναφορές, λεπτομέρειες για τον προσδιορισμό της δομής καθώς και άλλα στοιχεία που προκύπτουν από τη συγκεκριμένη δομή. Κάθε δομή προτού διατεθεί στο κοινό υφίσταται έλεγχο για την ορθότητα της με τη χρήση ειδικού λογισμικού. Στη συνέχεια εφόσον περάσει τις δοκιμές με επιτυχία αποκτά ένα χαρακτηριστικό κωδικό και προστίθεται στη βάση.

CATH: Η CATH⁷ ( http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html ) είναι μια βάση ιεραρχικής ταξινόμησης των πρωτεϊνικών δομών που είναι κατατεθειμένες στην PDB με βάση τις αυτοτελείς δομικές περιοχές (domains) που τις απαρτίζουν. Για τον καταρτισμό της CATH δεν λαμβάνονται υπόψιν μη πρωτεϊνικές δομές ενώ οι πρωτεϊνικές δομές που περιέχονται πρέπει να είναι προσδιορισμένες σε διακριτικότητα υψηλότερη των 3 Angstroms. Η CATH χρησιμοποιεί κυρίως αυτοματοποιημένες μεθόδους για την ταξινόμηση. Σε ειδικές περιπτώσεις όμως τα ανθρώπινα κριτήρια είναι δυνατόν να δώσουν καλύτερα αποτελέσματα από τις αυτοματοποιημένες μεθόδους όποτε και προτιμούνται.

Τα 4 κύρια επίπεδα της ιεραρχίας είναι η Τάξη (Class), η Αρχιτεκτονική (Architecture), η Τοπολογία (Οικογένεια διπλώματος) (Topology (fold family)) και η Ομόλογη Οικογένεια (Homologous superfamily).

Οι πρωτεΐνες που αποτελούνται από περισσότερα του ενός domains αναλύονται στα επιμέρους στοιχεία αυτόματα με βάση ειδικούς αλγόριθμους αναγνώρισης domains. Με την αυτόματη διαδικασία κατατάσσονται το 53% των δομών. Οι υπόλοιπες διαχωρίζονται στα επιμέρους domains με παρατηρήσεις που προκύπτουν είτε από τους αλγόριθμους αυτόματου διαχωρισμού είτε από τη βιβλιογραφία. Η ταξινόμηση πραγματοποιείται μόνο στις αυτοτελείς δομικές περιοχές.

Ιεραρχία στην CATH

C - Τάξη (Class): Η κατάταξη σε τάξεις πραγματοποιείται λαμβάνοντας υπόψιν τα στοιχεία δευτεροταγούς δομής μιας αυτοτελούς δομικής περιοχής. Αυτό γίνεται αυτόματα για το 90% των πρωτεϊνών ενώ για τις υπόλοιπες χρησιμοποιούνται κυρίως δεδομένα από τη βιβλιογραφία. Με βάση την κατάταξη προκύπτουν 4 μεγάλες ομάδες: mainly-alpha (Τα στοιχεία δευτεροταγούς τους δομής είναι στην συντριπτική τους πλειοψηφία α-έλικες), mainly-beta (κυρίως β-εκτεταμένες δομές) και alpha-beta (εναλλασσόμενες α/β και α+β δομές) και δομές με χαμηλό ποσοστό δευτεροταγών δομών.

A - Αρχιτεκτονική (Architecture): Η ταξινόμηση πραγματοποιείται με βάση την γενικότερη δομή της αυτοτελούς δομικής περιοχής (domain), με βάση τον προσανατολισμό των στοιχείων δευτεροταγούς δομής μη λαμβάνοντας υπόψιν όμως τον τρόπο διασύνδεσης μεταξύ τους π.χ. βαρέλια (barrels).

Τ - Τοπολογία (Topology): Σε αυτό το επίπεδο οι δομές ταξινομούνται με βάση τον προσανατολισμό των στοιχείων δευτεροταγούς δομής αλλά και με βάση την σύνδεση αυτών των στοιχείων μεταξύ τους.

Η - Ομόλογη οικογένεια (Homology superfamily): Ομαδοποίηση των δομικών στοιχείων που εμφανίζουν 35% ομοιότητα μεταξύ τους στο επίπεδο της αλληλουχίας τους με αποτέλεσμα να θεωρείται ότι προέρχονται από ένα κοινό πρόγονο.

S - Αλληλουχία (Sequence family): Τα μέλη της εμφανίζουν ομοιότητα στο επίπεδο της ακολουθίας πάνω από 35% με αποτέλεσμα να θεωρείται ότι έχουν παρόμοια δομή και λειτουργία.

SCOP: Η βάση SCOP⁸ ( http://scop.mrc-lmb.cam.ac.uk/scop/index.html ) έχει σαν βασικό στόχο την ανάλυση των δομικών και εξελικτικών σχέσεων μεταξύ όλων των πρωτεϊνών γνωστής δομής κατατεθειμένων στην Protein Data Bank (PDB). Για την αναγνώριση των παραπάνω σχέσεων και την ταξινόμηση με βάση τις σχέσεις αυτές, των πρωτεϊνών η διαδικασία δεν είναι αυτοματοποιημένη αλλά πραγματοποιείται αποκλειστικά με βάση τον ανθρώπινο παράγοντα μετά από λεπτομερή μελέτη και σύγκριση των πρωτεϊνικών δομών. Αυτοματοποιημένες μέθοδοι χρησιμοποιούνται μόνο για την ομοιογένεια των δεδομένων που περιέχονται στη βάση.

Η ταξινόμηση των πρωτεϊνών όπως αναφέρθηκε παραπάνω γίνεται με βάση δομικές και εξελικτικές σχέσεις. Τα βασικά επίπεδα ταξινόμησης είναι η οικογένεια (Family), υπερ-οικογένεια (Superfamily), το δίπλωμα (Fold) και η τάξη (Class).

Οικογένεια (Family): Ξεκάθαρη εξελιγκτική σχέση μεταξύ των μελών.

Οι πρωτεΐνες που ταξινομούνται σε μια οικογένεια έχουν ξεκάθαρη εξελικτική σχέση μεταξύ τους. Η ομοιότητα σε επίπεδο ακολουθίας είναι της τάξης του 30% και άνω. Υπάρχουν όμως περιπτώσεις όπου οι δομές και η λειτουργία είναι παρόμοιες υποδηλώνοντας κοινό πρόγονο ενώ η ομοιότητα σε επίπεδο ακολουθίας να είναι μικρότερη του 30% (σφαιρίνες, 15%).

Υπερ-οικογένεια (Superfamily): Τα μέλη της έχουν πιθανά προέλθει από κοινό πρόγονο.

Στο επίπεδο της υπερ-οικογένειας κατατάσσονται πρωτεΐνες που εμφανίζουν πολύ μικρή ομοιότητα στο επίπεδο της ακολουθίας αλλά τα δομικά τους χαρακτηριστικά και η λειτουργία τους υποδηλώνουν πιθανή κοινή προέλευση.

Δίπλωμα (Fold): Εμφάνιση ομοιότητας σε επίπεδο δομής.

Οι πρωτεΐνες που εμφανίζουν το ίδιο δίπλωμα έχουν τα ίδια σε μεγάλο βαθμό χαρακτηριστικά δευτεροταγούς δομής, με κοινό προσανατολισμό και τις ίδιες τοπολογικές συνδέσεις μεταξύ τους. Πρωτεΐνες που έχουν το ίδιο δίπλωμα αλλά δεν είναι όμοιες από άποψη αμινοξικής ακολουθίας έχουν ορισμένα περιφερειακά στοιχεία της δευτεροταγούς τους δομής και στροφές ανόμοια και όσον αφορά στο μέγεθος και όσον αφορά στη διαμόρφωση. Πρωτεΐνες που εμφανίζουν κοινό δίπλωμα δεν είναι απαραίτητο να έχουν κοινή εξελικτική προέλευση.

Τάξη (Class): Τέσσερις κύριες δομικές κατηγορίες πρωτεϊνών έχουν ταυτοποιηθεί με βάση το δίπλωμα των στοιχείων δευτεροταγούς δομής τους, τις αll-α (η δομή σχηματίζεται από α-έλικες), all-β (η δομή αποτελείται από β-πτυχωτές επιφάνειες), α/β (α-έλικες και β-πτυχωτές επιφάνειες εναλλάσσονται στην δομή της πρωτεΐνης) και α+β (α-έλικες και β-πτυχωτές επιφάνειες βρίσκονται σε διακριτές περιοχές της δομής).

Δ. Ολοκληρωμένα συστήματα ανάκτησης πληροφοριών από βάσεις δεδομένων.

Το SRS είναι ένα ισχυρό, εύχρηστο σύστημα διαχείρισης δεδομένων το οποίο διατίθεται από την εταιρία LION Bioscience. Το SRS μέσω ενός φιλικού προς το χρήστη γραφικού περιβάλλοντος δίνει την δυνατότητα αναζήτησης και ανάκτησης δεδομένων από περισσότερες από 400 βάσεις δεδομένων οι οποίες μπορεί να είναι αποθηκευμένες στον ίδιο κεντρικό υπολογιστή. Το μεγάλο του πλεονέκτημα είναι ότι μπορείς να κάνεις ταυτόχρονη αναζήτηση για ένα ζήτημα άμεσου ενδιαφέροντος σε παραπάνω από μια βάσεις δεδομένων που δεν περιέχουν ανάλογου είδους πληροφορία και η μορφοποίηση των δεδομένων σε καθεμιά να είναι διαφορετική. Ένα άλλο μεγάλης σημασίας πλεονέκτημα είναι η ταχύτητα με την οποία εκτελούνται οι αναζητήσεις παρά το γεγονός ότι διαχειρίζεται πραγματικά τεράστιο όγκο πληροφορίας λόγω του μεγάλου αριθμού βάσεων που μπορεί να διαχειρίζεται ταυτόχρονα. Τέλος δίνεται η δυνατότητα στον κάτοχο του συστήματος να ενσωματώνει σε αυτό και βάσεις που έχει δημιουργήσει ο ίδιος ή προγράμματα για κάθε είδος υπολογιστική ανάλυση χωρίς να επηρεάζεται η απόδοση του συστήματος.

Το Entrez αποτελεί ένα σύστημα διαχείρισης για την αναζήτηση και ανάκτηση πληροφοριών ανάλογο του SRS όλων των βάσεων δεδομένων που περιέχονται στο NCBI (National Center for Biotechnology Information) των ΗΠΑ. Το Entrez δίνει τη δυνατότητα αναζήτησης σε βάσεις δεδομένων νουκλεοτιδικών και πρωτεϊνικών ακολουθιών, δομές βιομορίων, γονιδιωμάτων και στη βάση για την αναζήτηση βιβλιογραφίας MEDLINE μέσω του ίδιου γραφικού περιβάλλοντος επιτρέποντας και πιο πολύπλοκες αναζητήσεις ανάμεσα στα στοιχεία τους. Βέβαια το γεγονός ότι περιορίζεται μόνο στις βάσεις δεδομένων του NCBI και ότι δεν επιτρέπει πολύπλοκες αναζητήσεις το καθιστούν υποδεέστερο έναντι του SRS.

Παρακάτω παρατίθεται ένα σχεδιάγραμμα των αλληλεπιδράσεων μεταξύ των βάσεων που διαχειρίζεται το σύστημα Entrez.

ΑΝΑΦΟΡΕΣ

1. D. A. Benson et al., Nucl. Acids Res., (2000), 28:15-18.

2. G. Stoesser et al., Nucl. Acids Res., (2002), 30:21-26.

3. A. Bairoch, R. Apweiler, Nucleic Acids Res., (2000), 28:45-48.

4. C. H. Wu et .al., Nucleic Acids Res., (2002), 30:35-37

5. K. Hofmann et al., Nucleic Acids Res., (1999), 27:215-219.

6. H. M. Berman et al., Nucl. Acids Res., (2000), 28:235-242.

7. F. Pearl et al., Nucl. Acids Res., (2001), 29:223-227.

8. A. G. Murzin et al., J. Mol. Biol., (1995), 247:536-540.

ΠΡΑΚΤΙΚΟ ΜΕΡΟΣ

Α. Καταρχήν θα μελετήσετε μια εγγραφή στην βάση δεδομένων νουκλεοτιδικών ακολουθιών GENBANK.

Τα βήματα που ακολουθούμε είναι τα εξής:

1. Αρχικά, στο φυλλομετρητή ιστού που διαθέτουμε (Internet Explorer, Netscape, κλπ) πληκτρολογούμε τη διεύθυνση:

http://www.ncbi.nlm.nih.gov/Genbank/index.html

2. Στη συνέχεια πληκτρολογήστε στο κενό πεδίο του προγράμματος SEARCH GENBANK τη φράση κλειδί dihydrofolate reductase. Πρόκειται για το ένζυμο Διϋδροφολική Αναγωγάση (DHFR) που συμμετέχει στο βιοχημικό μονοπάτι σύνθεσης της Θυμίνης. Ακολούθως πατήστε το κουμπί Go.

3. Στη σελίδα των αποτελεσμάτων επιλέξτε μια από τις εγγραφές και προσπαθήστε με τη βοήθεια του ΠΑΡΑΡΤΗΜΑΤΟΣ να αναγνωρίσετε τα πεδία της εγγραφής.

Β. Στη συνέχεια της άσκησης θα έχουμε πρόσβαση στις βάσεις δεδομένων SWISS-PROT και PIR, από τις οποίες θα έχουμε την ευκαιρία να αντλήσουμε κάποιες πρωτεϊνικές ακολουθίες και να μελετήσουμε την οργάνωση συγκεκριμένων εγγραφών.

1. Στο φυλλομετρητή ιστού πληκτρολογούμε τη διεύθυνση:

http://www.sanger.ac.uk/srs6bin/cgi-bin/wgetz?-page+top+-newId

που μας οδηγεί στο SRS του Sanger Institute ενός ερευνητικού κέντρου που ασχολείται με την ανάλυση γονιδιωμάτων και χρηματοδοτείται από την εταιρία Wellcome Trust και την Βρετανική Κυβέρνηση. Αφού ξεκινήσουμε την εφαρμογή πατώντας το κουμπί START εμφανίζεται στην οθόνη μας ένας κατάλογος επιλογής των βάσεων δεδομένων με τις οποίες επιθυμούμε να εργαστούμε.

* Η πρώτη εργασία που έχετε να κάνετε είναι να διαπιστώσετε σε τι είδους βάσεις δεδομένων μας δίνει τη δυνατότητα το SRS να κάνουμε αναζήτηση δεδομένων. Πρέπει να σημειώσουμε ότι κάθε φορέας που διαθέτει το σύστημα SRS μπορεί να παρέχει πρόσβαση σε διαφορετικές βάσεις σε σχέση με τους υπόλοιπους φορείς.

2. Επιλέγουμε τη SwissProt (πατώντας στο αντίστοιχο κουτάκι) που περιέχει πρωτεϊνικές ακολουθίες και χρήσιμα σχόλια, και συνεχίζουμε (panel Query Forms, κουμπί 'Standard').

3. Τώρα μπορούμε να πραγματοποιήσουμε την αναζήτησή μας, τροφοδοτώντας τις περιοχές κειμένου που μας παρέχονται με τα στοιχεία των πρωτεϊνών που μας ενδιαφέρουν.

Συγκεκριμένα, κάθε ομάδα θα πραγματοποιήσει αναζήτηση με λέξη κλειδί DIHYDROFOLATE σε όλο το κείμενο (All Text) των καταχωρήσεων της SwissProt. Για να χωρέσουν τα αποτελέσματα της αναζήτησής σας σε μια σελίδα επιλέξτε να έχετε προβολή ανά 200 καταχωρήσεις (Number of entries to display per page: 200).

4. Πατώντας Submit Query αρχίζει η αναζήτηση.

5. Τα αποτελέσματα της αναζήτησης στην SWISS-PROT εμφανίζονται υπό μορφή πίνακα 4 στηλών της μορφής:

Επιλέγοντας ένα σύνδεσμο από την αριστερή στήλη οδηγείστε στα περιεχόμενα της εγγραφής της SWISS-PROT.

Κάθε ομάδα θα επιλέξει μια από τις εγγραφές και θα προσπαθήσει να αναγνωρίσει τα πεδία μιας εγγραφής SWISS-PROT με τη βοήθεια του ΠΑΡΑΡΤΗΜΑΤΟΣ.

**Επαναλαμβάνοντας την ίδια ακριβώς διαδικασία δοκιμάστε να μελετήσετε εγγραφές της βάσης PIR-PSD για την ίδια πρωτεΐνη (Διϋδροφολική Αναγωγάση) επιλέγοντας αυτή την φορά αναζήτηση με την ίδια λέξη κλειδί στην PIR αντί της SWISS-PROT.

Γ. Για την αναζήτηση patterns σε πρωτεϊνικές ακολουθίες θα χρησιμοποιήσουμε την βάση PROSITE. Για την αναζήτηση στην PROSITE θα χρησιμοποιήσουμε πάλι το σύστημα SRS. Τα βήματα που ακολουθούμε είναι:

1. Οδηγούμαστε στην κεντρική σελίδα του SRS ακολουθώντας την ίδια διαδικασία όπως στις αναζητήσεις μας στην PIR και την SWISS-PROT.

2. Επιλέγουμε την PROSITE από την ενότητα SeqRelated και συνεχίζουμε (panel Query Forms, κουμπί 'Standard').

3. Τώρα μπορούμε να πραγματοποιήσουμε την αναζήτησή μας, τροφοδοτώντας τις περιοχές κειμένου που μας παρέχονται με τα στοιχεία των πρωτεϊνών που μας ενδιαφέρουν. Συγκεκριμένα, κάθε ομάδα θα πραγματοποιήσει αναζήτηση με λέξη κλειδί DHFR σε όλο το κείμενο (All Text) των καταχωρήσεων της PROSITE. Για να χωρέσουν τα αποτελέσματα της αναζήτησής σας σε μια σελίδα επιλέξτε να έχετε προβολή ανά 200 καταχωρήσεις (Number of entries to display per page: 200).

4. Πατώντας Submit Query αρχίζει η αναζήτηση.

5. Επιλέξτε το αποτέλεσμα της αναζήτησης και προσπαθήσετε να αναγνωρίσετε όλα τα πεδία της εγγραφής καθώς και να ερμηνεύσετε το pattern που λαμβάνει χώρα σε αυτή την οικογένεια των πρωτεϊνικών ακολουθιών.

Δ. Τέλος θα έχουμε πρόσβαση στη Βάση Δεδομένων Πρωτεϊνικών Δομών (PDB) και θα μελέτησουμε πως ταξινομούνται πρωτεϊνικές δομές στην CATH και την SCOP. Η πρόσβασή μας στις καταχωρήσεις της είναι δυνατή με τη βοήθεια του προγράμματος SRS, όμως θα έχουμε απευθείας πρόσβαση μέσω του link που βρίσκεται στην Αρχική Σελίδα του εργαστηρίου Βιοφυσικής και Βιοπληροφορικής του Τομέα Βιολογίας ( ενότητα 'Tertiary Structure Analysis', υποενότητα 'Databanks').

Επιλέγουμε το link που μας οδηγεί στην Αρχική Σελίδα της PDB.

Αρχίζουμε την αναζήτησή μας με το πρόγραμμα Search επίλέγοντας το σύνδεσμο SearchFields.

Στο πεδίο Compound Information πληκτρολογήστε DIHYDROFOLATE.

Στο Result Display Options επιλέγουμε All προκειμένου στην σελίδα εμφάνισης των αποτελεσμάτων να εμφανιστούν όλες οι εγγραφές.

Πατάμε το κουμπί SEARCH προκειμένου να ξεκινήσει η αναζήτηση.

Τα αποτελέσματα της αναζήτησης εμφανίζονται στο φυλλομετρητή μας δίνοντας μας όμως ελάχιστα στοιχεία για κάθε εγγραφή. Προκειμένου να δούμε λεπτομέρειες μιας εγγραφής επιλέξτε το EXPLORE σε κάποια από αυτές της λίστας.

Στη συνέχεια από το Menu DownLoad/Display File θα επιλέξετε να έχετε πρόσβαση στα πλήρη δεδομένα με τις ατομικές συντεταγμένες (complete with coordinates σε PDB format και μορφή απλού ASCII κειμένου).

Προσπαθήστε να αναγνωρίσετε τις βασικές εγγραφές της καταχώρησης με τη βοήθεια του ΠΑΡΑΡΤΗΜΑΤΟΣ.

Επιλέξτε στην συνέχεια το σύνδεσμο (link) Structural Neighbors.

Η σελίδα που εμφανίζεται εμφανίζει διασυνδέσεις για τις βάσεις CATH και SCOP.

Επιλέξτε κάθε μια από αυτές προκειμένου να διαπιστώσετε πως είναι ταξινομημένη η εγγραφή που μελετήσατε στις βάσεις CATH και SCOP.

ΠΑΡΑΡΤΗΜΑ (Παραδείγματα από τις βάσεις δεδομένων)

1. Εγγραφή της GENBANK για το γονίδιο της Διϋδροφολικής Αναγωγάσης (DHFR) από τον οργανισμό Lactobacillus casei.

LOCUS       LBADHFR             1145 bp    DNA     linear   BCT 26-APR-1993
DEFINITION  Lactobacillus casei dihydrofolate reductase gene (DHFR), complete cds.
ACCESSION   M10922
VERSION     M10922.1  GI:149539
KEYWORDS    dihydrofolate reductase; methotrexate-resistant.
SOURCE      L.casei (methotrexate-resistant (MTX-R) strain) DNA, clone pWDLcB1.
  ORGANISM  Lactobacillus casei
            Bacteria; Firmicutes; Bacillus/Clostridium group; Lactobacillales;
            Lactobacillaceae; Lactobacillus.
REFERENCE   1  (bases 1 to 1145)
  AUTHORS   Andrews,J., Clore,G.M., Davies,R.W., Gronenborn,A.M.,
            Gronenborn,B., Kalderon,D., Papadopoulos,P.C., Schaefer,S.,
            Sims,P.F.G. and Stancombe,R.
  TITLE     Nucleotide sequence of the dihydrofolate reductase gene of
            methotrexate-resistant Lactobacillus casei
  JOURNAL   Gene 35, 217-222 (1985)
  MEDLINE   85286353
COMMENT     A -35 and a -10 region are located at positions 134-139  and
            158-163 respectively.  An RBS is found at 306-312.
FEATURES             Location/Qualifiers
     source          1..1145
                     /organism="Lactobacillus casei"
                     /db_xref="taxon:1582"
     mRNA            174..866
                     /note="DHFR mRNA (5' and 3' ends +/- 2 bp)"
     CDS             321..812
                     /note="dihydrofolate reductase"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="AAA25237.1"
                     /db_xref="GI:149540"
                     /translation="MTAFLWAQDRDGLIGKDGHLPWHLPDDLHYFRAQTVGKIMVVGR
                     RTYESFPKRPLPERTNVVLTHQEDYQAQGAVVVHDVAAVFAYAKQHPDQELVIAGGAQ
                     IFTAFKDDVDTLLVTRLAGSFEGDTKMIPLNWDDFTKVSSRTVEDTNPALTHTYEVWQ
                     KKA"
BASE COUNT      320 a    243 c    290 g    292 t
ORIGIN      1 bp upstream of EcoRI site.
        1 gaattcattc atacattcgg cgatgcgcat ctttacgtca atcatcttga ccaaattaaa
       61 gagcagctca gtcgcacgcc gcggccggca ccgactttac agttgaatcc ggataaacat
      121 gatattttcg actttgacat gaaggatatt aagttgctta attacgatcc ttatccggcc
      181 attaaggcac cggttgccgt ttaatcgcta gaagacggca agtcataaca agtgtctgat
      241 tgctttgtca ggtttaccaa tgacacaaaa ggcgccattt tgttcggctt tggattgcat
      301 actcaaagga ggggtctcga atgaccgcat ttttatgggc acaggatcgc gatggcttaa
      361 ttggcaaaga tggtcatttg ccatggcatt taccggatga tttacattat ttccgggcgc
      421 agacagttgg taagatcatg gtcgttggtc ggcgcaccta tgaaagtttt cctaaacgtc
      481 ctttacctga gcgaaccaat gttgttttga cccatcagga agactatcaa gcgcaaggtg
      541 ccgtggtcgt gcatgatgtt gcggcggttt ttgcttatgc taagcagcat cccgatcagg
      601 aactggtcat tgctggcggt gcacagatct ttacggcttt taaagatgat gtcgatacgt
      661 tactggtaac acgtttggct ggcagttttg aaggcgatac gaaaatgatt ccattaaact
      721 gggatgattt taccaaagtc tccagccgca ccgttgaaga taccaatccg gcgctgacgc
      781 acacttatga ggtttggcaa aagaaggctt aagcagaagc cgatgaccgg aattggtggt
      841 tgccagctgg tgcgggtgtg agtttagacg catatttgcg tgcatttaaa aaatcgtctc
      901 tcgtattatc tggcaaaaca aaaaccgcag tccgctgcat caaaaacaaa ctcagccgcg
      961 ggcaagccaa aagcaccggc aaaaaaacgg cgccaaaaca gaagtcaaag ttgacatatg
     1021 ctgagcagat agagtatgat aagctccaac aagaacttga tgaattagac gagcagttgg
     1081 ccaaggttaa agcagaaatg gcgcaggtca atggtgagga ttacgtgaag ctgggcgatc
     1141 tgcag
//

Επεξηγήσεις των σημαντικότερων πεδίων μιας εγγραφής στην GENBANK

LOCUS: Περιέχει ένα μικρό όνομα για τον χαρακτηρισμό της εγγραφής.

DEFINITION: Μια λεπτομερής περιγραφή της ακολουθίας.

ACCESSION: Κωδικός που αποκτά μια νεοεισερχόμενη εγγραφή χαρακτηριστικός για την GENBANK. O κωδικός παραμένει σταθερός

VERSION: Ειδικός κωδικός που απαρτίζεται από το πρωταρχικό Accession Number, ακολουθεί το σύμβολο της τελείας και στη συνέχεια ένας αριθμός που δηλώνει την έκδοση της παρούσας εγγραφής.

KEYWORDS: Χαρακτηριστικές λέξεις-κλειδιά που σχετίζονται με την νουκλεοτιδική αλληλουχία και τις ιδιότητες των προϊόντων της.

SOURCE: Βιολογική πηγή της ακολουθίας όπου αναφέρεται ο οργανισμός από των οποίο έχει απομονωθεί με τα ιδιαίτερα χαρακτηριστικά του (πιθανές μεταλλάξεις, πλασμίδια κ.α.).

ORGANISM: Οργανισμός απ' όπου προήλθε η ακολουθία. Ακολουθείται η διώνυμη ονομασία κατά Λινναίο. Επίσης παρατίθεται και η συστηματική ταξινόμηση του οργανισμού.

- Τα παρακάτω πεδία σχετίζονται με την δημοσιευμένη εργασία στην οποία αναφέρεται ο προσδιορισμός της παρούσας ακολουθίας.

REFERENCE: Περιέχει τον αριθμό της αναφοράς καθώς και το μήκος της ακολουθίας που έχει προσδιοριστεί στην παρούσα εργασία.

AUTHORS: Αναφέρονται οι συμμετέχοντες στην διεξαγωγή της παρούσας εργασίας.

TITLE: Τίτλος της δημοσιευμένης εργασίας.

JOURNAL: Περιέχει λεπτομέρειακα στοιχεία για την αναζήτηση της αναφοράς όπως είναι ο τίτλος του περιοδικού που εκδόθηκε, τεύχος, ημερομηνία έκδοσης και σελίδες που καταλαμβάνει στο συγκεκριμένο τεύχος.

MEDLINE: Κωδικός για την βιβλιογραφική αναφορά στην βάση δεδομένων MEDLINE.

COMMENT: Περιέχει κάποιες γενικές παρατηρήσεις, ή αναφορές και σε άλλες βάσεις.

FEATURES: Πίνακας που περιέχει πληροφορίες σχετικά με τα προϊόντα της ακολουθίας όπως πολυπεπτιδικές αλυσίδες (από μετάφραση) και RNA (από μεταγραφή) και στοιχεία από πειραματικά δεδομένα που καταδεικνύουν τη βιολογική της σημασία.

BASE COUNT: Αριθμητική ανάλυση της ακολουθίας στα επιμέρους συστατικά της. Περιέχει το σύνολο καταλοίπων Αδενίνης, Γουανίνης, Κυτοσίνης, Θυμίνης.

ORIGIN: Θέση της πρώτης βάσης της κατατεθειμένης ακολουθίας σε σχέση με το γονιδίωμα από το οποίο έχει απομονωθεί.

Ακριβώς από κάτω παρατίθεται η ακολουθία της παρούσας εγγραφής.

Η αναπαράσταση της ακολουθίας είναι της μορφής:

        1 gatctggtgg ccatggcggg agcaaatcag ccgatcccat cccgaactcg gccgtcaaat
       61 gccccagcgc ccatgatact ctgcctcaag gcacggaaaa gtcggtcgcc gccaga
//
---------+---------+---------+---------+---------+---------+---------+---------
1       10        20        30        40        50        60        70       79

- Τα νουκλεοτίδια απεικονίζονται με τον κώδικα ενός γράμματος ανάλογα με την αζωτούχο βάση την οποία αποτελούνται.

- Κάθε ακολουθία αποτελείται από 60 αμινοξικά κατάλοιπα ανά γραμμή, σε ομάδες των δέκα αμινοξικών καταλοίπων, ξεκινώντας πάντα από την θέση 11 της γραμμής. Οι ομάδες των 10 καταλοίπων χωρίζονται μεταξύ τους με κενό διάστημα.

- Από τη θέση 9 της γραμμής και προς τα αριστερά υπάρχει ένας αριθμός που δείχνει την αρίθμηση του πρώτου καταλοίπου κάθε γραμμής.

//: Λήξη της εγγραφής.

2. Εγγραφή της SWISS-PROT για την πρωτεϊνική ακολουθία της Διϋδροφολικής Αναγωγάσης (DHFR) από τον οργανισμό Lactobacillus casei.

ID   DYR_LACCA      STANDARD;      PRT;   162 AA.
AC   P00381;
DT   21-JUL-1986 (Rel. 01, Created)
DT   30-MAY-2000 (Rel. 39, Last sequence update)
DT   16-OCT-2001 (Rel. 40, Last annotation update)
DE   Dihydrofolate reductase (EC 1.5.1.3).
GN   FOLA OR DHFR.
OS   Lactobacillus casei.
OC   Bacteria; Firmicutes; Bacillus/Clostridium group; Lactobacillaceae; 
OC   Lactobacillus. 
OX   NCBI_TaxID=1582;
RN   [1]
RP   SEQUENCE FROM N.A.
RX   MEDLINE=85286353; PubMed=3928445; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Andrews J., Clore G.M., Davies R.W., Gronenborn A.M., Gronenborn B.,
RA   Kalderon D., Papadopoulos P.C., Schaefer S., Sims P.F.G.,
RA   Stancombe R.;
RT   "Nucleotide sequence of the dihydrofolate reductase gene of
RT   methotrexate-resistant Lactobacillus casei.";
RL   Gene 35:217-222(1985).
RN   [2]
RP   SEQUENCE.
RX   MEDLINE=78242349; PubMed=98527; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Freisheim J.H., Bitar K.G., Reddy A.V., Blankenship D.T.;
RT   "Dihydrofolate reductase from amethopterin-resistant Lactobacillus
RT   casei. Sequences of the cyanogen bromide peptides and complete
RT   sequences of the enzyme.";
RL   J. Biol. Chem. 253:6437-6444(1978).
RN   [3]
RP   SEQUENCE OF 1-51.
RX   MEDLINE=77181453; PubMed=405008; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Batley K.E., Morris H.R.;
RT   "Dihydrofolate reductase from Lactobacillus casei: N-terminal
RT   sequence and comparison with the substrate binding region of other
RT   reductases.";
RL   Biochem. Biophys. Res. Commun. 75:1010-1014(1977).
RN   [4]
RP   X-RAY CRYSTALLOGRAPHY (1.7 ANGSTROMS).
RX   MEDLINE=83056868; PubMed=6815179; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Filman D.J., Bolin J.T., Matthews D.A., Kraut J.;
RT   "Crystal structures of Escherichia coli and Lactobacillus casei
RT   dihydrofolate reductase refined at 1.7-A resolution. II. Environment
RT   of bound NADPH and implications for catalysis.";
RL   J. Biol. Chem. 257:13663-13672(1982).
RN   [5]
RP   STRUCTURE BY NMR.
RX   MEDLINE=91283478; PubMed=1905571; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Carr M.D., Birdsall B., Frenkiel T.A., Bauer C.J., Jimenez-Barbero J.,
RA   Polshakov V.I., McCormick J.E., Roberts G.C.K., Feeney J.;
RT   "Dihydrofolate reductase: sequential resonance assignments using 2D
RT   and 3D NMR and secondary structure determination in solution.";
RL   Biochemistry 30:6330-6341(1991).
RN   [6]
RP   STRUCTURE BY NMR.
RX   MEDLINE=96018856; PubMed=7547901; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Morgan W.D., Birdsall B., Polshakov V.I., Sali D., Kompis I.,
RA   Feeney J.;
RT   "Solution structure of a brodimoprim analogue in its complex with
RT   Lactobacillus casei dihydrofolate reductase.";
RL   Biochemistry 34:11690-11702(1995).
RN   [7]
RP   STRUCTURE BY NMR.
RX   MEDLINE=98181015; PubMed=9514736; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Gargaro A.R., Soteriou A., Frenkiel T.A., Bauer C.J., Birdsall B.,
RA   Polshakov V.I., Barsukov I.L., Roberts G.C.K., Feeney J.;
RT   "The solution structure of the complex of Lactobacillus casei
RT   dihydrofolate reductase with methotrexate.";
RL   J. Mol. Biol. 277:119-134(1998).
RN   [8]
RP   STRUCTURE BY NMR.
RX   MEDLINE=99190070; PubMed=10091649; [NCBI, ExPASy, EBI, Israel, Japan]
RA   Polshakov V.I., Birdsall B., Frenkiel T.A., Gargaro A.R., Feeney J.;
RT   "Structure and dynamics in solution of the complex of Lactobacillus
RT   casei dihydrofolate reductase with the new lipophilic antifolate drug
RT   trimetrexate.";
RL   Protein Sci. 8:467-481(1999).
CC   -!- CATALYTIC ACTIVITY: 5,6,7,8-tetrahydrofolate + NADP(+) = 7,8-
CC       dihydrofolate + NADPH.
CC   -!- PATHWAY: ESSENTIAL STEP FOR DE NOVO GLYCINE AND PURINE SYNTHESIS,
CC       DNA PRECURSOR SYNTHESIS, AND FOR THE CONVERSION OF DUMP TO DTMP.
CC   -!- SUBUNIT: MONOMER.
CC   -!- MISCELLANEOUS: THIS BACTERIAL STRAIN IS RESISTANT TO THE FOLIC
CC       ACID ANALOG METHOTREXATE (AMETHOPTERIN).
CC   -!- SIMILARITY: BELONGS TO THE DIHYDROFOLATE REDUCTASE FAMILY.
CC   --------------------------------------------------------------------------
CC   This SWISS-PROT entry is copyright. It is produced through a collaboration
CC   between  the Swiss Institute of Bioinformatics  and the  EMBL outstation -
CC   the European Bioinformatics Institute.  There are no  restrictions on  its
CC   use  by  non-profit  institutions as long  as its content  is  in  no  way
CC   modified and this statement is not removed.  Usage  by  and for commercial
CC   entities requires a license agreement (See http://www.isb-sib.ch/announce/
CC   or send an email to license@isb-sib.ch).
CC   --------------------------------------------------------------------------
DR   EMBL; M10922; AAA25237.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
DR   PIR; A00394; RDLBD.
DR   PIR; A12987; A12987.
DR   PIR; A24036; A24036.
DR   PDB; 3DFR; 31-JAN-84. [ExPASy / RCSB]
DR   PDB; 1DIS; 14-NOV-95. [ExPASy / RCSB]
DR   PDB; 1DIU; 14-NOV-95. [ExPASy / RCSB]
DR   PDB; 1AO8; 25-FEB-98. [ExPASy / RCSB]
DR   PDB; 1BZF; 18-MAY-99. [ExPASy / RCSB]
DR   InterPro; IPR001796; DHFR.
DR   InterPro; Graphical view of domain structure.
DR   Pfam; PF00186; DiHfolate_red; 1.
DR   PRINTS; PR00070; DHFR.
DR   PROSITE; PS00075; DHFR; 1.
DR   ProDom [Domain structure / List of seq. sharing at least 1 domain]
DR   BLOCKS; P00381.
DR   DOMO; P00381.
DR   PROTOMAP; P00381.
DR   PRESAGE; P00381.
DR   DIP; P00381.
DR   ModBase; P00381.
DR   SWISS-2DPAGE; GET REGION ON 2D PAGE.
KW   Oxidoreductase; NADP; Methotrexate resistance; 3D-structure;
KW   One-carbon metabolism.
FT   INIT_MET      0      0
FT   ACT_SITE     21     21       CHEMICAL STUDIES SUGGEST THAT IT
FT                                               PARTICIPATES IN ENZYME FUNCTION.
FT   ACT_SITE     26     26       INVOLVED IN BINDING METHOTREXATE.
FT   ACT_SITE     31     31       INVOLVED IN BINDING METHOTREXATE.
FT   ACT_SITE     43     43       MAY BE INVOLVED IN BINDING THE COENZYME
FT                                               NADPH.
FT   ACT_SITE     57     57       INVOLVED IN BINDING METHOTREXATE.
FT   CONFLICT      8      8        D -> N (IN REF. 2).
FT   CONFLICT     90     90       P -> L (IN REF. 2).
FT   STRAND        2      7       
FT   TURN          9     10       
FT   STRAND       12     15       
FT   TURN         16     17       
FT   STRAND       18     18       
FT   HELIX        24     32       
FT   TURN         33     36       
FT   STRAND       38     42       
FT   HELIX        43     48       
FT   TURN         55     56       
FT   STRAND       58     62       
FT   TURN         66     67       
FT   TURN         71     72       
FT   STRAND       74     76       
FT   HELIX        79     88       
FT   STRAND       94     96       
FT   HELIX       100    105       
FT   TURN        106    106       
FT   HELIX       107    109       
FT   STRAND      112    118       
FT   STRAND      126    127       
FT   HELIX       133    135       
FT   STRAND      136    144       
FT   HELIX       149    151       
FT   STRAND      153    160       
SQ   SEQUENCE   162 AA;  18308 MW;  4484539182675921 CRC64;
     TAFLWAQDRD GLIGKDGHLP WHLPDDLHYF RAQTVGKIMV VGRRTYESFP KRPLPERTNV
     VLTHQEDYQA QGAVVVHDVA AVFAYAKQHP DQELVIAGGA QIFTAFKDDV DTLLVTRLAG
     SFEGDTKMIP LNWDDFTKVS SRTVEDTNPA LTHTYEVWQK KA
//

Επεξηγήσεις των σημαντικότερων πεδίων μιας εγγραφής SWISS-PROT

ID (Identification):

Είναι της μορφής Entry_name data_class; molecule_type; sequence length

Entry_name: Το όνομα της ακολουθίας χαρακτηριστικό για τη βάση SWISS-PROT.

π.χ. DYR_LACCA. Το πρώτο τμήμα υποδηλώνει το όνομα της αλληλουχίας όπως είναι κατατεθειμένο στην βάση. Μπορεί να έχει μήκος μέχρι 4 χαρακτήρες. Το δεύτερο καθορίζει το είδος από το οποίο προέρχεται η αλληλουχία. Μπορεί να έχει μήκος μέχρι 5 χαρακτήρες.

data_class: Δηλώνει αν η εγγραφή έχει σχολιαστεί ή όχι με βάση τα κριτήρια της βάσης SWISS-PROT.

molecule_type: Δηλώνει σε ποια ομάδα μακρομορίων ανήκει η ακολουθία. Για τις εγγραφές της SWISS-PROT είναι PRT (Protein).

sequence length: To μήκος της ακολουθίας σε αμινοξικά κατάλοιπα (ΑΑ).

AC (Accession number): Είναι ένας χαρακτηριστικός κωδικός που αποκτά μια πολυπεπτιδική αλυσίδα όταν κατατίθεται στην βάση. Χρησιμεύει στην αναγνώριση εγγραφών ανάμεσα στις διαφορετικές εκδόσεις της βάσης όπως αυτή ανανεώνεται ανά τακτά χρονικά διαστήματα.

DT (Date): Αναγραφή ημερομηνίας για τη δημιουργία της παρούσας εγγραφής, τελευταίας τροποποιήσης, προσθήκης σχολίων.

DE (Description): Γενική περιγραφή για την ακολουθία.

GN (Gene name): Γονίδιο από το οποίο με μετάφραση προέκυψε η αμινοξική ακολουθία.

OS (Organism Species): Οργανισμός απ' όπου προήλθε η ακολουθία. Ακολουθείται η διώνυμη ονομασία κατά Λινναίο.

OG (Organelle): Επεξηγεί αν το γονίδιο που κωδικοποιεί την συγκεκριμένη αλληλουχία εδράζεται σε μιτοχόνδρια, χλωροπλάστες ή πλασμίδιο.

OC (Organism Classification): Συστηματική ταξινόμηση του οργανισμού απ'όπου προήλθε η ακολουθία.

ΟΧ (Organism taxonomy cross-reference): Παραπομπή σε βάση δεδομένων συστηματικής ταξινόμησης των οργανισμών.

RN, RP, RC, RX, RA, RT, RL : Τα παρακάτω πεδία σχετίζονται με βιβλιογραφικές αναφορές σχετικές με την παρούσα εγγραφή.

RN (Reference number): Αύξων αριθμός αναφοράς σχετικής με την παρούσα εγγραφή.

RP (Reference Position): Περιέχει λίγες πληροφορίες σχετικές με το τι πραγματεύεται η συγκεκριμένη αναφορά.

RX (Reference cross-reference): Παραπομπές σε βιβλιογραφικές βάσεις δεδομένων π.χ. PUBMED.

RA (Reference author): Λίστα με τους συγγραφείς της παρούσας αναφοράς.

RT (Reference title): Τίτλος της παρούσας εργασίας όπως δημοσιεύτηκε σε επιστημονικά περιοδικά.

RL (Reference Location): Περιοδικό ή βιβλίο όπου δημοσιεύτηκε η παρούσα εργασία.

CC (Comments): Το πεδίο αυτό περιέχει μία σειρά από πληροφορίες πάσης φύσεως σχετικές με την ακολουθία. Χωρίζεται σε υπο-πεδία όπως:

CATALYTIC ACTIVITY: Περιγραφή της αντίδρασης που καταλύεται αν η ακολουθία είναι ένζυμο.

ALTERNATIVE PRODUCTS: Αναφέρεται αν υπάρχουν σχετικές με αυτή αλληλουχίες που έχουν προκύψει από εναλλακτικό μάτισμα.

FUNCTION: Σύντομη περιγραφή της λειτουργίας που συμμετέχει η ακολουθία.

SUBCELLULAR LOCATION: Θέση της ακολουθίας στο κύτταρο.

SUBUNIT: Το πεδίο εμφανίζεται στην περίπτωση που η ακολουθία συμμετέχει στην δημιουργία τεταρτοταγούς δομής μιας πρωτεΐνης.

Πρέπει να σημειωθεί πως τα παραπάνω είναι μερικά από τα υπο-πεδία που μπορεί να περιέχονται στο πεδίο CC (Comments).

DR (Database cross-reference): To πεδίο αυτό δίνει διασυνδέσεις σε άλλες βάσεις δεδομένων που σχετίζονται με την παρούσα εγγραφή όπως η PDB, η EMBL κ.α. με τους αντίστοιχους κωδικούς τους.

KW (Keyword): Το πεδίο αυτό περιέχει ειδικές λέξεις-κλειδιά για τον χαρακτηρισμό της αλληλουχίας όπως αυτές ταξινομούνται με βάση κριτήρια όπως η λειτουργία και η δομή τους.

FT (Feature Table): Το πεδίο αυτό περιέχει στοιχεία χαρακτηριστικά για την ακολουθία αυτή καθεαυτή και αφορά συγκεκριμένα τμήματά της. Περιλαμβάνει πληροφορίες για:

α. Μεταμεταφραστικές τροποποιήσεις

β. Ποια τμήματα της ακολουθίας είναι υπεύθυνα για την δέσμευση κάποιου μορίου (π.χ. Receptor-Ligand).

γ. Ποια τμήματα της ακολουθίας συμμετέχουν για το σχηματισμό του ενεργού κέντρου αν πρόκειται για ένζυμο.

δ. Στοιχεία για τη δευτεροταγή δομή της αλληλουχίας.

ε. Επίσης μπορεί στο πεδίο αυτό μπορεί και να σημειώνονται και διαφορές στην αλληλουχία εάν έχουν προκύψει και αναφέρονται σε άλλες βιβλιογραφικές αναφορές.

SQ (Sequence): Το πεδίο αυτό περιέχει το μήκος της ακολουθίας σε αμινοξέα (ΑΑ), το μοριακό βάρος (MW) σε Daltons.

Ακολουθεί η αναπαράσταση της ακολουθίας ακολουθώντας τους παρακάτω κανόνες:

- Κάθε αμινοξικό κατάλοιπο απεικονίζεται με τον κώδικα του ενός γράμματος κατά IUPAC.

- Κάθε ακολουθία αποτελείται από 60 αμινοξικά κατάλοιπα ανά γραμμή, σε ομάδες των δέκα αμινοξικών καταλοίπων, ξεκινώντας πάντα από την θέση 6 της γραμμής. Οι ομάδες των 10 καταλοίπων χωρίζονται μεταξύ τους με κενό διάστημα.

//: Τα σύμβολα αυτά υποδηλώνουν το τέλος της εγγραφής.

Π.χ.

SQ   SEQUENCE   162 AA;  18308 MW;  4484539182675921 CRC64;
     TAFLWAQDRD GLIGKDGHLP WHLPDDLHYF RAQTVGKIMV VGRRTYESFP KRPLPERTNV
     VLTHQEDYQA QGAVVVHDVA AVFAYAKQHP DQELVIAGGA QIFTAFKDDV DTLLVTRLAG
     SFEGDTKMIP LNWDDFTKVS SRTVEDTNPA LTHTYEVWQK KA
//

3. Εγγραφή της PIR-PSD για την πρωτεϊνική ακολουθία της Διϋδροφολικής Αναγωγάσης (DHFR) από τον οργανισμό Lactobacillus casei.

ENTRY           RDLBD  #type complete    iProClass View of RDLBD
TITLE           dihydrofolate reductase (EC 1.5.1.3) [validated] -
                Lactobacillus casei
ORGANISM        #formal_name Lactobacillus casei
   #cross-references taxon:1582
DATE            31-May-1979 #sequence_revision 17-Sep-1997 #text_change
                15-Sep-2000
ACCESSIONS      A24036; A00394; A12987
REFERENCE       A24036
   #authors     Andrews, J.; Clore, G.M.; Davies, R.W.; Gronenborn, A.M.;
                Gronenborn, B.; Kalderon, D.; Papadopoulos, P.C.; Schafer,
                S.; Sims, P.F.G.; Stancombe, R.
   #journal     Gene (1985) 35:217-222
   #title       Nucleotide sequence of the dihydrofolate reductase gene of
                methotrexate-resistant Lactobacillus casei.
   #cross-references MUID:85286353
   #accession   A24036
      ##molecule_type DNA
      ##residues 1-163 ##label AND
      ##cross-references GB:M10922; NID:g149539; PIDN:AAA25237.1;
                PID:g149540
      ##experimental_source clone pWDLcB1
      ##note sequence from a methotrexate-resistant strain
REFERENCE       A00394
   #authors     Freisheim, J.H.; Bitar, K.G.; Reddy, A.V.; Blankenship,
                D.T.
   #journal     J. Biol. Chem. (1978) 253:6437-6444
   #title       Dihydrofolate reductase from amethopterin-resistant
                Lactobacillus casei. Sequences of the cyanogen bromide
                peptides and complete sequence of the enzyme.
   #cross-references MUID:78242349
   #accession   A00394
      ##molecule_type protein
      ##residues 2-8,'N',10-90,'L',92-163 ##label FRE
      ##note sequence from a strain resistant to the folic acid analog
                methotrexate (amethopterin); it is not clear whether the
                differences reflect strain variations
REFERENCE       A12987
   #authors     Batley, K.E.; Morris, H.R.
   #journal     Biochem. Biophys. Res. Commun. (1977) 75:1010-1014
   #title       Dihydrofolate reductase from Lactobacillus casei:
                N-terminal sequence and comparison with the substrate
                binding region of other reductases.
   #cross-references MUID:77181453
   #accession   A12987
      ##molecule_type protein
      ##residues 2-52 ##label BAT
      ##note sequence from a methotrexate-resistant strain
REFERENCE       A50583
   #authors     Filman, D.J.; Matthews, D.A.; Bolin, J.T.; Kraut, J.
   #submission  submitted to the Brookhaven Protein Data Bank, June 1982
   #cross-references PDB:3DFR
   #contents    annotation; X-ray crystallography, 1.7 angstroms, 2-8,'N',
                10,'N',12-90,'L',92-163
   #note        dichloromethotrexate-resistant strain
   #note        strain methotrexate-resistant, expressed in Escherichia
                coli
REFERENCE       A65422
   #authors     Morgan, W.D.; Birdsall, B.; Polshakov, V.I.; Sali, D.;
                Kompis, I.; Feeney, J.
   #submission  submitted to the Brookhaven Protein Data Bank, August 1995
   #cross-references PDB:1DIS
   #contents    annotation; conformation by NMR, residues 2-163
REFERENCE       A58587
   #authors     Morgan, W.D.; Birdsall, B.; Polshakov, V.I.; Sali, D.;
                Kompis, I.; Feeney, J.
   #journal     Biochemistry (1995) 34:11690-11702
   #title       Solution structure of a brodimoprim analogue in its
                complex with Lactobacillus casei dihydrofolate reductase.
   #cross-references MUID:96018856
   #contents    annotation; conformation by (1)H-NMR
FUNCTION
   #description catalyzes the reduction of dihydrofolic acid to
                tetrahydrofolic acid with NADPH; oxidoreductase
   #pathway     tetrahydrofolate synthesis
CLASSIFICATION  SF000194
   #superfamily type I dihydrofolate reductase; type I dihydrofolate
                reductase homology
KEYWORDS        NADP; oxidoreductase
FEATURE
   2-163                 #product dihydrofolate reductase #status
                         experimental #label MAT\
   2-108                 #domain type I dihydrofolate reductase homology
                         #label DFR\
   27,31,58              #binding_site substrate (Asp, Phe, Arg) #status
                         predicted
SUMMARY         #length 163 #molecular_weight 18439

SEQUENCE
              5        10        15        20        25        30
    1 M T A F L W A Q D R D G L I G K D G H L P W H L P D D L H Y
   31 F R A Q T V G K I M V V G R R T Y E S F P K R P L P E R T N
   61 V V L T H Q E D Y Q A Q G A V V V H D V A A V F A Y A K Q H
   91 P D Q E L V I A G G A Q I F T A F K D D V D T L L V T R L A
  121 G S F E G D T K M I P L N W D D F T K V S S R T V E D T N P
  151 A L T H T Y E V W Q K K A

Επεξηγήσεις των σημαντικότερων πεδίων μιας εγγραφής PIR-PSD

ENTRY: Κωδικός της ακολουθίας χαρακτηριστικός για την PIR-PSD.

TITLE: Σύντομη περιγραφή της ακολουθίας.

ORGANISM: Οργανισμός απ' όπου προήλθε η ακολουθία. Ακολουθείται η διώνυμη ονομασία κατά Λινναίο.

DATE: Αναγραφή ημερομηνίας για τη δημιουργία της παρούσας εγγραφής, τελευταίας τροποποιήσης, προσθήκης σχολίων.

ACCESSIONS: Είναι ένας χαρακτηριστικός κωδικός που αποκτά μια πολυπεπτιδική αλυσίδα όταν κατατίθεται στην βάση. Χρησιμεύει στην αναγνώριση εγγραφών ανάμεσα στις διαφορετικές εκδόσεις της βάσης όπως αυτή ανανεώνεται ανά τακτά χρονικά διαστήματα.

REFERENCE: Στοιχεία για τις βιβλιογραφικές αναφορές που σχετίζονται με την παρούσα εγγραφή.

FUNCTION: Σύντομη περιγραφή της λειτουργίας που συμμετέχει η ακολουθία.

CLASSIFICATION: Σύνδεσμος που οδηγεί σε μια λίστα από ακολουθίες που ανήκουν στην ίδια οικογένεια όπως κατατάσσονται με βάση την iProClass.

KEYWORDS: Το πεδίο αυτό περιέχει ειδικές λέξεις-κλειδιά για τον χαρακτηρισμό της αλληλουχίας όπως αυτές ταξινομούνται με βάση κριτήρια όπως η λειτουργία και η δομή τους. Επίσης αν επιλεχθούν

FEATURE: Καταγραφή των ιδιαίτερων χαρακτηριστικών της ακολουθίας όπως είναι κατάλοιπα για την πρόσδεση μικρών μορίων.

SUMMARY: Περιέχει στοιχεία για το μοριακό βάρος και το μήκος σε αμινοξικά κατάλοιπα της ακολουθίας.

SEQUENCE: η αλληλουχία των αμινοξέων της πολυπεπτιδικής αλυσίδας η οποία ακολουθεί ειδική μορφοποίηση της μορφής:

- Τα αμινοξικά κατάλοιπα αναπαριστώνται με τον κώδικα του ενός γράμματος κατά IUPAC.

- Η ακολουθία περιλαμβάνει 30 αμινοξικά κατάλοιπα ανά γραμμή τα οποία χωρίζονται μεταξύ τους με κενό διάστημα, ξεκινώντας από τη θέση 7 κάθε γραμμής.

- Από τη θέση 5 της γραμμής και προς τα αριστερά υπάρχει ένας αριθμός που δείχνει την αρίθμηση του πρώτου καταλοίπου κάθε γραμμής.

Π.χ.

              5        10        15        20        25        30
    1 M T A F L W A Q D R D G L I G K D G H L P W H L P D D L H Y
   31 F R A Q T V G K I M V V G R R T Y E S F P K R P L P E R T N
   61 V V L T H Q E D Y Q A Q G A V V V H D V A A V F A Y A K Q H

4. Εγγραφή της PROSITE για την πρωτεϊνική ακολουθία της Διϋδροφολικής Αναγωγάσης (DHFR).

ID   DHFR; PATTERN.
AC   PS00075;
DT   APR-1990 (CREATED); NOV-1997 (DATA UPDATE); JUL-1998 (INFO UPDATE).
DE   Dihydrofolate reductase signature.
PA   [LVAGC]-[LIF]-G-x(4)-[LIVMF]-P-W-x(4,5)-[DE]-x(3)-[FYIV]-x(3)-[STIQ].
NR   /RELEASE=40.7,103373;
NR   /TOTAL=69(69); /POSITIVE=68(68); /UNKNOWN=0(0); /FALSE_POS=1(1);
NR   /FALSE_NEG=4; /PARTIAL=0;
CC   /TAXO-RANGE=ABEPV; /MAX-REPEAT=1;
DR   Q05762, DRT1_ARATH, T; Q05763, DRT2_ARATH, T; P45350, DRTS_DAUCA, T; 
DR   P16126, DRTS_LEIAM, T; P07382, DRTS_LEIMA, T; O81395, DRTS_MAIZE, T; 
DR   Q27828, DRTS_PARTE, T; Q27713, DRTS_PLABA, T; P20712, DRTS_PLACH, T; 
DR   P13922, DRTS_PLAFK, T; O02604, DRTS_PLAVI, T; P46103, DRTS_PLAVN, T; 
DR   P51820, DRTS_SOYBN, T; Q07422, DRTS_TOXGO, T; Q27783, DRTS_TRYBB, T; 
DR   Q27793, DRTS_TRYCR, T; P00382, DYR1_ECOLI, T; P12833, DYR3_SALTY, T; 
DR   P11731, DYR5_ECOLI, T; P95524, DYR6_PROMI, T; P27422, DYR7_ECOLI, T; 
DR   Q57452, DYR8_ECOLI, T; Q59397, DYR9_ECOLI, T; P28019, DYR_AEDAL , T; 
DR   P11045, DYR_BACSU , T; P00376, DYR_BOVIN , T; P04382, DYR_BPT4  , T; 
DR   P57243, DYR_BUCAI , T; Q93341, DYR_CAEEL , T; P22906, DYR_CANAL , T; 
DR   P00378, DYR_CHICK , T; P31073, DYR_CITFR , T; Q07801, DYR_CRYNE , T; 
DR   P17719, DYR_DROME , T; P00379, DYR_ECOLI , T; P31074, DYR_ENTAE , T; 
DR   P00380, DYR_ENTFC , T; P43791, DYR_HAEIN , T; P15093, DYR_HALVO , T; 
DR   P27421, DYR_HSVS7 , T; P09503, DYR_HSVSA , T; P22573, DYR_HSVSC , T; 
DR   P00374, DYR_HUMAN , T; P27498, DYR_KLEAE , T; P00381, DYR_LACCA , T; 
DR   Q59487, DYR_LACLA , T; P04753, DYR_MESAU , T; P00375, DYR_MOUSE , T; 
DR   P47470, DYR_MYCGE , T; Q9CBW1, DYR_MYCLE , T; P78028, DYR_MYCPN , T; 
DR   Q98Q32, DYR_MYCPU , T; O33305, DYR_MYCTU , T; P04174, DYR_NEIGO , T; 
DR   Q9JSQ9, DYR_NEIMA , T; Q9K168, DYR_NEIMB , T; P00377, DYR_PIG   , T; 
DR   P16184, DYR_PNECA , T; P36591, DYR_SCHPO , T; Q59908, DYR_STAEP , T; 
DR   Q54277, DYR_STAHA , T; Q54801, DYR_STRPN , T; P07807, DYR_YEAST , T; 
DR   Q04515, DYRA_ECOLI, T; P13955, DYRA_STAAU, T; P10167, DYRB_STAAU, T; 
DR   Q59408, DYRC_ECOLI, T; P78218, DYRF_ECOLI, T; 
DR   Q23695, DRTS_CRIFA, N; O62583, DYR_ENCCU , N; Q60034, DYR_THEMA , N; 
DR   Q9PR30, DYR_UREPA , N; 
DR   Q10821, YT00_MYCTU, F; 
3D   1AI9; 1AOE; 1DR1; 1DR2; 1DR3; 1DR4; 1DR5; 1DR6; 1DR7; 8DFR; 1DDR; 1DDS; 
3D   1DRA; 1DRE; 1DRH; 1DYH; 1DYI; 1DYJ; 1JOL; 1JOM; 1RA1; 1RA2; 1RA3; 1RA8; 
3D   1RA9; 1RB2; 1RB3; 1RC4; 1RD7; 1RE7; 1RF7; 1RG7; 1RH3; 1RX1; 1RX2; 1RX3; 
3D   1RX4; 1RX5; 1RX6; 1RX7; 1RX8; 1RX9; 1TDR; 3DRC; 4DFR; 5DFR; 6DFR; 7DFR; 
3D   1VDR; 1BOZ; 1DHF; 1DLR; 1DRF; 1HFP; 1HFQ; 1HFR; 1OHJ; 1OHK; 2DHF; 1AO8; 
3D   1BZF; 1DIS; 1DIU; 3DFR; 1CD2; 1DAJ; 1DYR; 
DO   PDOC00072;
//

Επεξηγήσεις των σημαντικότερων πεδίων μιας εγγραφής στην PROSITE

ID (Identification): Είναι της γενικής μορφής

ID   ENTRY_NAME; ENTRY_TYPE

Το πρώτο τμήμα είναι η χαρακτηριστική ονομασία που εμφανίζει η εγγραφή χαρακτηριστική για τη βάση PROSITE, ενώ το δεύτερο τμήμα υποδηλώνει τον τύπο της εγγραφής.

AC (ACcession number): Πρόκειται για τον χαρακτηριστικό κωδικό που αποκτά μια νεοεισερχόμενη εγγραφή στην PROSITE και χρησιμεύει στην αναγνώριση της εγγραφής ανάμεσα στις διαφορετικές εκδόσεις της βάσης PROSITE.

DT (DaTe): Το πεδίο αυτό περιέχει τις ημερομηνίες δημιουργίας και τελευταίας ανανέωσης (σχολιασμός) της εγγραφής.

DE (DEscription): Περιέχει μια γενική περιγραφή για την συγκεκριμένη εγγραφή.

PA (PAttern): Στο πεδίο αυτό αναγράφεται το πρότυπο της ακολουθίας (pattern) που ακολουθούν τα μέλη της συγκεκριμένης εγγραφής.

Οι συμβάσεις που ακολουθούμε για την αναπαράσταση του pattern είναι:

Τα αμινοξέα απεικονίζονται με τον κώδικα του ενός γράμματος κατά IUPAC.
Το σύμβολο x σημαίνει ότι στη θέση αυτή μπορεί να υπάρχει οποιοδήποτε αμινοξύ.
[...] Τα αμινοξέα που περιέχονται μέσα στις αγκύλες είναι τα επιτρεπτά για τη συγκεκριμένη θέση. Για παράδειγμα αν περιέχεται στις αγκύλες [ALT] σημαίνει ότι στη συγκεκριμένη θέση επιτρέπεται να βρίσκεται Αλανίνη ή Λευκίνη ή Θρεονίνη.
Τα άγκιστρα υποδηλώνουν ότι όσα αμινοξέα περιέχονται σε αυτά δεν επιτρέπεται να βρίσκονται στις συγκεκριμένες θέσεις.
Κάθε στοιχείο του pattern χωρίζεται από το γειτονικό του με μια παύλα (-).
Αν ένα στοιχείο επαναλαμβάνεται μπορεί να αναπαρασταθεί με ένα αριθμητικό δείκτη σε παρενθέσεις που δηλώνει τον αριθμό των επαναλήψεων π.χ. x(3). Στην περίπτωση που εντός της παρενθέσεως περιέχονται δύο αριθμοί που χωρίζονται μεταξύ τους με κόμμα τούτο σημαίνει ότι ο αριθμός των επαναλήψεων μπορεί να παίρνει ένα εύρος τιμών που καθορίζεται από τις τιμές που περιέχονται στις παρενθέσεις π.χ. (2,4) Ο αριθμός των επαναλήψεων μπορεί να είναι 2 ή 3 ή 4.
Αν το pattern περιορίζεται στο αμινοτελικό ή το καρβοξυτελικό άκρο η αναπαράσταση ξεκινά με τα σύμβολα '<' και '>' αντίστοιχα.
Η τελεία υποδηλώνει το τέλος του pattern.

NR (Numerical Results): Τα πεδία αυτά περιέχουν στοιχεία που προκύπτουν από την σάρωση (pattern scan) της βάσης SWISS-PROT με το pattern της PROSITE.

Πιο συγκεκριμένα περιλαμβάνουν:

/RELEASE: Η έκδοση της SWISS-PROT που έχει χρησιμοποιηθεί καθώς και ο αριθμός των εγγραφών που περιέχονται σε αυτή.

/TOTAL: Συνολικός αριθμός εγγραφών της SWISS-PROT όπου φαίνεται να συναντάται το pattern.

/POSITIVE: Αριθμός των εγγραφών που είναι βέβαιο ότι συναντάται το pattern και ανήκουν σε οικογένεια της PROSITE.

/UNKNOWN: Αριθμός των εγγραφών που πιθανά ανήκει στην οικογένεια της PROSITE.

/FALSE_POS: Εγγραφές της SWISS-PROT όπου εμφανίζεται το pattern αλλά δεν σχετίζονται με την συγκεκριμένη οικογένεια.

/FALSE_NEG: Αριθμός εγγραφών της SWISS-PROT που ανήκουν στη συγκεκριμένη οικογένεια αλλά δεν βρέθηκαν κατά το pattern scan.

/PARTIAL: Αριθμός ακολουθιών της SWISS-PROT που δεν είναι πλήρεις (fragments), ανήκουν στην συγκεκριμένη οικογένεια της PROSITE, αλλά δεν ανιχνεύονται από τo PROSITE λόγω έλλειψης τμημάτων της ακολουθίας.

CC (Comments): Στα υπο-πεδία του Comments περιέχονται γενικά σχόλια που σχετίζονται με την PROSITE.

DR (Database Reference): Περιέχει όλες τις εγγραφές της SWISS-PROT που ακολουθούν το συγκεκριμένο pattern.

3D (3D Structure): Περιέχει όλες τις εγγραφές της Protein Data Bank που περιέχει τις δομές βιομακρομορίων και ακολουθούν το συγκεκριμένο pattern.

DO (Documentation): Σύνδεσμος για εγγραφή που αναλυτικά στοιχεία σχετικά με τη βιολογική λειτουργία των ακολουθιών που περιέχουν το συγκεκριμένο pattern καθώς και βιβλιογραφικές αναφορές.

//: Δηλώνει το τέλος της εγγραφής.

5. Εγγραφή της PDB για την δομή στο χώρο της Διϋδροφολικής Αναγωγάσης (DHFR) από τον οργανισμό Lactobacillus casei.

HEADER    OXIDOREDUCTASE                          04-NOV-97   1HFR              
TITLE     COMPARISON OF TERNARY CRYSTAL COMPLEXES OF HUMAN                      
TITLE    2 DIHYDROFOLATE REDUCTASE WITH NADPH AND A CLASSICAL                   
TITLE    3 ANTITUMOR FUROPYRIMDINE                                              
COMPND    MOL_ID: 1;                                                            
COMPND   2 MOLECULE: DIHYDROFOLATE REDUCTASE;                                   
COMPND   3 CHAIN: NULL;                                                         
COMPND   4 SYNONYM: DHFR;                                                       
COMPND   5 EC: 1.5.1.3;                                                         
COMPND   6 ENGINEERED: YES;                                                     
COMPND   7 OTHER_DETAILS: COMPLEXED WITH NADPH AND                              
COMPND   8 FURO[2,3D]FUROPYRIMIDINE                                             
SOURCE    MOL_ID: 1;                                                            
SOURCE   2 ORGANISM_SCIENTIFIC: HOMO SAPIENS;                                   
SOURCE   3 ORGANISM_COMMON: HUMAN;                                              
SOURCE   4 EXPRESSION_SYSTEM: ESCHERICHIA COLI;                                 
SOURCE   5 EXPRESSION_SYSTEM_STRAIN: JM107                                      
KEYWDS    OXIDOREDUCTASE, ONE-CARBON METABOLISM                                 
EXPDTA    X-RAY DIFFRACTION                                                     
AUTHOR    V.CODY,N.GALITSKY,J.R.LUFT,W.PANGBORN,R.L.BLAKLEY,A.GANGJEE           
REVDAT   1   28-JAN-98 1HFR    0                                                
JRNL        AUTH   V.CODY,N.GALITSKY,J.R.LUFT,W.PANGBORN,R.L.BLAKLEY,           
JRNL        AUTH 2 A.GANGJEE                                                    
JRNL        TITL   COMPARISON OF TERNARY CRYSTAL COMPLEXES OF HUMAN             
JRNL        TITL 2 DIHYDROFOLATE REDUCTASE WITH NADPH AND A CLASSICAL           
JRNL        TITL 3 ANTITUMOR FUROPYRIMDINE                                      
JRNL        REF    TO BE PUBLISHED                                              
JRNL        REFN                                                  0353          
REMARK   1                                                                      
REMARK   1 REFERENCE 1                                                          
REMARK   1  AUTH   V.CODY,N.GALITSKY,J.R.LUFT,W.PANGBORN,A.GANGJEE,             
REMARK   1  AUTH 2 R.DEVRAJ,S.F.QUEENER,R.L.BLAKLEY                             
REMARK   1  TITL   COMPARISON OF TERNARY COMPLEXES OF PNEUMOCYSTIS              
REMARK   1  TITL 2 CARINII AND WILD-TYPE HUMAN DIHYDROFOLATE REDUCTASE          
REMARK   1  TITL 3 WITH A NOVEL CLASSICAL ANTITUMOR                             
REMARK   1  TITL 4 FURO[2,3-D]PYRIMIDINE ANTIFOLATE                             
REMARK   1  REF    ACTA CRYSTALLOGR.,SECT.D      V.  53   638 1997              
REMARK   1  REFN   ASTM ABCRE6  DK ISSN 0907-4449                 0766          
.
.
.
REMARK   1 REFERENCE 4                                                          
REMARK   1  AUTH   V.CODY,J.R.LUFT,E.CISZAK,T.I.KALMAN,J.H.FREISHEIM            
REMARK   1  TITL   CRYSTAL STRUCTURE DETERMINATION AT 2.3 A OF                  
REMARK   1  TITL 2 RECOMBINANT HUMAN DIHYDROFOLATE REDUCTASE TERNARY            
REMARK   1  TITL 3 COMPLEX WITH NADPH AND METHOTREXATE-GAMMA-TETRAZOLE          
REMARK   1  REF    ANTI-CANCER DRUG DES.         V.   7   483 1992              
REMARK   1  REFN   ASTM ACDDEA  UK ISSN 0266-9536                 0807          
REMARK   2                                                                      
REMARK   2 RESOLUTION. 2.1  ANGSTROMS.                                          
REMARK   3                                                                      
REMARK   3 REFINEMENT.                                                          
REMARK   3   PROGRAM     : PROFFT                                               
REMARK   3   AUTHORS     : KONNERT,HENDRICKSON,FINZEL                           
REMARK   3                                                                      
REMARK   3  DATA USED IN REFINEMENT.                                            
REMARK   3   RESOLUTION RANGE HIGH (ANGSTROMS) : NULL                           
REMARK   3   RESOLUTION RANGE LOW  (ANGSTROMS) : NULL                           
REMARK   3   DATA CUTOFF            (SIGMA(F)) : NULL                           
REMARK   3   COMPLETENESS FOR RANGE        (%) : NULL                           
REMARK   3   NUMBER OF REFLECTIONS             : NULL                           
REMARK   3                                                                      
REMARK   3  FIT TO DATA USED IN REFINEMENT.                                     
REMARK   3   CROSS-VALIDATION METHOD          : NULL                            
REMARK   3   FREE R VALUE TEST SET SELECTION  : NULL                            
REMARK   3   R VALUE     (WORKING + TEST SET) : NULL                            
REMARK   3   R VALUE            (WORKING SET) : 0.1995                          
.
.
.
REMARK 200  COMPLETENESS FOR RANGE     (%) : 84.7                               
REMARK 200  DATA REDUNDANCY                : 3.09                               
REMARK 200  R MERGE                    (I) : 0.086                              
REMARK 200  R SYM                      (I) : NULL                               
REMARK 200   FOR THE DATA SET  : NULL                               
REMARK 200                                                                      
REMARK 200 IN THE HIGHEST RESOLUTION SHELL.                                     
REMARK 200  HIGHEST RESOLUTION SHELL, RANGE HIGH (A) : NULL                     
REMARK 200  HIGHEST RESOLUTION SHELL, RANGE LOW  (A) : NULL                     
REMARK 200  COMPLETENESS FOR SHELL     (%) : NULL                               
REMARK 200  DATA REDUNDANCY IN SHELL       : NULL                               
REMARK 200  R MERGE FOR SHELL          (I) : NULL                               
REMARK 200  R SYM FOR SHELL            (I) : NULL                               
REMARK 200   FOR SHELL         : NULL                               
REMARK 200                                                                      
REMARK 200 METHOD USED TO DETERMINE THE STRUCTURE: NULL                         
REMARK 200 SOFTWARE USED: NULL                                                  
REMARK 200 STARTING MODEL: NULL                                                 
REMARK 200                                                                      
REMARK 200 REMARK: NULL                                                         
REMARK 280                                                                      
REMARK 280 CRYSTAL                                                              
REMARK 280 SOLVENT CONTENT, VS   (%): 48.                                       
REMARK 280 MATTHEWS COEFFICIENT, VM (ANGSTROMS**3/DA): 2.54                     
REMARK 280                                                                      
REMARK 280 CRYSTALLIZATION CONDITIONS: NULL                                     
REMARK 290                                                                      
REMARK 290 CRYSTALLOGRAPHIC SYMMETRY                                            
REMARK 290 SYMMETRY OPERATORS FOR SPACE GROUP: H 3                              
REMARK 290                                                                      
REMARK 290      SYMOP   SYMMETRY                                                
REMARK 290     NNNMMM   OPERATOR                                                
REMARK 290       1555   X,Y,Z                                                   
REMARK 290       2555   -Y,X-Y,Z                                                
REMARK 290       3555   Y-X,-X,Z                                                
REMARK 290       4555   X+2/3,Y+1/3,Z+1/3                                       
REMARK 290       5555   -Y+2/3,X-Y+1/3,Z+1/3                                    
REMARK 290       6555   Y-X+2/3,-X+1/3,Z+1/3                                    
REMARK 290       7555   X+1/3,Y+2/3,Z+2/3                                       
REMARK 290       8555   -Y+1/3,X-Y+2/3,Z+2/3                                    
REMARK 290       9555   Y-X+1/3,-X+2/3,Z+2/3                                    
REMARK 290                                                                      
REMARK 290     WHERE NNN -> OPERATOR NUMBER                                     
REMARK 290           MMM -> TRANSLATION VECTOR                                  
REMARK 290                                                                      
REMARK 290 CRYSTALLOGRAPHIC SYMMETRY TRANSFORMATIONS                            
REMARK 290 THE FOLLOWING TRANSFORMATIONS OPERATE ON THE ATOM/HETATM             
REMARK 290 RECORDS IN THIS ENTRY TO PRODUCE CRYSTALLOGRAPHICALLY                
REMARK 290 RELATED MOLECULES.                                                   
REMARK 290   SMTRY1   1  1.000000  0.000000  0.000000        0.00000            
REMARK 290   SMTRY2   1  0.000000  1.000000  0.000000        0.00000            
REMARK 290   SMTRY3   1  0.000000  0.000000  1.000000        0.00000            
REMARK 290   SMTRY1   2 -0.500000 -0.866082  0.000000        0.00000            
REMARK 290   SMTRY2   2  0.865969 -0.500000  0.000000        0.00000            
REMARK 290   SMTRY3   2  0.000000  0.000000  1.000000        0.00000            
REMARK 290   SMTRY1   3 -0.500000  0.866082  0.000000        0.00000            
REMARK 290   SMTRY2   3 -0.865969 -0.500000  0.000000        0.00000            
REMARK 290   SMTRY3   3  0.000000  0.000000  1.000000        0.00000            
REMARK 290   SMTRY1   4  1.000000  0.000000  0.000000       43.45181            
REMARK 290   SMTRY2   4  0.000000  1.000000  0.000000       25.08529            
REMARK 290   SMTRY3   4  0.000000  0.000000  1.000000       25.69637            
REMARK 290   SMTRY1   5 -0.500000 -0.866082  0.000000       43.45181            
REMARK 290   SMTRY2   5  0.865969 -0.500000  0.000000       25.08529            
REMARK 290   SMTRY3   5  0.000000  0.000000  1.000000       25.69637            
REMARK 290   SMTRY1   6 -0.500000  0.866082  0.000000       43.45181            
REMARK 290   SMTRY2   6 -0.865969 -0.500000  0.000000       25.08529            
REMARK 290   SMTRY3   6  0.000000  0.000000  1.000000       25.69637            
REMARK 290   SMTRY1   7  1.000000  0.000000  0.000000        0.00000            
REMARK 290   SMTRY2   7  0.000000  1.000000  0.000000       50.17058            
REMARK 290   SMTRY3   7  0.000000  0.000000  1.000000       51.39274            
REMARK 290   SMTRY1   8 -0.500000 -0.866082  0.000000        0.00000            
REMARK 290   SMTRY2   8  0.865969 -0.500000  0.000000       50.17058            
REMARK 290   SMTRY3   8  0.000000  0.000000  1.000000       51.39274            
REMARK 290   SMTRY1   9 -0.500000  0.866082  0.000000        0.00000            
REMARK 290   SMTRY2   9 -0.865969 -0.500000  0.000000       50.17058            
REMARK 290   SMTRY3   9  0.000000  0.000000  1.000000       51.39274            
REMARK 290                                                                      
REMARK 290 REMARK: NULL                                                         
DBREF  1HFR      1   186  SWS    P00374   DYR_HUMAN        1    186             
SEQRES   1    186  VAL GLY SER LEU ASN CYS ILE VAL ALA VAL SER GLN ASN          
SEQRES   2    186  MET GLY ILE GLY LYS ASN GLY ASP LEU PRO TRP PRO PRO          
SEQRES   3    186  LEU ARG ASN GLU PHE ARG TYR PHE GLN ARG MET THR THR          
SEQRES   4    186  THR SER SER VAL GLU GLY LYS GLN ASN LEU VAL ILE MET          
SEQRES   5    186  GLY LYS LYS THR TRP PHE SER ILE PRO GLU LYS ASN ARG          
SEQRES   6    186  PRO LEU LYS GLY ARG ILE ASN LEU VAL LEU SER ARG GLU          
SEQRES   7    186  LEU LYS GLU PRO PRO GLN GLY ALA HIS PHE LEU SER ARG          
SEQRES   8    186  SER LEU ASP ASP ALA LEU LYS LEU THR GLU GLN PRO GLU          
SEQRES   9    186  LEU ALA ASN LYS VAL ASP MET VAL TRP ILE VAL GLY GLY          
SEQRES  10    186  SER SER VAL TYR LYS GLU ALA MET ASN HIS PRO GLY HIS          
SEQRES  11    186  LEU LYS LEU PHE VAL THR ARG ILE MET GLN ASP PHE GLU          
SEQRES  12    186  SER ASP THR PHE PHE PRO GLU ILE ASP LEU GLU LYS TYR          
SEQRES  13    186  LYS LEU LEU PRO GLU TYR PRO GLY VAL LEU SER ASP VAL          
SEQRES  14    186  GLN GLU GLU LYS GLY ILE LYS TYR LYS PHE GLU VAL TYR          
SEQRES  15    186  GLU LYS ASN ASP                                              
HET    NAP    187      48                                                       
HET    MOT    187      32                                                       
HETNAM     NAP NADP  NICOTINAMIDE-ADENINE-DINUCLEOTIDE PHOSPHATE                
HETNAM     MOT N-[4-[(2,4-DIAMINOFURO[2,3D]PYRIMIDIN-5-YL)METHYL]               
HETNAM   2 MOT METHYLAMINO]-BENZOYL]-L-GLUTAMATE                                
HETSYN     NAP 2'-MONOPHOSPHOADENOSINE 5'-DIPHOSPHORIBOSE                       
FORMUL   2  NAP    C21 H28 N7 O17 P3                                            
FORMUL   3  MOT    C20 H22 N6 O6                                                
FORMUL   4  HOH   *35(H2 O1)                                                    
HELIX    1   1 ARG     28  THR     39  1                                  12    
HELIX    2   2 LYS     54  SER     59  1                                   6    
HELIX    3   3 GLU     62  ASN     64  5                                   3    
HELIX    4   4 LEU     93  GLU    101  1                                   9    
HELIX    5   5 PRO    103  ALA    106  1                                   4    
HELIX    6   6 SER    118  ALA    124  1                                   7    
SHEET    1   A 8 GLN   170  GLU   172  0                                        
SHEET    2   A 8 ILE   175  ASN   185 -1  N  TYR   177   O  GLN   170           
SHEET    3   A 8 HIS   130  ILE   138 -1  N  ARG   137   O  LYS   178           
SHEET    4   A 8 LEU     4  VAL    10  1  N  CYS     6   O  LYS   132           
SHEET    5   A 8 VAL   112  ILE   114  1  N  VAL   112   O  ASN     5           
SHEET    6   A 8 LEU    49  GLY    53  1  N  LEU    49   O  TRP   113           
SHEET    7   A 8 ILE    71  LEU    75  1  N  ILE    71   O  VAL    50           
SHEET    8   A 8 PHE    88  SER    90  1  N  PHE    88   O  VAL    74           
LINK        AN6  NAP   187                 OE1 GLU   123                        
CISPEP   1 ARG     65    PRO     66          0        -5.73                     
CISPEP   2 GLY    116    GLY    117          0         1.43                     
CRYST1   86.900   86.900   77.090  90.00  90.00 120.00 H 3           9          
ORIGX1      1.000000  0.000000  0.000000        0.00000                         
ORIGX2      0.000000  1.000000  0.000000        0.00000                         
ORIGX3      0.000000  0.000000  1.000000        0.00000                         
SCALE1      0.011507  0.006644  0.000000        0.00000                         
SCALE2      0.000000  0.013288  0.000000        0.00000                         
SCALE3      0.000000  0.000000  0.012972        0.00000                         
ATOM      1  N   VAL     1       9.276  20.928   2.652  1.00 36.50           N  
ATOM      2  CA  VAL     1       8.254  21.786   1.963  1.00 36.90           C  
ATOM      3  C   VAL     1       8.075  21.174   0.564  1.00 35.28           C  
ATOM      4  O   VAL     1       6.989  20.612   0.266  1.00 35.71           O  
ATOM      5  CB  VAL     1       8.615  23.228   2.320  1.00 38.57           C  
ATOM      6  CG1 VAL     1       9.294  24.255   1.444  1.00 38.43           C  
ATOM      7  CG2 VAL     1       7.447  24.037   2.968  1.00 38.75           C  
ATOM      8  N   GLY     2       9.056  21.228  -0.264  1.00 33.51           N  
ATOM      9  CA  GLY     2       9.098  20.717  -1.627  1.00 32.93           C  
ATOM     10  C   GLY     2       9.472  19.238  -1.640  1.00 30.93           C  
ATOM     11  O   GLY     2       9.017  18.424  -0.829  1.00 31.87           O  
.
.
.
.
. 
ATOM   1494  N   ASP   186       4.926   5.677  -4.032  1.00 38.26           N  
ATOM   1495  CA  ASP   186       4.210   4.604  -3.371  1.00 39.36           C  
ATOM   1496  C   ASP   186       3.878   4.874  -1.906  1.00 39.93           C  
ATOM   1497  O   ASP   186       3.546   3.740  -1.459  1.00 41.80           O  
ATOM   1498  CB  ASP   186       5.110   3.312  -3.390  1.00 39.19           C  
ATOM   1499  CG  ASP   186       6.158   3.373  -2.283  1.00 39.17           C  
ATOM   1500  OD1 ASP   186       6.189   4.348  -1.493  1.00 38.79           O  
ATOM   1501  OD2 ASP   186       6.971   2.424  -2.156  1.00 39.06           O  
ATOM   1502  OXT ASP   186       3.944   5.902  -1.229  1.00 40.01           O  
TER    1503      ASP   186                                                      
HETATM 1504 AP   NAP   187      26.498   8.553   8.777  1.00 20.52           P  
HETATM 1505 AO1  NAP   187      27.005   9.743   8.234  1.00 21.63           O  
HETATM 1506 AO2  NAP   187      25.178   8.109   8.289  1.00 22.30           O  
HETATM 1507 AO5* NAP   187      26.717   8.412  10.391  1.00 24.11           O  
HETATM 1508 AC5* NAP   187      25.987   7.510  11.292  1.00 25.77           C  
HETATM 1509 AC4* NAP   187      25.711   8.495  12.492  1.00 27.24           C  
HETATM 1510 AO4* NAP   187      24.773   9.267  12.190  1.00 28.36           O  
HETATM 1511 AC3* NAP   187      24.927   7.457  13.485  1.00 26.85           C  
HETATM 1512 AO3* NAP   187      26.125   6.976  14.298  1.00 29.04           O  
HETATM 1513 AC2* NAP   187      24.090   8.492  14.215  1.00 28.80           C  
HETATM 1514 AO2* NAP   187      24.877   9.337  14.969  1.00 26.09           O  
HETATM 1515 AC1* NAP   187      23.593   9.346  12.969  1.00 28.23           C  
HETATM 1516 AN9  NAP   187      22.404   8.860  12.331  1.00 30.46           N  
HETATM 1517 AC8  NAP   187      22.437   8.209  11.136  1.00 31.29           C  
HETATM 1518 AN7  NAP   187      21.274   7.825  10.729  1.00 31.20           N  
.
.
.
HETATM 1545 NC4  NAP   187      27.789  10.072   0.891  1.00 21.30           C  
HETATM 1546 NC5  NAP   187      27.922  10.049   2.381  1.00 20.60           C  
HETATM 1547 NC6  NAP   187      29.052   9.696   2.993  1.00 22.66           C  
HETATM 1548 AP2* NAP   187      25.004   8.883  16.659  1.00 25.53           P  
HETATM 1549 AOP1 NAP   187      23.598   8.742  17.048  1.00 24.21           O  
HETATM 1550 AOP2 NAP   187      25.661  10.186  17.021  1.00 25.77           O  
HETATM 1551 AOP3 NAP   187      25.896   7.761  16.613  1.00 25.55           O  
HETATM 1552  N1  MOT   187      28.839  13.061  -4.527  1.00 18.22           N  
HETATM 1553  C2  MOT   187      27.545  12.810  -4.561  1.00 17.16           C  
.
.
.
.
HETATM 1581  CD  MOT   187      33.609  21.950  -4.346  1.00 35.15           C  
HETATM 1582  OE1 MOT   187      33.967  20.785  -4.314  1.00 36.23           O  
HETATM 1583  OE2 MOT   187      34.133  22.820  -4.999  1.00 37.19           O  
HETATM 1584  O   HOH   188      32.950  12.394  -5.974  1.00 32.65           O  
HETATM 1585  O   HOH   189      24.499  11.873  -8.062  1.00 20.17           O  
HETATM 1586  O   HOH   190      22.883  12.007 -10.563  1.00 21.65           O  
.
.
.
HETATM 1617  O   HOH   221      39.580   2.776  -1.691  1.00 15.00           O  
HETATM 1618  O   HOH   222      18.655  21.208  -7.395  1.00 15.00           O  
CONECT  970  969 1521                                                           
CONECT 1504 1505 1506 1507 1526                                                 
CONECT 1505 1504                                                                
CONECT 1506 1504                                                                
CONECT 1507 1504 1508                                                           
.
.
CONECT 1580 1579 1581                                                           
CONECT 1581 1580 1582 1583                                                      
CONECT 1582 1581                                                                
CONECT 1583 1581                                                                
MASTER      228    0    2    6    8    0    0    6 1617    1   81   15          
END

Επεξήγηση πεδίων μιας εγγραφής PDB

HEADER: Περιέχει ένα τετραψήφιο κωδικό για την αναγνώριση της εγγραφής στην PDB, μια γενική ταξινόμηση του μακρομορίου καθώς και την ημερομηνία κατάθεσης της δομής στην Protein Data Bank.

TITLE: Τίτλος που περιλαμβάνει συνήθως τα περιεχόμενα της εγγραφής, τι είδους πειραματική διαδικασία χρησιμοποιήθηκε, ύπαρξη μεταλλάξεων. Επιτρέπει στον ερεύνητη που κατέθεσε τη δομή να καταδείξει τη σημαντικότητα της εργασίας αυτής.

COMPOUND: Το πεδίο compound περιέχει πληροφορίες για το μακρομόριο που αναφέρεται στη δομή καθώς και τα άλλα μόρια (μικρές οργανικές ενώσεις, μέταλλα) με τα οποία έχει τυχόν συμπλοκοποιηθεί.

SOURCE: Βιολογική προέλευση του μακρομορίου που αναφέρεται στην εγγραφή.

KEYWDS: Χαρακτηριστικές λέξεις-κλειδιά για τον χαρακτηρισμό της εγγραφής.

EXPDTA: Πειραματική τεχνική για τον προσδιορισμό της δομής (X-Ray Crystallography/NMR/Theoretical Model).

AUTHOR: Λίστα με τα ονόματα των ερευνητών που συμμετείχαν στον προσδιορισμό της δομής.

JRNL: Πρωταρχική βιβλιογραφική αναφορά η οποία αναφερέται στον προσδιορισμό της δομής που αναφέρεται στην συγκεκριμένη εγγραφή.

REMARK: Το πεδίο REMARK περιλαμβάνει μια σειρά από πληροφορίες σχετικές με την κατατεθειμένη δομή.

Καταρχήν περιέχει βιβλιογραφικές αναφορές που σχετίζονται άμεσα με το προς μελέτη μακρομόριο.

Στο πεδίο REMARK περιλαμβάνονται και στοιχεία σχετικά με την πειραματική διαδικασία που ακολουθήθηκε για την λύση της δομής όπως είναι τα προγράμματα που χρησιμοποιήθηκαν, οι τιμές διαφόρων δεικτών, γενικά πληροφορίες που αποδεικνύουν την ορθότητα της δομής.

SEQRES: Περιέχει την αλληλουχία του προς μελέτη μακρομορίου. Για τις πρωτεΐνες ακολουθείται ο κώδικας των 3 γραμμάτων.

HET: Αναφέρεται στα μόρια (ετεροάτομα) που δεν είναι αμινοξέα ή νουκλεοτίδια. Αυτά μπορεί να είναι προσθετικές ομάδες και ιόντα για τα οποία έχουν προσδιοριστεί οι συντεταγμένες τους. Τα στοιχεία που δίνονται για αυτά είναι ένας κωδικός για να διευκρινίζονται σε σχέση με τα άλλα κατάλοιπα της εγγραφής, η αρίθμηση που έχουν μέσα στο αρχείο των συντεταγμένων και τέλος ο αριθμός των ατόμων από τα οποία αποτελούνται.

ΗΕΤΝΑΜ: Ονοματολογία των καταλοίπων που περιέχονται στο πεδίο HET.

FORMUL: Μοριακός τύπος των καταλοίπων που αναφέρονται στο πεδίο HET.

HELIX: Τμήματα της ακολουθίας που έχουν ελικοειδή δομή.

SHEET: Τμήματα της ακολουθίας που έχουν εκτεταμένη δομή.

CRYST1: Περιέχει τις παραμέτρους μοναδιαίας κυψελλίδας και την ομάδα συμμετρίας χώρου.

ORIGXn(n=1..3): Πίνακας Μετατροπής από σύστημα ορθογωνίων συντεταγμένων στις συντεταγμένες που κατατέθηκαν αρχικά στην PDB.

SCALEn: Πίνακας Μετατροπής από σύστημα ορθογωνίων συντεταγμένων στις κρυσταλλογραφικές συντεταγμένες.

ATOM: Περιέχει τις συντεταγμένες των ατόμων στους άξονες Χ, Υ, Ζ. Περιλαμβάνει επίσης και άλλα στοιχεία όπως τα άτομα για τα οποία αναφέρονται οι συντεταγμένες και σε ποια κατάλοιπα ανήκουν. Πρέπει να σημειωθεί ότι κάθε είδους δεδομένο που περιέχεται στο πεδίο ΑΤΟΜ είναι τοποθετημένο σε καθορισμένες θέσεις (στήλες) της εγγραφής όπως αυτές παρουσιάζονται παρακάτω:

ΣΤΗΛΕΣ Περιεχόμενα κάθε στήλης --------------------------------------------------------------------------------- 1 - 6 "ATOM " δηλώνει ότι πρόκειται για το πεδίο ΑΤΟΜ. 7 - 11 Αύξων αριθμός του ατόμου. 13 - 16 Τύπος ατόμου. 18 - 20 Όνομα καταλοίπου. Για τα αμινοξέα ακολουθείται ο κώδικας των 3 γραμμάτων. 22 (chainΙD) Χαρακτήρας που ταυτοποιεί την αλυσίδα, αν περιέχονται περισσότερες από μια στην εγγραφή. 23 - 26 Αρίθμηση του καταλοίπου στην αλυσίδα 31 - 38 x Συντεταγμένες ατόμου (σε Angstroms) στον άξονα Χ σε τρισορθογώνιο σύστημα αξόνων. 39 - 46 y Συντεταγμένες ατόμου (σε Angstroms) στον άξονα Y σε τρισορθογώνιο σύστημα αξόνων. 47 - 54 z Συντεταγμένες ατόμου (σε Angstroms) στον άξονα Z σε τρισορθογώνιο σύστημα αξόνων. 55 - 60 Συντελεστής κατάληψης(occupancy) 61 - 66 Παράγοντας θερμοκρασίας(Temperature factor) 77 - 78 Σύμβολο του ατόμου. 79 - 80 Φορτίο του ατόμου (Αν υπάρχει).

TER: Το πεδίο ΤΕR δηλώνει το τέλος της παράθεσης των ατόμων που απαρτίζουν μια αλυσίδα.

HETATM: Συντεταγμένες των ετεροατόμων. Η μορφοποίηση παρουσίασης τους ακολουθεί του ίδιους κανόνες με το πεδίο ΑΤΟΜ.

CONECT: Το πεδίο CONECT καθορίζει τα άτομα τα οποία συμμετέχουν στον σχηματισμό δεσμών. Κάθε άτομο συμβολίζεται με την αρίθμηση του όπως είναι καθορισμένη στα πεδία ΑΤΟΜ.

MASTER: Αποτελεί ένα πεδίο που χρησιμοποιείται για μια απλή οργάνωση της εγγραφής. Πρόκειται για μια σειρά από αριθμούς που δεν είναι τίποτε άλλο από το άθροισμα των γραμμών για συγκεκριμένα πεδία της εγγραφής.

END: Υποδηλώνει τη λήξη της εγγραφής.