ΒΙΟΦΥΣΙΚΗ

ΑΣΚΗΣΗ:

ΜΕΡΟΣ Α:

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΔΟΜΙΚΗΣ ΚΑΙ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ ΚΑΙ ΕΡΓΑΛΕΙΑ ΑΝΑΛΥΣΗΣ ΣΤΟ ΔΙΑΔΙΚΤΥΟ (INTERNET)

ΜΕΡΟΣ B:

ΠΡΟΓΝΩΣΗ ΔΟΜΗΣ ΔΙΑΜΕΜΒΡΑΝΙΚΩΝ ΠΡΩΤΕΪΝΩΝ

Β. Ι. Προμπονάς, Γ. Α. Παλαιός, Θ. Δ. Λιακόπουλος,

Ι. Σ. Χαμόδρακας, C. Pasquier και

Σ. Ι. Χαμόδρακας

Τμήμα Βιολογίας,

Τομέας Βιολογίας Κυττάρου και Βιοφυσικής,

Πανεπιστήμιο Αθηνών

Αθήνα, Απρίλιος 1999

ΓΕΝΙΚΑ ΓΙΑ ΠΡΩΤΕΪΝΕΣ

Αναμφισβήτητα, οι πρωτεΐνες είναι από τα σπουδαιότερα βιολογικά μακρομόρια, με τεράστια ποικιλία βιολογικών δράσεων. Ενδεικτικά, υπάρχουν πρωτεΐνες που έχουν σημαντική ενζυμική δράση με μεγάλη εξειδίκευση (π.χ. ενδονουκλεάσες), άλλες είναι υπεύθυνες για τη δημιουργία διαφόρων τύπων υποδοχέων για νευροδιαβιβαστές, ορμόνες και άλλες ουσίες (π.χ. υποδοχέας ακετυλοχολίνης). Σε άλλες περιπτώσεις, σχηματίζουν μεγάλη ποικιλία ιοντικών καναλιών (π.χ. αντλία Κ⁺-Να⁺), αναλαμβάνουν τη μεταφορά - αποθήκευση ουσιών ζωτικής σημασίας (π.χ. αιμοσφαιρίνη, φερριτίνη) ή αποτελούν βασικά δομικά στοιχεία των κυττάρων (π.χ. κερατίνες).

ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Τα κάθε μορφής δεδομένα σχετικά με πρωτεΐνες που αποτελούν προϊόν πειραματικής έρευνας ή υπολογιστικής ανάλυσης, κατατίθενται σε βάσεις δεδομένων, αρκετές από τις οποίες διατίθενται για ελεύθερη πρόσβαση στην Ακαδημαϊκή Κοινότητα. Η ευρύτατη χρήση του διαδικτύου (INTERNET) τα τελευταία χρόνια, έχει καταστήσει πολύ απλή και γρήγορη την πρόσβαση των ερευνητών σε μεγάλη ποικιλία πληροφοριών. Ταυτόχρονα προσφέρεται πρόσβαση σε μεγάλο αριθμό προγραμμάτων λογισμικού, που πραγματοποιούν διάφορα είδη υπολογιστικής ανάλυσης.

Στο URL:

http://srs.ebi.ac.uk/srs6bin/cgi-bin/wgetz?-page+top+-newId

βρίσκεται ένας κατάλογος που περιέχει βασικές πληροφορίες για μια αρκετά ευρεία συλλογή βάσεων δεδομένων που συσχετίζονται με πρωτεΐνες. Επιλέγοντας τις αντίστοιχες συνδέσεις (links) έχουμε πρόσβαση σε λεπτομερέστερες πληροφορίες για κάθε μία από αυτές.

Οι παραπάνω βάσεις δεδομένων είναι δυνατόν να περιέχουν απλά συλλογές πρωτεϊνικών ακολουθιών ή ακολουθίες συνοδευόμενες από συμπληρωματικά σχόλια. Στην τελευταία κατηγορία ανήκει η SWISS-PROT (Bairoch and Apweiler, 1998), με 77977 καταχωρήσεις (στις αρχές του 1999) στις οποίες μπορούν, επιπλέον, να βρεθούν βιβλιογραφικές αναφορές, γενικά στοιχεία δευτεροταγούς δομής καθώς και σημειώσεις για τη βιολογική λειτουργία (αν είναι γνωστές) και άλλες χρήσιμες πληροφορίες.

Η Protein Data Bank (PDB, Sussman et al., 1998) αποτελεί μία αρχειοθέτηση πειραματικά προσδιορισμένων Τρισδιάστατων Δομών Βιολογικών Μακρομορίων. Στα αρχεία της βρίσκονται ταξινομημένες πληροφορίες σχετικές με τις δομές, όπως ατομικές συντεταγμένες, βιβλιογραφικές αναφορές, στοιχεία της Πρωτοταγούς και Δευτεροταγούς δομής, καθώς και λεπτομερή δεδομένα κρυσταλλογραφίας ακτίνων-Χ ή δεδομένα φασματοσκοπίας NMR. Σήμερα, 9809 δομές πρωτεϊνών και νουκλεϊκών οξέων βρίσκονταί καταχωρημένες στην PDB. Αν αυτός ο αριθμός συγκριθεί με τις γνωστές ακολουθίες πρωτεϊνών, γίνεται εμφανές ότι δημιουργείται ένα 'χάσμα' ανάμεσα στις πειραματικά προσδιορισμένες δομές και τις γνωστές αμινοξικές ακολουθίες (Rost. and Sander, 1996).

Περισσότερο εξειδικευμένες πληροφορίες, εξαιρετικά σημαντικές για την πιο μεθοδική μελέτη των πρωτεϊνών, ταξινομούνται σε άλλες βάσεις δεδομένων. Για παράδειγμα η CATH (Orengo et al., 1997) περιέχει μια ιεραρχική ταξινόμηση Αυτοτελών Δομικών Στοιχείων (Domains), πρωτεϊνικών δομών κατατεθειμένων στην PDB, οι οποίες έχουν προσδιοριστεί σε διακριτικότητα καλύτερη από 3 A. Μη πρωτεϊνικές δομές, μοντέλα και Cα δομές δεν έχουν συμπεριληφθεί. Τέσσερα κύρια επίπεδα χρησιμοποιούνται στην ταξινόμηση αυτή: τα επίπεδα Τάξης (Class), Αρχιτεκτονικής (Architecture), Τοπολογίας (fold family) και Ομόλογης Υπέρ-οικογένειας (Homologous superfamily).

Επίσης, μετά από μελέτες ομολογίας πρωτεϊνών της ίδιας λειτουργίας έχουν εντοπιστεί διατηρημένα μοτίβα στις αμινοξικές τους ακολουθίες (Patterns), τα οποία χαρακτηρίζουν τις πρωτεΐνες της οικογένειας και είναι ταξινομημένα στη βάση δεδομένων PROSITE (Bairoch et al, 1997).

ΑΝΑΓΚΗ ΑΝΑΠΤΥΞΗΣ ΠΡΟΓΝΩΣΤΙΚΩΝ ΜΕΘΟΔΩΝ

Είναι πλέον γνωστό ότι η λειτουργικότητα (βιολογική δράση) των πρωτεϊνών εξαρτάται κυρίως από την στερεοδιάταξη τους (δομή τους στο χώρο), από τον τρόπο δηλ. με τον οποίο η γραμμική αμινοξική τους ακολουθία αναδιπλώνεται στο χώρο. Η τρισδιάστατη δομή μερικών χιλιάδων πρωτεϊνών σε ατομική ή περίπου ατομική διακριτικότητα, αποκαλύφθηκε με μεθόδους κρυσταλλογραφίας ακτίνων-Χ μονοκρυστάλλων (Sussman et al., 1998). Αυτές οι μέθοδοι είναι δαπανηρές, επίπονες και χρονοβόρες. Επίσης απαιτούν τη χρήση μονοκρυστάλλων, που δεν δημιουργούνται εύκολα για αρκετές πρωτεΐνες. Επομένως, προέκυψε η ανάγκη να ληφθούν πληροφορίες για το πρωτεϊνικό δίπλωμα με άλλες μεθόδους.

Τις τελευταίες δύο δεκαετίες, οι αμινοξικές ακολουθίες περισσότερων από 70.000 πρωτεϊνών είναι γνωστές (Bairoch and Apweiler, 1998). Αφού τα πειραματικά δεδομένα σαφέστατα δείχνουν ότι όλη η αναγκαία πληροφορία ώστε μια πρωτεΐνη να διπλωθεί στην φυσική της στερεοδομή είναι κωδικοποιημένη στην γραμμική αμινοξική της ακολουθία (Anfinsen, 1973), έγιναν πολλές προσπάθειες ώστε να προβλεφθεί η δομή μια πρωτεΐνης από την αμινοξική της ακολουθία (Rost and Sander, 1994; Rost and Sander, 1996), αλλά με περιορισμένη επιτυχία μόνο. Επίσης, πρόσφατα, τα λεγόμενα προγράμματα προσδιορισμού της πλήρους ακολουθίας του DNA (γονιδιώματος) για πολλούς οργανισμούς, μεταξύ των οποίων και του ανθρώπου (genome projects), επομένως και όλων των πρωτεϊνών που κωδικοποιεί, έχουν ως αποτέλεσμα να συσσωρεύονται τεράστια ποσά πληροφοριών σχετικά με τις ακολουθίες χιλιάδων πρωτεϊνών , με ιλιγγιώδεις ρυθμούς (Bork et al. 1994). Ένα μεγάλο ποσοστό (40-50%) αυτών των πρωτεϊνών που προσδιορίζονται από την αναγνώριση των ORF (Open Reading Frames, γονιδίων) είναι τελείως άγνωστης λειτουργίας. Η Τεχνολογική Επανάσταση στον τομέα των Υπολογιστικών Συστημάτων και της Πληροφορικής, παρέχει σήμερα αξιόλογα εφόδια για τη δημιουργία νέων αλλά και τη βελτίωση παλαιών προγνωστικών αλγορίθμων και μεθόδων.

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΠΡΟΓΝΩΣΤΙΚΩΝ ΜΕΘΟΔΩΝ

ΝΕΕΣ ΠΛΗΡΟΦΟΡΙΕΣ - ΝΕΟΙ ΚΑΝΟΝΕΣ

Γενική πρόγνωση της δομής από την ακολουθία δεν έχει επιτευχθεί ακόμη, αφού δεν έχει καταστεί δυνατή η απόλυτη συσχέτιση ακολουθίας-δομής. Παρά το γεγονός αυτό, αποκαλύπτονται διαρκώς κάποιοι κανόνες, αξιοποιώντας τις ολοένα αυξανόμενες πληροφορίες από πειραματικά προσδιορισμένες πρωτεϊνικές δομές.

Αρχικά, γίνεται εμφανές ότι ο αριθμός των διακεκριμένων προτύπων για το δίπλωμα είναι πεπερασμένος (Chothia C., 1992; Finkelstein A.V.and Reva B.A, 1992): μάλιστα είναι εξαιρετικά μικρότερος από αυτόν που θα ανέμενε κανείς, λόγω της αφθονίας των διαφορετικών συνδυασμών με τους οποίους μπορούν αμινοξικά κατάλοιπα να συνθέσουν πολυπεπτιδικές αλυσίδες (π.χ. για αλληλουχία 100 καταλοίπων υπάρχουν 20 δυνατοί διαφορετικοί συνδυασμοί πρωτοταγούς δομής). Πάντως, η ιδέα της ομοιότητας ανάμεσα στα πρότυπα αυτά δεν είναι ακόμη αυστηρά καθορισμένη (Sippl, 1982; Zu-Kang and Sippl, 1996). Στις μέρες μας, το πλήθος των πειραματικά διαπιστωμένων διάκριτων δομών είναι ~300 (Holm and Sander, 1996b; Hubbard et al., 1997; Orengo et al., 1997).

Βασισμένοι σε αυτό τον υπολογισμό και στις πρόσφατες αναλύσεις ολόκληρων χρωμοσωμάτων - γονιδιωμάτων, εκτιμάται ότι ο συνολικός αριθμός διαφορετικών διπλωμάτων είναι της τάξης του 10³.

Η ΠΡΩΤΟΤΑΓΗΣ ΔΟΜΗ ΚΑΘΟΡΙΖΕΙ ΤΟ ΔΙΠΛΩΜΑ ΤΩΝ ΠΡΩΤΕΪΝΩΝ

Αφού τα πειραματικά δεδομένα οδηγούν με όλο και μεγαλύτερη βεβαιότητα στη διαπίστωση ότι η απαραίτητη πληροφορία για το δίπλωμα μιας πρωτεΐνης υπάρχει στην πρωτοταγή της δομή (Anfinsen, 1973), πολλές προσπάθειες έχουν γίνει μέχρι σήμερα για την πρόγνωση της 3D-δομής (και κατ΄ επέκταση της λειτουργικότητας) των πρωτεϊνών από την ακολουθία και μόνο. Σημαντικό γεγονός, που ενισχύει τη θεώρηση αυτή, είναι η παρατήρηση πως πρωτεΐνες με πολύ μικρή ομολογία (μικρότερη από 30%) σε επίπεδο αμινοξικής ακολουθίας, φαίνεται να έχουν το ίδιο δίπλωμα στο χώρο και την ίδια λειτουργία. Στην πράξη, η μεγάλη πλειοψηφία ζευγών πρωτεϊνών με παρόμοιες δομές παρουσιάζουν σχετικά χαμηλή ομολογία στην πρωτοταγή τους δομή (Rost, 1997, Rost, et al., 1998). Δηλαδή, η πρωτεϊνική δομή είναι περισσότερο διατηρημένη από την ακολουθία (Chothia and Lesk, 1986, Doolittle, 1986, Lesk, 1991).

Παρ΄ όλα αυτά, είναι δυνατόν πρωτεΐνες όμοιες σε μεγάλο βαθμό να έχουν εντελώς διαφορετικούς βιολογικούς ρόλους. Χαρακτηριστικό παράδειγμα είναι η κρυσταλλίνη στο φακό του οφθαλμού (με καθαρά δομικό ρόλο) η οποία είναι εμφανές προϊόν πρόσφατης εξέλιξης από μεταβολικά ένζυμα (Piatigorsky and Wistow, 1989). Επίσης, σε αρκετές περιπτώσεις, δομική ή ακόμη και λειτουργική ομοιότητα εμφανίζεται για περιορισμένα τμήματα (domains : αυτοτελή δομικά στοιχεία) πρωτεϊνών. Για παράδειγμα η ύπαρξη προτύπου "δακτύλου ψευδαργύρου" (Zink-finger motif), είναι μια καλή ένδειξη πως η συγκεκριμένη περιοχή είναι δυνατό να προσδένεται σε DNA ή RNA, δε μπορούμε, όμως, να αποκλείσουμε απόλυτα την πιθανότητα ώστε, συνολικά, η πρωτεΐνη να συμμετέχει σε κάποια άλλη βιολογική λειτουργία. Συνεπώς, οφείλει κανείς να είναι ιδιαίτερα προσεκτικός όταν προσπαθεί να επεκτείνει τα συμπεράσματά του και στη λειτουργία των πρωτεϊνών.

ΠΡΟΤΥΠΑ ΥΠΕΡ-ΔΕΥΤΕΡΟΤΑΓΟΥΣ ΔΟΜΗΣ ΕΙΝΑΙ ΔΥΝΑΤΟΝ ΝΑ ΚΑΘΟΡΙΣΟΥΝ ΤΗ ΒΙΟΛΟΓΙΚΗ ΛΕΙΤΟΥΡΓΙΑ

Συνδυασμοί στοιχείων δευτεροταγούς δομής, με συγκεκριμένη γεωμετρική διευθέτηση, εμφανίζονται συχνά σε δομές πρωτεϊνών. Τέτοιοι συνδυασμοί αποτελούν την υπερ-δευτεροταγή δομή και ορισμένοι από αυτούς συσχετίζονται άμεσα με συγκεκριμένες λειτουργίες. Για παράδειγμα, ο συνδυασμός helix-loop-helix αποτελεί ένα μοτίβο για πρόσδεση σε DNA (Gibson et al., 1993). Έτσι, επιτυχής πρόγνωση των στοιχείων δευτεροταγούς δομής δύναται να βοηθήσει στην αποκάλυψη τέτοιων σχηματισμών ανώτερης τάξης που παραπέμπει, συχνά, σε καθορισμένους βιολογικούς ρόλους.

HOMOLOGY MODELING - THREADING: ΛΥΣΕΙΣ(?) ΣΤΟ ΠΡΟΒΛΗΜΑ ΤΟΥ ΠΡΩΤΕΪΝΙΚΟΥ ΔΙΠΛΩΜΑΤΟΣ

Τα τελευταία χρόνια, με τον προσδιορισμό αλληλουχιών από αρκετά γονιδιώματα, το 'χάσμα' μεταξύ των αμινοξικών ακολουθιών που βρίσκονται κατατεθειμένες σε ελεύθερα προσβάσιμες τράπεζες δεδομένων, π.χ. SWISS-PROT και των λυμένων κρυσταλλογραφικά πρωτεϊνικών δομών (κατατεθειμένων στην PDB) διαρκώς αυξάνεται. Στις αρχές του 1998, γνωρίζαμε ήδη όλες τις ακολουθίες για δώδεκα ολόκληρα γoνιδιώματα (Gaasterland, 1997), ενώ τη στιγμή που γραφόταν η άσκηση 21 πλήρη γονιδιώματα βρίσκονται κατατεθειμένα σε βάσεις δεδομένων με ελεύθερη πρόσβαση, (Kyrpides, 1999). Αναφέρεται, ότι στην προσπάθεια να γεφυρωθεί αυτό το χάσμα η πιο επιτυχής θεωρητική προσέγγιση είναι το 'Homology Modelling', ενώ πολύ ελπιδοφόρο για το μέλλον το 'Threading'. Στη συνέχεια, παρουσιάζονται οι βασικές αρχές αυτών των μεθόδων και τα αποτελέσματά τους, τα οποία αν και εντυπωσιάζουν με την πρώτη ματιά, πρέπει να μην υπερεκτιμούνται.

Homology Modelling

Εφαρμόζεται σε μια πρωτεΐνη άγνωστης δομής, αν βρεθεί ομόλογή της με λυμένη δομή.

Βασική αρχή

Ανάλυση των στοιχίσεων μεταξύ ακολουθιών με γνωστές δομές αναδεικνύει ότι ζευγάρια πρωτεϊνών με μεγαλύτερη ομοιότητα από 30% (για μήκη στοίχισης > 80 καταλοίπων) (Eisenberg et al., 1984) έχουν ομόλογες 3D-δομές, δηλαδή το βασικό δίπλωμά τους είναι όμοιο και μόνο περιοχές με μη καθορισμένη δευτεροταγή δομή ίσως να διαφέρουν. Αν, λοιπόν, διαπιστωθεί ομολογία ανάμεσα σε μια πρωτεΐνη (U) άγνωστης 3D-δομής με μία γνωστής (Τ) τότε μπορεί να μοντελοποιηθεί μια δομή για την (U) με 'εκμαγείο' την (Τ).

Αποτελέσματα-Αξιολόγηση

Με τον τρόπο αυτό έγινε δυνατόν να μεγαλώσει το πλήθος των 'γνωστών' 3D-δομών από 7.000 σε περίπου 50.000 (Rost and Sander, 1996). Η βασική προϋπόθεση είναι ότι η (U) και η (Τ) έχουν ταυτόσημες κύριες αλυσίδες. Η δυσκολία βρίσκεται στη σωστή προσαρμογή των πλευρικών αλυσίδων, πρόβλημα του οποίου η επίλυση επιβάλει τη χρήση ενεργειακών υπολογισμών, καθώς και δεδομένων για όλες τις διευθετήσεις πλευρικών αλυσίδων σε λυμένες πρωτεϊνικές δομές.

Threading

Στην περίπτωση που δεν εμφανίζεται υψηλή ομολογία, τεχνικές 'Threading' (ή Remote Homology Modelling, όπως αλλιώς αναφέρονται) είναι δυνατόν να αποκαλύψουν 'απομακρυσμένες' ομολογίες, οι οποίες δεν ανιχνεύονται με τη χρήση συμβατικών μεθόδων στοίχισης ακολουθιών.

Βασική αρχή

Με δεδομένη την ύπαρξη πολλών πρωτεϊνών στην PDB με ομολογίες μικρότερες από 25% αλλά 'ομόλογες' δομές, ορίστηκε η έννοια της 'απομακρυσμένης ομολογίας'. Η ιδέα είναι να ανιχνευθεί αυτή η απομακρυσμένη ομολογία και κατά τον ίδιο τρόπο με τη μέθοδο του Homology Modelling να μοντελοποιηθεί μια δομή για την άγνωστη πρωτεΐνη. Υπάρχουν διαφορετικά είδη τέτοιων μεθόδων, που ξεχωρίζουν μεταξύ τους κυρίως ως προς τον τρόπο προσδιορισμού της 'ομολογίας'.

Αποτελέσματα-Αξιολόγηση

Για να επιτύχει η διαδικασία του Threading είναι αναγκαίο να ξεπεραστούν 3 κύριες δυσκολίες:

1. Διαπίστωση της απομακρυσμένης ομολογίας

2. Ορθή στοίχιση των ακολουθιών

3. Χαμηλή πραγματική ομολογία, που δυσκολεύει την εύρεση της σωστής δομής, ιδίως στα τμήματα με μη κανονική δευτεροταγή δομή.

Απομακρυσμένες ομολογίες ανιχνεύονται πολύ συχνά, όμως καμία μέθοδος δεν κατορθώνει να εντοπίσει περισσότερες από τις μισές από αυτές τις περιπτώσεις σε μια προεπιλεγμένη ομάδα πρωτεϊνών που χρησιμοποιείται για αξιολόγηση των μεθόδων (Lemer, C. et al., 1995).

Συμπεράσματα

Παρόλο που οι μέθοδοι του 'Homology Modelling' και του 'Threading' δίνουν ορισμένες φορές εντυπωσιακά αποτελέσματα, δεν είναι δυνατό να θεωρήσουμε πως έχει λυθεί το πρόβλημα του διπλώματος των πρωτεϊνών. Ακόμη κι αν θεωρήσουμε πως υπάρχει μεγάλο ποσοστό επιτυχίας στην εύρεση των ομόλογων ακολουθιών, το παραμικρό σφάλμα κατά τη στοίχισή τους δε γίνεται να διορθωθεί στο τρίτο στάδιο της μοντελοποίησης. Αν και οι μέθοδοι αυτές αφήνουν μεγάλες υποσχέσεις για το μέλλον, είναι επικίνδυνο να υπερεκτιμηθούν τα αποτελέσματά τους. Για το λόγο αυτό, πολύ συχνά καταφεύγουμε σε απλουστευμένες προγνώσεις, που μπορεί να μη δίνουν 3D-δομές αλλά αποκαλύπτουν συχνά σημαντικά μυστικά για τη δομή των πρωτεϊνών.

ΑΠΛΟΠΟΙΗΜΕΝΕΣ ΠΡΟΓΝΩΣΕΙΣ ΣΕ ΜΙΑ Ή ΔΥΟ ΔΙΑΣΤΑΣΕΙΣ: Μια ικανοποιητική προσέγγιση στο πρόβλημα του 'διπλώματος'

Για τις περισσότερες πρωτεΐνες δεν είναι εφαρμόσιμες οι μέθοδοι του 'Homology Modelling' και του 'Threading' και η πρόγνωση που επιθυμούμε πρέπει να γίνει σε ένα απλοποιημένο επίπεδο: Μονοδιάστατες (1D) προγνώσεις (δευτεροταγούς δομής, διαμεμβρανικών τμημάτων, έκθεσης στο διαλύτη) είναι δυνατές, με αξιόλογα πολλές φορές αποτελέσματα. Σύμφωνα με πρόσφατες εργασίες, φαίνεται πιθανό ότι με τη χρήση 'εξελικτικής' πληροφορίας η απόδοσή τους βελτιώνεται αισθητά. Δισδιάστατες (2D) προγνώσεις (αλληλεπίδρασης μεταξύ απομακρυσμένων στην πρωτοταγή δομή καταλοίπων, δισουλφιδικών δεσμών) έχουν, προς το παρόν, μικρή ακρίβεια.

Πρόγνωση Δευτεροταγούς Δομής

Βασική αρχή

Η κεντρική ιδέα, γύρω από την οποία περιστρέφονται οι περισσότερες μέθοδοι πρόγνωσης δευτεροταγούς δομής, είναι το γεγονός ότι τμήματα διαδοχικών καταλοίπων έχουν προτιμήσεις να βρίσκονται σε συγκεκριμένες καταστάσεις δευτεροταγούς δομής (Szent-Gyοrgyi and Cohen, 1957, Blout et al., 1960, Scheraga, 1960, Chou and Fasman, 1978, Garnier et al., 1978). Επομένως, το πρόβλημα στην ουσία ανάγεται σε πρόβλημα αναγνώρισης προτύπων (pattern recognition) και αντιμετωπίζεται με τη χρήση αντίστοιχων αλγορίθμων. Μία συνηθισμένη προσέγγιση στο ζήτημα είναι να επιτευχθεί πρόγνωση για το κεντρικό κατάλοιπο μιας περιοχής με τυπικό εύρος 11-25 γειτονικών καταλοίπων. Συνήθως, η πρόγνωση γίνεται μεταξύ τριών καταστάσεων:

1. α-έλικα	(α-helix => H)
2. β-πτυχωτή επιφάνεια	(β-sheet => Ε)
3. τίποτε απ΄τα παραπάνω	('coil' ή 'loop'=> L)

Πολλοί διαφορετικοί αλγόριθμοι αναπτύχθηκαν γι' αυτό το σκοπό, βασιζόμενοι σε φυσικοχημικές αρχές, θεωρεία γράφων, στατιστική, νευρωνικά δίκτυα, πολλαπλές στοιχίσεις ακολουθιών κ.α., αλλά η επιτυχία τους έχει αποδειχθεί μάλλον περιορισμένη (Kabsch and Sander, 1983a). Στην πράξη έχει φανεί πως συνδυαστικές μέθοδοι πρόγνωσης δίνουν μεγαλύτερα ποσοστά επιτυχίας από τις μεμονωμένες μεθόδους (Schultz et al., 1974; Argos et al., 1976).

Αποτελέσματα-Αξιολόγηση

Οι μέθοδοι αξιολογούνται ως προς την αξιοπιστία τους με βάση λυμένες δομές πρωτεϊνών, κατατεθειμένων στην PDB. Ο προσδιορισμός της δευτεροταγούς δομής μπορεί να πραγματοποιηθεί για γνωστές 3D-δομές λαμβάνοντας υπ' όψη τη θέση στο χώρο των ατόμων που την απαρτίζουν, καθώς και το 'πρότυπο σχηματισμού Η-δεσμών' του καρβονυλίου (C=O) της κύριας αλυσίδας και των αμιδικών ομάδων (ΝΗ). Η μέθοδος DSSP (Kabsch and Sander, 1983b) καθορίζει 8 διαφορετικά στοιχεία δευτεροταγούς δομής τα οποία ανάγονται στις 3 γενικές κλάσσεις Η,Ε,L, που αναφέρθηκαν προηγούμενα, όπως φαίνεται στον ΠΙΝΑΚΑ 1,

ΠΙΝΑΚΑΣ 1

DSSP	Τύπος	Ανηγμένο στοιχείο
H	α-helix	H
G	3₁₀-helix	H
I	π-helix	H
E	Extnded (β-strand)	E
B	Residue in isolated β-bridge	E
T	Turn	L
S	Bend	L
-	Other	L

με τις επόμενες παραδοχές:

Β- => ΕΕ , ενώ Β-Β => LLL

Είναι σημαντικό να παρατηρήσει κανείς ότι, αλλαγή στην αντιστοίχιση των κλάσεων της DSSP επιφέρει αλλαγή και στην εκτιμούμενη αξιοπιστία, η οποία μπορεί να υπολογιστεί:

Ανά-κατάλοιπο (τριών-καταστάσεων) : Eίναι ο απλούστερος και ευρύτερα διαδεδομένος τρόπος. Δίνεται από τη σχέση

(1)

όπου Cj το πλήθος των καταλοίπων που προβλέφθηκαν σωστά στην κατάσταση j(H,E,L) και Ν το συνολικό πλήθος καταλοίπων της ακολουθίας.

Ανά-στοιχείο δευτεροταγούς δομής : Γίνεται με

Α) Μέτρηση του συνολικού πλήθους στοιχείων στην πρωτεΐνη.

Β) Υπολογισμό του μέσου μήκους τους,

και

Γ) Εύρεση της κατανομής του πλήθους στοιχείων σε συνάρτηση με το μήκος (Rost and Sander, 1993).

Τα τρία αυτά αποτελέσματα συσχετίζονται, δίνοντας χρήσιμες επιπλέον πληροφορίες από την ανά-κατάλοιπο εκτιμούμενη αξιοπιστία και χαρακτηρίζουν τα αποτελέσματα των προγνώσεων, ιδιαίτερα σε περιπτώσεις προγνώσεων με υψηλό δείκτη Q3 που δεν αντιστοιχούν σε πραγματική κατανομή των προβλεφθέντων τμημάτων. Σήμερα, οι μέθοδοι πρόγνωσης δευτεροταγούς δομής δίνουν αποτελέσματα με Q3 < 70%, ποσοστό που αν και φαίνεται μικρό αποκαλύπτει συχνά πολύ σπουδαίες δομικές και, κατά συνέπεια, λειτουργικές πληροφορίες.

Πρόγνωση Δομής Διαμεμβρανικών Πρωτεϊνών

Βασική αρχή

Μία πρώτη κατάταξη των πρωτεϊνών θα μπορούσε να διαχωρίσει τις πρωτεΐνες των οργανισμών σε σφαιρικές-υδατοδιαλυτές, σε δομικές, σε πρωτεΐνες με ιδιότητες ανάμεικτες με τις προηγούμενες δύο κατηγορίες (δομικές-σφαιρικές) και σε πρωτεΐνες μεμβρανών. Η τελευταία κατηγορία είναι εξαιρετικά ενδιαφέρουσα για πολλούς λόγους που θα αναφερθούν παρακάτω.

Μια διαμεμβρανική πρωτεΐνη αποτελείται, συνήθως, από ένα τμήμα "βυθισμένο" στην λιπιδική διπλοστοιβάδα - μεβράνη, και δύο άλλα τμήματα, ένα στον εξωκυττάριο χώρο, και ένα στον ενδοκυττάριο χώρο-κυτταρόπλασμα, στην γενική περίπτωση μιας πρωτεΐνης μεμβράνης κυτταρικής επιφάνειας (Σχήμα 1).

Σχήμα 1

Η ακολουθία της μπορεί να "διαπερνάει" την λιπιδική διπλοστοιβάδα μία ή περισσότερες φορές, με άλλα λόγια μπορεί να έχει ένα ή περισσότερα διαμεμβρανικά τμήματα.

Ακόμη και με το υπέρ-αισιόδοξο σενάριο ότι στο άμεσο μέλλον ο πειραματικός προσδιορισμός της δομής των πρωτεϊνών θα αποτελεί υπόθεση ρουτίνας, για την τάξη των διαμεμβρανικών πρωτεϊνών δεν αναμένεται ριζική διαφοροποίηση από τα όσα μέχρι σήμερα ισχύουν. Είναι πολύ δύσκολο, για τη συντριπτική τους πλειοψηφία, να δώσουν μονοκρυστάλλους κατάλληλους για κρυσταλλογραφία ακτίνων-Χ (Persson and Argos, 1994; Aloy et al., 1997, Sussman et al., 1998), ενώ δίνουν συνήθως φτωχές πληροφορίες με τη φασματοσκοπία Πυρηνικού Μαγνητικού Συντονισμού (NMR). Επομένως, υπάρχουν πολύ λίγα δομικά δεδομένα, σε ατομική διακριτικότητα, ακόμη και στις μέρες μας. Τρισδιάστατες δομές σε υψηλή (ατομική) διακριτικότητα υπάρχουν για λίγες τέτοιες πρωτεΐνες (π.χ Photosynthetic Reaction Center, Βακτηριοροδοψίνη, Πορίνη) και σε χαμηλότερη διακριτικότητα (π.χ Plant light-harvesting complex II, Photosystem I, Nicotinic acetylocholine receptor).

Συνεπώς, για την κατηγορία αυτών των πρωτεϊνών οι προγνωστικές μέθοδοι είναι ακόμη πιο αναγκαίες από ότι για σφαιρικές-υδατοδιαλυτές πρωτεΐνες. Αν λάβουμε υπόψην τον περιορισμό στους βαθμούς ελευθερίας που επιβάλλουν τα διαμεμβρανικά τμήματα, γίνεται αυτονόητο πως στη συνέχεια η διαδικασία πρόγνωσης του διπλώματος είναι απλούστερη από ότι στις σφαιρικές πρωτεΐνες.

Μεγάλος αριθμός μεθόδων έχει σχεδιαστεί για τον προσδιορισμό της θέσης αλλά και της τοπολογίας διαμεμβρανικών τμημάτων σε μεμβρανικές πρωτεΐνες (von Heijne,1992; Persson and Argos, 1994; Cserzo et al., 1997). Οι πρώτες προσπάθειες στον τομέα αυτό, βασίζονταν σε υδροφοβική ανάλυση των ακολουθιών, για να εκμεταλλευτούν την προτίμηση που υπάρχει σε υδρόφοβα αμινοξικά κατάλοιπα μέσα στη λιπιδική διπλοστοιβάδα, εξαιτίας των ευνοϊκών αλληλεπιδράσεών τους με τις αλειφατικές περιοχές των λιπιδίων. Στην περίπτωση αυτή, ενώ οι περισσότερες διαμεμβρανικές περιοχές εντοπίζονται (von Heijne, 1992), έχουμε και αρκετές λανθασμένες προβλέψεις, οι οποίες αντιστοιχούν σε μη διαμεμβρανικά τμήματα με υψηλή υδροφοβικότητα.

Νεώτερες μέθοδοι, που βασίζονται σε πολλαπλές στοιχίσεις ομόλογων πρωτεϊνών δίνουν αισθητά βελτιωμένα αποτελέσματα, αποτυγχάνουν όμως όταν δεν βρίσκονται ομολογίες στις βάσεις δεδομένων. Στατιστικοί αλγόριθμοι, μπορούν να βοηθήσουν στην απόρριψη των ψευδών σημάνσεων, εντοπίζοντας πρότυπα που χαρακτηρίζουν τις διαμεμβρανικές περιοχές. Συνδυαστικοί αλγόριθμοι πρόγνωσης, δίνουν και εδώ αποτελέσματα με μεγαλύτερα ποσοστά αξιοπιστίας. Εξαιρετικό ενδιαφέρον έχουν επίσης αλγόριθμοι που αποσκοπούν στην πρόγνωση του προσανατολισμού των μη διαμεμβρανικών τμημάτων, στον ενδοκυττάριο ή εξωκυττάριο χώρο (για πρωτεΐνες της κυτταρικής μεμβράνης).

Σήμερα, η ανάγκη για καλύτερους και ταχύτερους αλγορίθμους πρόγνωσης, σε αυτόν τον τομέα, γίνεται επιτακτική, αν αναλογιστούμε τον τεράστιο όγκο πληροφοριών που διαρκώς συσσωρεύονται σε Βάσεις Δεδομένων πρωτεϊνικών ακολουθιών. Ενδεικτικά αναφέρουμε πως οι κατατεθειμένες στη SwissProt ακολουθίες διαμεμβρανικών πρωτεϊνών ήταν περίπου 2300 το 1994, ενώ σήμερα ξεπερνούν τις 10000. Το γεγονός ότι ο χρόνος που απαιτείται για να γίνει ανάλυση 'In Silico', με τη βοήθεια γρήγορων υπολογιστικών συστημάτων, είναι εξαιρετικά μικρότερος απ' αυτόν που θα απαιτούσαν οι πειραματικές μέθοδοι, στρέφει την προσοχή πολλών ερευνητών προς αυτήν ακριβώς την πλευρά.

Αποτελέσματα-Αξιολόγηση

Η έλλειψη δομικών δεδομένων για την κατηγορία των διαμεμβρανικών πρωτεϊνών μας αναγκάζει να υπολογίζουμε την αξιοπιστία των μεθόδων με βάσει τις καταχωρήσεις στην τράπεζα δεδομένων SWISS-PROT, παρόλο που υπάρχουν αρκετές διαφωνίες σε σχέση με την ακρίβεια των δεδομένων που αφορούν τις θέσεις των διαμεμβρανικών περιοχών (Cserzo et al., 1997). Κατά πλήρη αντιστοιχία με τις προγνώσεις δευτεροταγούς δομής η απόδοση των διαφόρων αλγορίθμων μπορεί να εκφραστεί ως εξής:

Ανά-κατάλοιπο(δύο καταστάσεων) : Ένα αμινοξικό κατάλοιπο, στην πρόγνωση που μας ενδιαφέρει, έχει δύο δυνατές καταστάσεις, δηλαδή να είναι διαμεμβρανικό (Τ) ή όχι (-). Τότε ανάλογα μπορούμε να υπολογίσουμε το δείκτη

(2)

όπου Cj το πλήθος των καταλοίπων που προβλέφθηκαν σωστά σε μια δεδομένη κατάσταση j (T ή -) και Ν το συνολικό πλήθος καταλοίπων της ακολουθίας.

Ανά-διαμεμβρανικό τμήμα : Γίνεται με

Α) Μέτρηση του συνολικού πλήθους διαμεμβρανικών τμημάτων στην πρωτεΐνη.

Β) Υπολογισμό του μέσου μήκους τους,

και

Γ) Εύρεση της κατανομής του πλήθους διαμεμβρανικών τμημάτων σε συνάρτηση με το μήκος τους.

Η πρόγνωση της θέσης των διαμεμβρανικών τμημάτων γίνεται με αρκετά μεγάλη ακρίβεια. Υπάρχουν πολλές περιπτώσεις που επιτυγχάνονται αποτελέσματα με Q2 >> 90% . Βέβαια, οι μέσοι δείκτες αξιοπιστίας επηρεάζονται από την επιλογή του δειγματικού χώρου και φυσικά από τυχόν ανακρίβειες στις καταχωρήσεις της SWISS-PROT.

ΠΡΑΚΤΙΚΟ ΜΕΡΟΣ

ΜΕΡΟΣ Α:

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΔΟΜΙΚΗΣ ΚΑΙ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ ΚΑΙ ΕΡΓΑΛΕΙΑ ΑΝΑΛΥΣΗΣ ΣΤΟ ΔΙΑΔΙΚΤΥΟ (INTERNET)

ΠΡΟΣΒΑΣΗ ΣΤΑ ΔΕΔΟΜΕΝΑ

Στο πρώτο μέρος της άσκησης θα έχουμε πρόσβαση, μέσω του διαδικτύου, σε βάσεις δεδομένων, από τις οποίες θα έχουμε την ευκαιρία να 'αντλήσουμε' κάποιες πρωτεϊνικές ακολουθίες. Στη συνέχεια, θα επεξεργαστούμε την πρωτογενή αυτή πληροφορία με προγράμματα λογισμικού (εργαλεία ανάλυσης – analysis tools), που είναι επίσης ελεύθερα προσβάσιμα μέσω του Internet.

Αρχικά, με το φυλλομετρητή δικτύου που διαθέτουμε (Internet Explorer, Netscape, κλπ) επισκεπτόμαστε την κεντρική σελίδα που ετοιμάστηκε για τη διεξαγωγή της άσκησης στη διεύθυνση (URL):

http://biophysics.biol.uoa.gr/doc/links.html

στην οποία είναι δυνατόν να επανερχόμαστε επιλέγοντας 'Home' ή 'Αρχική' σελίδα, ανάλογα με το φυλλομετρητή (Web-Browser).

Συνεχίζουμε τη φυλλομέτρησή μας στα Ελληνικά.

Από τη σελίδα με τις 'Βιοφυσικές Συνδέσεις' επιλέγουμε 'Βάσεις Πρωτεϊνικών Δεδομένων και εργαλεία για το χειρισμό τους' και εν συνεχεία 'SRSWWW5' που είναι ένα χρήσιμο εργαλείο για πρόσβαση σε 'πληροφορίες' σε διάφορες βάσεις δεδομένων Μοριακής Βιολογίας.

Αφού ξεκινήσουμε την εφαρμογή (κουμπί START) εμφανίζεται στην οθόνη μας ένας κατάλογος επιλογής των βάσεων δεδομένων με τις οποίες επιθυμούμε να εργαστούμε. Επιλέγουμε τη 'SwissProt' (πατώντας στο αντίστοιχο κουτάκι) που περιέχει πρωτεϊνικές ακολουθίες και χρήσιμα σχόλια, και συνεχίζουμε (κουμπί CONTINUE).

Τώρα μπορούμε να πραγματοποιήσουμε την αναζήτησή μας, τροφοδοτώντας τις περιοχές κειμένου που μας παρέχονται με τα στοιχεία των πρωτεϊνών που μας ενδιαφέρουν. Συγκεκριμένα, κάθε ομάδα θα πραγματοποιήσει αναζήτηση με λέξη κλειδί DHFR σε όλο το κείμενο (All Text) των καταχωρήσεων της SwissProt. Για να χωρέσουν τα αποτελέσματα της αναζήτησής σας σε μια σελίδα επιλέξτε να έχετε προβολή ανά 100 καταχωρήσεις (Entry List in chunks of 100).

Πατώντας 'Do Query' αρχίζει η αναζήτηση.

Κάθε ομάδα θα σώσει (SAVE) στη συνέχεια σε FASTA-format μια ακολουθία κατά άτομο στον κατάλογο:

C:\Sequences\[seq-name].seq

όπου '[seq-name]' το όνομα της ακολουθίας.

Όλες οι ομάδες θα σώσουν υποχρεωτικά την DYR_LACCA. Η αναζήτηση των ακολουθιών έχει τελειώσει, αν και το συγκεκριμένο πρόγραμμα δίνει τη δυνατότητα για περισσότερο επιλεκτικές αναζητήσεις.

Επιστρέφουμε στην αρχική σελίδα.

ΑΝΑΖΗΤΗΣΗ ΟΜΟΛΟΓΙΑΣ

Ένα πρώτο βήμα στη μελέτη μιας 'άγνωστης' πρωτεΐνης είναι η αναζήτηση πιθανών ομολογιών μέσα στις βάσεις πρωτεϊνικών δεδομένων.

Από τις επιλογές 'Εργαλεία Ανάλυσης Ακολουθιών' επιλέγουμε το BLAST (Basic Local Alignment Search Tool, Altschul, et al. 1990) και πραγματοποιούμε 'Απλή Αναζήτηση' με το BLAST2.0, έναντι της 'nrdb', η οποία περιέχει τη μαθηματική ένωση (χωρίς διπλές καταχωρήσεις) των καταχωρήσεων σημαντικών βάσεων πρωτεϊνικών δεδομένων.

ΠΑΡΑΤΗΡΗΣΕΙΣ

> Η ακολουθία πρέπει να εισαχθεί σε FASTA format.

> Είναι σημαντικό να γίνει κατανοητή η διαφορά των αποτελεσμάτων όταν έχει επιλεχθεί 'ungapped alignment'.

> Η προεπιλογή φίλτρου για περιοχές χαμηλής πολυπλοκότητας κάνει περισσότερο ευαίσθητο και αποδοτικό τον αλγόριθμο και καλό είναι να παραμείνει επιλεγμένο.

Ερώτηση:

Ποιο από τα προγράμματα που είναι διαθέσιμα πρέπει να χρησιμοποιήσουμε για να εντοπίσουμε ομολογία με άλλες πρωτεϊνικές ακολουθίες;

Παράδειγμα αποτελέσματος για την DYR_LACCA (Query) σε αντιπαραβολή με τον εαυτό της (Subject):

Score = 310 bits (785), Expect = 4e-84 Identities = 148/162 (91%), Positives = 148/162 (91%) Query: 1 TAFLWAQDRDGLIGKDGHLPWHLPDDLHYFRAQTVGKIMVVGRRTYESFPKRPLPERTNV 60 TAFLWAQDRDGLIGKDGHLPWHLPDDLHYFRAQTVGKIMVVGRRTYESFPKRPLPERTNV Sbjct: 2 TAFLWAQDRDGLIGKDGHLPWHLPDDLHYFRAQTVGKIMVVGRRTYESFPKRPLPERTNV 61 Query: 61 VLTHQEDYQAQGXXXXXXXXXXXXXXKQHLDQELVIAGGAQIFTAFKDDVDTLLVTRLAG 120 VLTHQEDYQAQG KQHLDQELVIAGGAQIFTAFKDDVDTLLVTRLAG Sbjct: 62 VLTHQEDYQAQGAVVVHDVAAVFAYAKQHLDQELVIAGGAQIFTAFKDDVDTLLVTRLAG 121 Query: 121 SFEGDTKMIPLNWDDFTKVSSRTVEDTNPALTHTYEVWQKKA 162 SFEGDTKMIPLNWDDFTKVSSRTVEDTNPALTHTYEVWQKKA Sbjct: 122 SFEGDTKMIPLNWDDFTKVSSRTVEDTNPALTHTYEVWQKKA 163

Η τιμή Expect είναι ένα μέτρο αξιοπιστίας και εκφράζει την πιθανότητα η ομοιότητα που παρατηρείται να είναι τυχαία. Τιμές < e-6 θεωρούνται αρκετά αξιόπιστες ενδείξεις πραγματικής ομολογίας. Η τιμή Identities δείχνει το ποσοστό ταυτόσημων καταλοίπων, ενώ η Positives το συνολικό ποσοστό ταυτόσημων ή παρόμοιων καταλοίπων.

Ερώτηση:

Σε ποιο λόγο οφείλονται οι παρατηρούμενες διαφορές:

a) Του συνολικού αριθμού καταλοίπων (162-163)

b) Των ταυτόσημων καταλοίπων (91%)

Να εντοπίσετε τα αποτελέσματα ομολογίας της DYR_LACCA με τις υπόλοιπες ακολουθίες που έχετε σώσει ανά ομάδα.

Αναζητήστε ομόλογες ακολουθίες με γνωστές δομές. Αυτό γίνεται δυνατόν αν η αναζήτηση πραγματοποιηθεί έναντι της βάσης δεδομένων PDB.

Σώστε τα αποτελέσματα της αναζήτησης σε ένα αρχείο με το όνομα 'Blast.txt' στον κατάλογο 'C:\sequences\' και στη συνέχεια επιστρέφετε στην αρχική σελίδα.

Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ PDB

Στη συνέχεια θα έχουμε πρόσβαση στη Βάση Δεδομένων Πρωτεϊνικών Δομών (PDB). Η πρόσβασή μας στις καταχωρήσεις της είναι δυνατή με τη βοήθεια του προγράμματος 'SRSWWW5', όμως θα έχουμε απευθείας πρόσβαση μέσω του link που βρίσκεται στην 'Αρχική Σελίδα'.

Ένα αρχείο καταχώρησης στην PDB είναι δυνατόν να χωρισθεί σε επιμέρους εγγραφές (records), κάθε μία από τις οποίες αποτελείται από 80 στήλες. Οι 6 πρώτοι χαρακτήρες κάθε εγγραφής κωδικοποιούν το όνομα της, που είναι επεξηγηματικό του περιεχομένου της. Οι διάφοροι τύποι εγγραφών μπορεί να καταλαμβάνουν μία ή περισσότερες γραμμές της καταχώρησης, ενώ ορισμένοι είναι προαιρετικοί.

Ορισμένοι από τους υποχρεωτικούς τύπους εγγραφών παρουσιάζονται με τις περιγραφές τους στο ΠΑΡΑΡΤΗΜΑ Ι.

Επιλέγουμε το link που μας οδηγεί στην Σελίδα εκκίνησης της PDB (Home Page).

Αρχίζουμε την αναζήτησή μας με το πρόγραμμα '3DB Browser'. Θα αναζητήσουμε τη δομή με Κωδικό (PDB-ID) '3DFR', που αντιστοιχεί σε μία χαρακτηριστική δομή DHFR της Lactobacillus Casei, σε σύμπλοκό της με NADPH και Methotrexate.

Η σελίδα με τα αποτελέσματα περιέχει μερικές πολύ βασικές πληροφορίες από τη συνολική καταχώρηση.

Στη συνέχεια από το Menu 'Data retrieval' θα επιλέξετε να έχετε πρόσβαση στα πλήρη δεδομένα με τις ατομικές συντεταγμένες (complete with coordinates).

Προσπαθήστε να αναγνωρίσετε τις βασικές εγγραφές της καταχώρησης με τη βοήθεια του πίνακα στο ΠΑΡΑΡΤΗΜΑ Ι.

Αποθηκεύστε την καταχώρηση σε μορφή απλού κειμένου (Plain Text) στον κατάλογο 'C:\sequences\' με το όνομα '3dfr.pdb'.

Με το κουμπί 'BACK' του φυλλομετρητή σας επιστρέφετε στη σελίδα με τα αποτελέσματά της αναζήτησης, όπου υπάρχουν Σύνδεσμοι σε άλλες ενδιαφέρουσες πληροφορίες σχετικά με την καταχώρησή σας.

Στο Menu 'Sequence-derived information' επιλέξτε την ταξινόμηση στο 'ProtoMap' (classification [DYR_LACCA] at ProtoMap, Yona et. al., 1998). Από εκεί μπορείτε να έχετε στη συνέχεια πρόσβαση στο χαρακτηριστικό μοτίβο της πρωτεΐνης από την PROSITE.

Σώστε σε μορφή απλού κειμένου το μοτίβο αυτό.

Επίσης, με την επιλογή 'Neighbors List', εμφανίζεται ένας κατάλογος ομολόγων πρωτεϊνών, ενώ είναι δυνατόν να δει κανείς στοιχίσεις των ακολουθιών αυτών κατά ζεύγη.

Να διαπιστώσετε την ύπαρξη του χαρακτηριστικού μοτίβου που βρήκατε στην PROSITE.

Επιστρέφοντας στην αρχική σελίδα, μπορείτε να ελέγξετε την ταξινόμηση της '3DFR' στην CATH, από όπου είναι δυνατή η πρόσβαση σε μια αντίστοιχη βάση δεδομένων ταξινόμησης πρωτεϊνικών δομών τη SCOP (Murzin et al., 1995)

ΠΡΟΓΝΩΣΗ ΔΕΥΤΕΡΟΤΑΓΟΥΣ ΔΟΜΗΣ

Από τις διάφορες μεθόδους που είναι διαθέσιμες, θα χρησιμοποιήσουμε τη μέθοδο 'SecStr', που έχει αναπτυχθεί στο εργαστήριό μας (Hamodrakas, 1988, Palaios and Hamodrakas, 1999).

Παράδειγμα αποτελέσματος για την DYR_LACCA:

1 2 3 4 5 6 123456789012345678901234567890123456789012345678901234567890 . | . | . | . | . | . | 00000 HHHHHHHLLLLLLLLLLLLLLLLLLLEEEEEEEEEEEEEEEEEEELLLLLLLLLLLLEEE 00060 EEELLLLLLLLLEEHHHHHHHHHHHHHHHHHHHHEEEEEHHHHHHHHHHHHEEEEEEHHH 00120 HHHHHHHHLLLLLLLLLEELLLLLLLLLLLLLLLLLHHHHHH

Ερώτηση:

Αναγνωρίστε τα διαφορετικά στοιχεία δευτεροταγούς δομής στην παραπάνω πρόγνωση.

Δοκιμάστε να κάνετε πρόγνωση και για τις υπόλοιπες ακολουθίες που έχετε σώσει καθώς και να χρησιμοποιήσετε και άλλες διαθέσιμες μεθόδους.

Σε συνδυασμό με την προηγούμενη μελέτη σας απαντήστε στην παρακάτω ερώτηση: Πιστεύετε ότι η υψηλή ομολογία στο επίπεδο της αμινοξικής ακολουθίας μπορεί να χρησιμοποιηθεί για εξαγωγή δομικών-λειτουργικών συμπερασμάτων για νέες ακολουθίες που προκύπτουν από τα διάφορα 'genome projects'; Δικαιολογήστε την απάντησή σας.

Συγκρίνετε τις προγνώσεις με λυμένες δομές κατατεθειμένες στην PDB.

Σχολιάστε τα αποτελέσματα.

ΜΕΡΟΣ B:

ΠΡΟΓΝΩΣΗ ΔΟΜΗΣ ΔΙΑΜΕΜΒΡΑΝΙΚΩΝ ΠΡΩΤΕΪΝΩΝ

Στο δεύτερο μέρος της άσκησης, θα χρησιμοποιήσουμε τη μέθοδο 'PREDTMR', που έχει αναπτυχθεί στο εργαστήριό μας (Pasquier et al. 1998) για την πρόγνωση των θέσεων διαμεμβρανικών τμημάτων σε πρωτεϊνικές ακολουθίες, και είναι βασισμένη σε στατιστική ανάλυση των διαμεμβρανικών πρωτεϊνών κατατεθειμένων στη SwissProt. Μια βελτιωμένη έκδοσή της (PREDTMR2) κατορθώνει, με τη χρήση ενός Ιεραρχικού Νευρωνικού Δικτύου, να κατηγοριοποιεί πρωτεΐνες σε 'Διαμεμβρανικές ή Μη-Διαμεμβρανικές' από την ακολουθία τους μόνο (Pasquier and Hamodrakas, 1999), προχωρώντας εν συνεχεία στην πρόγνωση των θέσεων των διαμεμβρανικών τμημάτων. Η μέθοδος 'orienTM' (Liakopoulos, Pasquier and Hamodrakas, 1999), μπορεί στη συνέχεια να δώσει το πιθανό μοντέλο προσανατολισμού των μη-διαμεμβρανικών τμημάτων.

Η πρόσβαση στις μεθόδους αυτές είναι δυνατή στα URLs:

http://biophysics.biol.uoa.gr/PRED-TMR2/

και

http://biophysics.biol.uoa.gr/orienTM/

ΠΡΟΣΒΑΣΗ ΣΤΑ ΔΕΔΟΜΕΝΑ

Όπως και στο πρώτο μέρος της άσκησης θα χρησιμοποιήσουμε το 'SRSWWW5' για την αναζήτηση στη 'SwissProt' μιας ακολουθίας που γνωρίζουμε πως περιέχει διαμεμβρανικά τμήματα.

Όλες οι ομάδες θα σώσουν στον κατάλογο 'C:\sequences\' την ακολουθία με 'ID GAA5_HUMAN' σε ένα αρχείο με το όνομα 'gaa5.txt' σε SwissProt format .

Αναγνωρίστε τις ποικίλες πληροφορίες που περιέχονται σε ένα τέτοιο αρχείο. Να δοθεί ιδιαίτερη προσοχή στον καθορισμό των 4 διαμεμβρανικων τμημάτων.

ΠΡΟΓΝΩΣΗ ΔΙΑΜΕΜΒΡΑΝΙΚΩΝ ΤΜΗΜΑΤΩΝ και ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

Χρησιμοποιήστε τη μέθοδο 'PREDTMR2' για πρόγνωση της θέσης των διαμεμβρανικών τμημάτων στην 'GAA5_HUMAN'.

Να συνεχίσετε με την πρόγνωση του προσανατολισμού με τη βοήθεια της μεθόδου 'orienTM'.

Συγκρίνετε τα αποτελέσματά σας με τα σχόλια της καταχώρησης στη SwissProt και διατυπώστε τα σχόλιά σας.

Επιστρέφουμε στην αρχική σελίδα

Χρησιμοποιήστε και άλλες μεθόδους πρόγνωσης διαμεμβρανικών τμημάτων (SOSUI, Tmpred, ISREC- SAPS, DAS, TopPred II, πρόσβαση από τη σελίδα με τις Συνδέσεις).

Συγκρίνετε τα αποτελέσματα των μεθόδων μεταξύ τους. Με βάση την καταχώρηση της SwissProt υπολογίστε το δείκτη αξιοπιστίας Q2 για κάθε μια μέθοδο.

Ερώτηση:

Ποιος είναι, κατά τη γνώμη σας, ο κυριότερος λόγος για τον οποίο οι μέθοδοι πρόγνωσης διαμεμβρανικών τμημάτων έχουν κατά μέσο όρο υψηλότερους δείκτες αξιοπιστίας Q2 από τις αντίστοιχες προγνωστικές μεθόδους δευτεροταγούς δομής; Να δικαιολογήσετε τις απαντήσεις σας.

ΠΑΡΑΡΤΗΜΑ Ι

Μορφή των καταχωρήσεων της Βάσης Δεδομένων (PDB)

ΤΥΠΟΣ ΕΓΓΡΑΦΗΣ	ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ
HEADER	Η πρώτη γραμμή ΚΑΘΕ καταχώρησης. Περιέχει τον Κωδικό PDB ID, μια βασική ταξινόμηση καθώς και την ημερομηνία κατάθεσης.
TITLE	Περιγραφή της Δομής που αναφέρεται στην καταχώρηση.
COMPND	Περιγραφή των 'Μακρομοριακών Περιεχομένων'.
KEYWDS	'Λέξεις Κλειδιά' που περιγράφουν το Μακρομόριο.
SOURCE	Βιολογική προέλευση του μακρομοριόυ.
EXPDTA	Η πειραματική τεχνική που χρησιμοποιήθηκε για τη λύση της δομής.
AUTHOR	Κατάλογος των ερευνητών που εργάσθηκαν στον καθορισμό της δομής.
HYDBND	Καθορισμός των θέσεων Υδρογονικών Δεσμών.
SEQRES	Η Βιολογική Ακολουθία. Για πρωτεΐνες ακολουθείται ο κωδικός των τριών γραμμάτων (π.χ. ALA για Αλανίνη).
HELIX	Καθορισμός περιοχών με ελικοειδή δομή.
SHEET	Καθορισμός περιοχών με εκτεταμένη δομή.
CRYST1	Παράμετροι Μοναδιαίας Κυψελίδας, Ομάδα Συμμετρίας Χώρου
ORIGXn(n=1,2,ή 3)	Πίνακας Μετατροπής από σύστημα ορθογωνίων συντεταγμένων στις συντεταγμένες που κατατέθηκαν αρχικά.
SCALEn(n=1,2,ή 3)	Πίνακας Μετατροπής από σύστημα ορθογωνίων συντεταγμένων σε κρυσταλλογραφικές συντεταγμένες.
ATOM	Εγγραφές των ατομικών συντεταγμένων.
HETATM	Εγγραφές των ατομικών συντεταγμένων για τα Ετεροάτομα.
TER	Τερματισμός μιας Αλυσίδας.
END	Τελευταία εγγραφή κάθε καταχώρησης.

ΠΑΡΑΡΤΗΜΑ IΙ

Πειράματα CASP1 - CASP2

Τα αποτελέσματα ενός σημαντικού πειράματος δημοσιεύθηκαν στις αρχές του 1995: ερευνητές πρωτεϊνικών δομών, κατέθεσαν τις αμινοξικές ακολουθίες πρωτεϊνών (για τις οποίες ήταν έτοιμοι να έχουν σε σύντομο χρονικό διάστημα δομικά αποτελέσματα) δημιουργώντας κατ' αυτόν τον τρόπο μια 'Βάση-Δεδομένων-Προς-Πρόγνωση'.

Στη συνέχεια, για κάθε μια από τις καταχωρήσεις, ήταν δυνατόν να στείλει κάποιος την πρόγνωση της μεθόδου του πριν από κάποια καταληκτική ημερομηνία, η οποία συνέπιπτε με τη δημοσίευση της λυμένης δομής για το συγκεκριμένο μόριο. Τελικά, τα αποτελέσματα συγκρίθηκαν και συζητήθηκαν σε μια ειδική συνάντηση εργασίας (στο Asilomar της California), με τελικό συμπέρασμα ότι ακόμη δεν είναι δυνατή η πρόγνωση της δομής από την ακολουθία και μόνο.

Αυτό ήταν το γνωστό πείραμα CASP1, ενώ μετά από δύο χρόνια ακολούθησε και δεύτερο όμοιο (CASP2).

ΑΝΑΦΟΡΕΣ ΠΑΡΑΡΤΗΜΑΤΟΣ ΙΙ

CASP1 (1995) Special issue of. Proteins.

CASP2 (1997) Special issue of. Proteins.

ΑΝΑΦΟΡΕΣ ΠΑΡΑΡΤΗΜΑΤΟΣ ΙΙ

Aloy, P., Cedano, J., Olivia, B., Aviles, X. and Querol, E. (1997) 'TransMem': a neural network implemented in Excel spreadsheets for predicting transmembrane domains of proteins, CABIOS, 13(3), 231-234

Altschul, S. F., Gish, W., Miller, W., Myers, E. and Lipman, D. J. (1990) Basic Local Alignment Search Tool, J. Mol. Biol., 215, 403-410

Anfinsen, C. B. (1973). Principles that govern the folding of protein chains. Science, 181, 223-230.

Bairoch, A. and Apweiler, R. (1998) The SWISS-PROT protein sequence databank and its supplement TrEMBL in 1998, Nucleid Acids Res., 26, 38-42

Bairoch, A., Bucher, P., Hofmann, K.(1997) The PROSITE datatase, its status in 1997. Nucleic Acids Res. , 24, 217-221

Blout, E. R., de Loze, C., Bloom, S. M. and Fasman, G. D. (1960) Dependence of the conformation of synthetic polypeptides on amino acid composition, J. Am. Chem. Soc., 82, 3787-3789

Bork, P., Ouzounis, C. and Sander C. (1994) From genome sequences to protein function, Curr. Opin. Struct. Biol. , 4, 393-403

Chothia, C. and Lesk, A. M. (1986) The relation between the divergence of sequence and structure in proteins, EMBO J., 5 , 823-826

Chou, P. Y. and Fasman, G. D. (1978) Prediction of the secondary structure of proteins from their amino acid sequence, Adv. Enzymol., 47, 45-148.

Cserzo, K., Wallin, E., Simon, I., von Heijne, G. and Elofsson, A. (1997) Prediction of transmembrane a-helices in prokariotic membrane proteins: the dense alignment surface method, Protein Engineering, 10(6), 673-676

Doolittle, R. F. (1986) Of URFs and ORFs: a primer on how to analyze derived amino acid sequences, University Science Books, Mill Valley California.

Eisenberg, D., Weiss, R. M. and Terwilliger, T. C. (1984) The hydrophobic moment detects periodicity in protein hydrophobicity, Proc. Natl. Acad. Sc. U.S.A., 81, 140-144

Finkelstein, A. V. and Reva, B. A. (1992) Search for the stable state of a short chain in a molecular field, Prot.Engin., 5, 617-624

Gaasterland, T. (1997) Genome sequencing projects. Univ. Chicago, WWW document (http://www.mcs.anl.gov/home/gaasterl/genomes.html)

Garnier, J., Osguthorpe, D. J. and Robson, B. (1978) Analysis of the accuracy and Implications of simple methods for predicting the secondary structure of globular proteins, J. Mol. Biol., 120, 97-120.

Gibson, T. J., Thompson, J. D. and Abagyan, R. A. (1993) Proposed structure for the DNA-binding domain of the Helix-Loop-Helix family of eukaryotic gene regulatory proteins, Prot. Engin., 6 , 41-50.

Hamodrakas, S.J. (1988) A protein secondary structure prediction scheme for the IBM-PC and compatibles, Comput. Applic. Biosci., 4(4), 473-477

Holm, L. and Sander, C. (1996) The FSSP database: fold classification based on structure-structure alignment of proteins, Nucl. Acids Res., 24, 206-210

Hubbard, T. J. P., Murzin, A. G., Brenner, S. E. and Chothia, C. (1997). SCOP: a structural classification of proteins database, Nucl. Acids Res., 25, 236-239

Kabsch, W. and Sander, C. (1983a) How good are predictions of protein secondary structure?, FEBS Lett., 155,179-182

Kabsch, W. and Sander, C. (1983b) Dictionary of protein secondary structure: pattern recognition of hydrogen bonded and geometrical features, Biopolymers, 22, 2577-2637

Kyrpides, N. (1999) GOLD: Genomes On Line Database WWW-page (http://www.ebi.ac.uk/research/cgg/genomes.html)

Lemer, C. M.-R., Rooman, M. J. and Wodak, S. J. (1995) Protein structure prediction by threading methods: evaluation of current techniques, Proteins, 23, 337-355

Lesk, A. M. (1991) Protein Architecture - A Practical Approach, Oxford University Press, Oxford, New York, Tokyo.

Liakopoulos, T.D., and Hamodrakas, S.J. (1999) A new statistical mehod to predict the orientation of Non-transmembrane domains in transmembrane proteins, In preparation

Murzin, A.G., Brenner, S.E., Hubbard, T. and Chothia, C.(1995) Scop: a structural classification of proteins database for the investigation of sequences and structures, Journal of Molecular Biology, 247 , 536-540

Orengo, C. A., Michie, A. D., Jones, D. T., Swindells, M. B. and Thornton, J. M. (1997) CATH - A hierarchic classification of protein domain structures, Structure, 5(8) , 1093-1108

Palaios, G.A., and Hamodrakas, S.J. (1999) SecStr: Secondary Structure prediction over the World Wide Web, In preparation

Pasquier, C., Promponas, V.J., Palaios, G.A., Hamodrakas, J.S. and Hamodrakas, S.J. (1999) A novel method for predicting transmembrane segments in proteins based on a statistical analysis of the SwissProt database: the PRED-TMR algorithm, Protein Engineering, In Press

Pasquier, C. and Hamodrakas, S.J. (1999) An hierarchical artificial neural network system for the classification of transmembrane proteins, Protein Engineering, Submitted for publication

Persson, B. and Argos, P. (1994) Prediction of transmembrane segments in proteins utilising multiple sequence alignments, J. Mol. Biol., 237, 182-192

Piatigorsky, J and Wistow G. J. (1989) Enzyme/Crystalins: Gene Sharing as an Evolutionary Strategy, Cell , 57, 197-199

Rost, B. and Sander, C. (1996) Bridging the protein sequence-structure gap by structure predictions, Annu. Rev. Biophys. Biomol. Struct., 25, 113-136.

Rost, B. (1997) Protein structures sustain evolutionary drift, Folding and Design, 2, S19-S24.

Rost, B., O'Donoghue, S. and Sander, C. (1998) Midnight zone of protein structure Evolution, manuscript in preparation.

Rost, B. and Sander, C. (1993) Improved prediction of protein secondary structure by use of sequence profiles and neural networks, Proc. Natl. Acad. Sc. U.S.A., 90, 7558-7562

Scheraga, H. A. (1960) Structural studies of ribonuclease III. A model for the secondary and tertiary structure, J. Am. Chem. Soc., 82, 3847-3852.

Schulz, G. E., Baryy, C. D., Friedman, J., Chou, P. Y., Fasman, G. D. (1974) Comparsison of the predicted and observed secondary structure of T4 phage lysozyme, Nature, 250, 140-142

Sippl, M. J. (1982) On the Problem of Comparing Protein Structures. J. Mol. Biol., 156, 359-388

Sussman, J.L., Ling, D., Jiang, J., Manning, N.O., Prilusky, J., Ritter, O. and Abola, E.E. (1998) Protein Data Bank (PDB): Database of Three-Dimensional Structural Information of Biological Macromolecules, Acta Cryst. 54, 1078-1084

Szent-Gyorgyi, A. G. and Cohen, C. (1957) Role of proline in polypeptide chain configuration of proteins, Science, 126, 697.

Von Heijne, G. (1992) Membrane Protein Structure Prediction; Hydrophobicity Analysis and the Positive-inside Rule, J. Mol. Biol., 225, 487-494

Yona, G., Linial, N., Tishby, N. and Linial, M. (1998) A map of the protein space - An automatic hierarchical classification of all protein sequences, in the proceedings of ISMB 98, 212-221

Zu-Kang, F. and Sippl, M. J. (1996). Optimum superimposition of protein structures: ambiguities and implications. Folding and Design, 1, 123-132.

ΑΝΑΦΟΡΕΣ ΕΚΤΟΣ ΚΕΙΜΕΝΟΥ

, σχετικές με προγνωστικές μεθόδους δομικών – λειτουργικών χαρακτηριστικών σε πρωτεΐνες

Diederichs, K., Freigang, J., Umhau. S., Zeth, K. and Breed, J. (1998) Prediction by a neural network of outer membrane b–strand protein topology, Protein Science, 7, 2413-2420

Fariselli, P and Casadio, R. (1998) HTP: a neural-network based method for predicting the topology of helical transmembrane domains in proteins, Comput. Applic. Biosci., 12(1), 41-48.

Hirokawa, T., Boon-Chieng, S. and Mitaku S. (1998) SOSUI: classification and secondary structure prediction system for membrane proteins, BioInformatics, 14(4), 378-379

Hobohm, U. and Sander, C. (1994) Enlarged representative set of protein strucures, Protein Science, 3, 522

Kihara, D., Shimizu, T. and Kanehista, M. (1998) Prediction of membrane proteins based on classification of transmembrane segments, Protein Engineering, 11(11), 961-970

Pasquier, C.M., Promponas, V.J., Varvayannis, N.J., and Hamodrakas, S.J. (1998) A Web server to locate periodicities in a sequence, Bioinformatics , 14(8) , 749-750.

Promponas, V.J., Palaios, G.A., Pasquier, C.M., Hamodrakas, J.S. and Hamodrakas, S.J. (1999) A Web Tool which combines transmembrane protein segment prediction methods, In Silico Biology, 3 , 1-4

Qian, N and Sejnowski, TJ. (1988) Predicting the secondary structure of globular proteins using neural network models, J. Mol. Biol., 262, 865-884

Reczko, M. (1993) Protein secondary structure prediction with partially recurrent neural networks, SAR and QSAR in Environmental Research, 1, 153-159

Rost, B., Casadio, R. Fariselli, P. and Sander, C. (1995) Transmembrane helices predicted at 95% accuracy, Prot. Sci., 4, 521-533

Rost, B., Fariselli, P. and Casadio, R. (1996) Topology prediction for helical transmembrane proteins at 86% accuracy, Prot. Sci., 5, 1704-1718

Rost, B. and O'Donoghue, S. I. (1997) Sisyphus and prediction of protein structure, CABIOS, 13, 345-356.

Rost, B., Sander, C. and Schneider, R. (1994) PHD – an automatic mail server for protein secondary structure prediction, CABIOS, 10(1), 53-60