2008-03-04

Αξιολόγηση ψηφιακών βιβλιοθηκών με ανάλυση των προτύπων ανάκτησης των χρηστών


Η παρούσα ανάρτηση αποτελεί εργασία εξαμήνου στο πλαίσιο του μαθήματος Ψηφιακές Βιβλιοθήκες του ΠΜΣ στην Επιστήμη της Πληροφόρησης στην Αθήνα, της φοιτήτριας του Α' εξαμήνου Αφροδίτης Φράγκου και έχει βασιστεί κατά κύριο λόγο στο άρθρο των Bollen, J., Vemulapalli, S., and Xu, W. (2002), 'Digital Library Evaluation by Analysis of User Retrieval Patterns.'
Προτείνεται μια μεθοδολογία αξιολόγησης του βαθμού επιρροής της συλλογής μιας Ψηφιακής Βιβλιοθήκης (ΨΒ) και των χαρακτηριστικών της κοινότητας χρηστών όπως αυτή προκύπτει από την ανάλυση προτύπων ανάκτησης από τους χρήστες. Πρότυπα ομο-ανάκτησης περιοδικών και τεκμήριων αναδομούνται από τον εξυπηρετητή της ΨΒ και χρησιμοποιούνται στην παραγωγή δεδομένων για τα περιοδικά και τα τεκμήρια που συνδέονται με σχέσεις εγγύτητας μεταξύ τους. Αυτό έχει ως αποτέλεσμα μια σχέση με βάρη που ορίζεται από την συλλογή τεκμηρίων της ΨΒ και αναπαρίσταται από ένα δίκτυο τεκμηρίων και περιοδικών. Μια μέτρηση της απόκλισης μεταξύ των μετρήσεων υπολογισμού του βαθμού επιρροής ενός τεκμηρίου όπως αυτός ορίζεται από τους χρήστες και το Journal Citation Record (JCR) Impact Factor (IF) που δημοσιεύεται από το Institute for Scientific Information (ISI) χρησιμοποιείται για να αναλύσει τα χαρακτηριστικά της κοινότητας των χρηστών της ΨΒ. Μια προκαταρκτική ανάλυση των αρχείων καταγραφής του εξυπηρετητή του Los Alamos National Laboratory (LANL) Research Library (RL) που καταχωρήθηκαν το 2001 επιδεικνύει αυτή την προσέγγιση.

This paper proposes a methodology to evaluate the impact of a Digital Library’s (DL) collection and the characteristics of its user community by an analysis of user retrieval patterns. Patterns of journal and document co-retrievals are reconstructed from DL server logs and used to generate proximity data for journals and documents, resulting in a weighted relation defined over the DL document collection represented by a network of document and journals. A measure of discrepancy between user-defined measures of document impact and the Journal Citation Record (JCR) Impact Factor (IF) published by the Institute for Scientific Information (ISI) is used to analyze characteristics of the DL user community. A preliminary analysis of the Los Alamos National Laboratory (LANL) Research Library (RL) server logs registered in 2001 demonstrates the potential of this approach[1].
Η πρόσφατη αύξηση του αριθμού και του μεγέθους των ψηφιακών εφαρμογών για βιβλιοθήκες έχει εισάγει το ζήτημα της αξιολόγησης των υπηρεσιών των ΨΒ και των συλλογών (Kaplan and Nelson, 2000). Λαμβάνοντας υπόψη τον πολλαπλασιασμό των νέων υπηρεσιών όπως η ολοκλήρωση των συλλογών (Vandesompel, 1999), η διασύνδεση πληροφοριών, και τα αναβαθμισμένα προτεινόμενα συστήματα ΨΒ (Bollen and Rocha, 2000Rocha, 1999), γίνεται όλο και περισσότερο σημαντικό να καθοριστεί εάν αυτές οι υπηρεσίες πράγματι ανταποκρίνονται στις προτιμήσεις και τα χαρακτηριστικά των χρηστών, και κατά συνέπεια ποιες είναι αυτές οι επιλογές.
Ένα παρόμοιο ζήτημα σχετικό με την αξιολόγηση της συλλογής μιας ΨΒ είναι εάν μια δεδομένη συλλογή ΨΒ ταιριάζει με τα χαρακτηριστικά και τις προτιμήσεις της κοινότητας χρηστών της. Σε αυτήν την περίπτωση, είναι επίσης σημαντικό να αναλυθούν οι μοναδικές προτιμήσεις μιας δεδομένης κοινότητας. Έχουν γίνει μερικές προσπάθειες για να αξιολογηθούν οι υπηρεσίες ΨΒ και οι συλλογές με τη χρήση της ανάλυσης παραπομπών και της συχνότητας παραπομπών. Παραδοσιακά, ο βαθμός επιρροής ενός δεδομένου περιοδικού αξιολογείται με τον υπολογισμό του αριθμού παραπομπών στα άρθρα που δημοσιεύονται στο περιοδικό κατά τη διάρκεια μιας δεδομένης περιόδου. Αυτός ο αριθμός κανονικοποιείται με τη διαίρεση αυτής της αρίθμησης από τον αριθμό των άρθρων στα οποία γίνονται παραπομπές που δημοσιεύτηκαν στο περιοδικό κατά τη διάρκεια της ίδιας περιόδου (Garfield, 1979). Το Institute for Scientific Information (ISI) δημοσιεύει τον Impact Factor (παράγοντα επιρροής - IF) για ένα δεδομένο περιοδικό για μια συγκεκριμένη χρονιά x που ορίζεται ως αναλογία μεταξύ των δύο ποσοτήτων Α και Β ως εξής:
IF = A/B Εξίσωση1. (Πηγή: Bollen, Vemulapalli and Xu, 2002)
όπου
A = αριθμός παραπομπών στο περιοδικό κατά τη διάρκεια τελευταίων 2 ετών που προηγήθηκαν x
B = αριθμός άρθρων που δημοσιεύτηκε στο περιοδικό κατά τη διάρκεια των τελευταίων 2 ετών που προηγήθηκαν x
To ISI δημοσιεύει μια ετήσια βάση δεδομένων που περιέχει τους καθορισμένους παράγοντες επιρροής για έναν μεγάλο αριθμό περιοδικών. Αυτοί οι παράγοντες επιρροής έχουν, ελλείψει άλλων συνόλων στοιχείων, γίνει το de facto πρότυπο βάσει του οποίου κρίνεται η επιρροή ενός δεδομένου περιοδικού και βρίσκει εφαρμογή στην αξιολόγηση της ποιότητας των μεμονωμένων ερευνητών και ολόκληρων ερευνητικών τμημάτων δια των αντιπροσώπων τους μέσω της επιρροής των περιοδικών στα οποία αυτοί έχουν δημοσιεύσει. Έχουν γίνει αναπόσπαστο τμήμα της αξιολόγησης των ακαδημαϊκών δημοσιεύσεων και ερευνών, και μπορούν έτσι να εφαρμοστούν στην αξιολόγηση των υπηρεσιών και των συλλογών των ΨΒ.
Εντούτοις, μπορούν να προσδιοριστούν τουλάχιστον τα ακόλουθα προβλήματα με αυτήν την προσέγγιση:
1. Δεν έχει τεκμηριωθεί η έκταση στην οποία οι συχνότητες παραπομπής και o IF πραγματικά υποδεικνύουν επιρροή ή χρησιμότητα. (Kostoff, 1998MacRoberts H. and MacRoberts B., 1989Opthof, 1997Reedijk, 1998)
2. Τα αρχεία παραπομπής ισχύουν μόνο για τις ακαδημαϊκές δημοσιεύσεις και δεν αντικατοπτρίζουν την επιρροή των τεχνικών εκθέσεων, ψηφιακών δημοσιεύσεων, πολυμεσικών τεκμηρίων κ.τ.λ.
3. Οι παραπομπές καθορίζονται παγκοσμίως και δεν μπορούν να προσαρμοστούν στις προτιμήσεις της κοινότητας χρηστών μιας συγκεκριμένης ΨΒ.
Η προσέγγισή μας στην ανάλυση των χαρακτηριστικών των συγκεκριμένων κοινοτήτων χρηστών στηρίζεται στη χρήση των αιτημάτων τους για ανάκτηση τεκμηρίων στις διεπαφές της ΨΒ στο WWW. Παράγουμε τα δίκτυα τεκμηρίων και περιοδικών από τις ακολουθίες ανάκτησης των χρηστών καθώς μπορούν να αναδομηθούν από τα αρχεία καταγραφής των εξυπηρετητών της ΨΒ στο WWW. Αυτά τα δίκτυα δημιουργούνται για να εκφράσουν έναν συλλογικό «νοητικό χάρτη» των σχέσεων μεταξύ των τεκμηρίων και των περιοδικών, όπως υπάρχουν μεταξύ μιας συγκεκριμένης κοινότητας χρηστών της ΨΒ, δηλαδή εκείνων για τους οποίους έχουν τηρηθεί τα αρχεία καταγραφής του εξυπηρετητή της ΨΒ.
Η κύρια υπόθεσή είναι ότι όταν οι χρήστες ανακτούν μια ακολουθία ψηφιοποιημένων τεκμηρίων με χρονική εγγύτητα, περίπτωση που καλείται ομο-ανάκτηση, είναι αυτονόητο πως έτσι εμφανίζουν έναν ορισμένο βαθμό ομοιότητας μεταξύ των ανακτημένων τεκμηρίων. Η δύναμη της σχέσης μεταξύ των ανακτημένων άρθρων, και των περιοδικών στις οποίες εμφανίστηκαν, αντιστοιχούν στη συχνότητα της ομο-ανάκτησής τους. Ένα σύνολο σχέσεων με βάρη τεκμηρίων και περιοδικών με αυτόν τον τρόπο καθορίζεται από τις συχνότητες ομο-ανάκτησης των χρηστών. Οι παραχθείσες σχέσεις τεκμηρίων και περιοδικών μπορούν έπειτα να συνδυαστούν για να διαμορφώσουν δίκτυά. Μια ανάλυση αυτών των δικτύων θα παραγάγει τις μετρήσεις της επιρροής των περιοδικών για μια συγκεκριμένη κοινότητα χρηστών που μπορεί να χρησιμοποιηθεί για να αξιολογήσει τα χαρακτηριστικά αυτής της κοινότητας καθώς επίσης βοηθά και στην αξιολόγηση του βαθμού στον οποίο η ΨΒ έχει ανταποκριθεί και έχει εξυπηρετήσει αυτά τα ενδιαφέροντα.
Η μεθοδολογία που ακολουθήθηκε για τη διεξαγωγή της παρούσας εργασίας ήταν αρχικά η παρουσίαση τους κυρίως άρθρου των Bollen, Vemulapalli and Xu (2002), το οποίο αποτελεί και το βασικό αντικείμενό της. Στη συνέχεια αναζητήθηκαν άρθρα σχετικά με το θέμα της αξιολόγησης ψηφιακών βιβλιοθηκών και πληροφορίες από αυτά ενσωματώθηκαν στην υπόλοιπη εργασία. Τέλος, διατυπώθηκαν κάποιοι προβληματισμοί που προέκυψαν από τη μελέτη της βιβλιογραφίας.



Η έννοια της αξιολόγησης απαντάται σε πολλά επιστημονικά πεδία, με αποτέλεσμα να ορίζεται και διαφορετικά για καθένα από αυτά. Όπως είναι φυσικό, το γενικό περίγραμμα της έννοιας είναι παρόμοιο όχι όμως και πανομοιότυπο μεταξύ των διαφόρων επιστημών.
Ένας πρώτος πολύ απλοϊκός ορισμός είναι αυτός που προκύπτει από την ετυμολογία της λέξης, που είναι 1. Ο καθορισμός της αξίας ενός πράγματος. 2. Ο προσδιορισμός της αξίας προσώπου, ενεργείας κ.τ.λ. με καθορισμένα κριτήρια.
Τεγόπουλος – Φυτράκης, 1997
Αξιολόγηση είναι η εκτίμηση ενός συστήματος βάσει κάποιου προτύπου/στόχου ή μια σύγκριση μεταξύ των εναλλακτικών προσεγγίσεων.
Η φάση της αξιολόγησης είναι θεμελιώδης προκειμένου να μετρηθεί ο βαθμός ικανοποίησης των απαιτήσεων των χρηστών. Μπορεί να πραγματοποιηθεί νωρίς στον κύκλο του σχεδιασμού, δηλ. διαμορφωτική αξιολόγηση ή μπορεί να πραγματοποιηθεί στο τέλος του κύκλου, αθροιστική αξιολόγηση. Επί του παρόντος, υπάρχουν τρεις κύριες μέθοδοι αξιολόγησης που προτείνονται στον τομέα HCI (Human-Computer Interaction – Διαδραστικότητα Ανθρώπου – Υπολογιστή)
  1. Το γνωστικό πέρασμα,
  2. Δοκιμή της ευχρηστίας και
  3. Ευρετική αξιολόγηση.
Kawasaki, Rizzo and Rodrick, 2003
Η αξιολόγηση οδηγεί στην κατεστημένη άποψη ότι κάτι συμβαίνει, συνήθως, αλλά όχι πάντα οδηγώντας στην απόφαση της ενέργειας με έναν ορισμένο τρόπο.
House, 1980
Από το χώρο της εκπαίδευσης και το US Department of Education αντλείται ο επόμενος ορισμός που αναφέρεται κυρίως στην αξιολόγηση προγραμμάτων σπουδών, είναι, όμως, σύμφωνος με τη γενικότερη τάση που εμφανίζεται στους ορισμούς της αξιολόγησης:
Αξιολόγηση είναι η συστηματική συλλογή και ανάλυση των στοιχείων που απαιτούνται για τη λήψη αποφάσεων, διαδικασία την οποία τα περισσότερα ορθώς λειτουργούντα προγράμματα αξιοποιούν εξαρχής. Ακολουθούν ορισμένες από τις δραστηριότητες αξιολόγησης που είναι ήδη πιθανό να ενσωματωθούν σε πολλά προγράμματα ή που μπορούν να προστεθούν εύκολα:
  • Επισήμανση των απαιτούμενων υπηρεσιών, π.χ. ανακαλύπτοντας σε ποια γνώση, δεξιότητες, θέσεις ή συμπεριφορές ένα πρόγραμμα πρέπει να απευθυνθεί.
  • Καθιέρωση των στόχων του προγράμματος και απόφαση των επιμέρους στοιχείων (όπως η συγκεκριμένη γνώση, οι θέσεις ή η συμπεριφορές) που θα καταδείξουν ότι οι στόχοι έχουν επιτευχθεί. Ένα κλειδί για την επιτυχή αξιολόγηση είναι ο ορισμός σαφών, μετρήσιμων και ρεαλιστικών στόχων του προγράμματος. Εάν οι στόχοι είναι μη ρεαλιστικά αισιόδοξοι ή δεν είναι μετρήσιμοι, το πρόγραμμα μπορεί να μην είναι σε θέση να καταδείξει την επιτυχία του ακόμα κι αν έχει διεκπεραιωθεί επιτυχώς.
  • Ανάπτυξη ή επιλογή μεταξύ των εναλλακτικών προσεγγίσεων του προγράμματος, π.χ. δοκιμάζοντας διαφορετικά προγράμματα σπουδών ή πολιτικές και προσδιορίζοντας αυτά που επιτυγχάνουν καλύτερα τους στόχους.
  • Τήρηση των στόχων του προγράμματος, π.χ., καθιέρωση ενός συστήματος που παρουσιάζει ποιος παίρνει τις υπηρεσίες, τι μέρος της υπηρεσίας παραδίδεται, πώς οι συμμετέχοντες αξιολογούν / βαθμολογούν τις υπηρεσίες που λαμβάνουν, και ποιες προσεγγίσεις υιοθετούνται ευκολότερα από το προσωπικό, ή
  • Δοκιμάζοντας και αξιολογώντας τα νέα σχέδια προγράμματος που καθορίζουν την έκταση στην οποία μια συγκεκριμένη προσέγγιση εφαρμόζεται πιστά από το προσωπικό των σχολείων ή φορέων ή την έκταση στην οποία προσελκύει ή διατηρεί τους συμμετέχοντες.
Μέσω αυτών των τύπων δραστηριοτήτων, εκείνοι που παρέχουν ή διαχειρίζονται τις υπηρεσίες καθορίζουν τι να προσφέρουν και πόσο καλής ποιότητας είναι οι υπηρεσίες που προσφέρουν.
Muraskin for US Department of Education, 1993
Μπορεί τα στοιχεία που αναφέρθηκαν στην αξιολόγηση να φαίνεται ότι ισχύουν για την αξιολόγηση προγραμμάτων σπουδών, όμως διευρύνοντάς τα λίγο, μπορούμε να εντοπίσουμε γενικότερα χαρακτηριστικά που βρίσκουν εφαρμογή και σε άλλους επιστημονικούς τομείς.
Η προτεινόμενη μεθοδολογία για την άντληση μεγάλων δικτύων τεκμηρίων από τα πρότυπα ομο-ανάκτησης χρηστών αναπτύχθηκε αρχικά για την προσαρμοστική σύνδεση υπερκειμένων και έχει τροποποιηθεί για τις εφαρμογές στη σύνδεση τεκμηρίων των ΨΒ και την αξιολόγηση ΨΒ (Bollen and Rocha, 2000).
Σε αυτό το πλαίσιο έχουν εξεταστεί πρόσφατα τα αρχεία καταγραφής του εξυπηρετητή του Los Alamos National Laboratory (Bollen, 2000). Και στις προσομοιώσεις και στις αναφερθείσες εφαρμογές, η μεθοδολογία φαίνεται με αξιοπιστία και εγκυρότητα να παράγει τα δίκτυα τεκμηρίων που αντιπροσωπεύουν τις συλλογικές προτιμήσεις μιας συγκεκριμένης κοινότητας χρηστών, δηλαδή εκείνων των οποίων τα καταγραμμένα πρότυπα ανάκτησης έχουν χρησιμοποιηθεί για να παραγάγουν το δίκτυο. Τα αποτελέσματα διερευνώνται εν συντομία στην πειραματική περίπτωση της LANL RL.
Οι περισσότερες υπηρεσίες ΨΒ καταγράφουν τα αιτήματα των χρηστών για ανάκτηση τεκμηρίων, για την ακρίβεια, είναι ένας από τους πλέον υποχρησιμοποιούμενους πόρους στην έρευνα των ΨΒ. Συγκεκριμένα, οι υπηρεσίες ΨΒ που είναι προσβάσιμες μέσω κάποιας διεπαφής του WWW, γενικά καταγράφουν τα αιτήματα των χρηστών για ανάκτηση τεκμηρίων στα αρχεία καταγραφής των εξυπηρετητών τους στο WWW. Αυτά τα αρχεία καταγραφής, γενικά, δεν περιέχουν δεδομένα ομο-ανάκτησης αλλά αυτή η πληροφορία μπορεί να αντληθεί από δεδομένα που προέρχονται από έναν αριθμό IP, την ταυτότητα ενός τεκμηρίου, (σε πολλές ΨΒ αυτό περιλαμβάνει τον αριθμό ISSN του εκδιδόμενου περιοδικού) και την ημερομηνία και ώρα κατά την οποία πραγματοποιήθηκε το αίτημα της ανάκτησης.
Ως περίπτωση ομο-ανάκτησης τεκμηρίου ορίζεται ένα ζεύγος οποιωνδήποτε 2 αιτημάτων ανάκτησης από τον ίδιο χρήστη εντός μια συγκεκριμένης, δεδομένης περιόδου Δt. Εξ’ ορισμού, οι περιπτώσεις ομο-ανάκτησης, μπορούν να αναδομηθούν από τα αρχεία καταγραφής των εξυπηρετητών της ΨΒ με απλή σάρωση των αιτημάτων ανάκτησης τεκμηρίων ταξινομημένων βάσει της ώρας κατά την οποία και πραγματοποιήθηκε το αίτημα από τον ίδιο IP αριθμό και ορίζει ότι δύο οποιαδήποτε διαδοχικά αιτήματα των οποίων η ημερομηνία και ώρα που τα χαρακτηρίζουν διαφέρει λιγότερο από Δt, συγκροτούν μία περίπτωση ομο-ανάκτησης.
Παράδειγμα της διαδικασίας παρουσιάζεται στους Πίνακες 1 και 2. Ο Πίνακας 1 απαριθμεί μια σειρά από αιτήματα ανάκτησης για τεκμήρια όπως αυτά κατεγράφησαν από τον Ιούνιο έως τον Οκτώβριο του 2001 από τον Los Alamos National Laboratory Science Server της υπηρεσίας ΨΒ. Σε αυτή την περίπτωση, το Δt, η καθορισμένη αφετηρία για να αποφασιστεί εάν οποιαδήποτε δύο διαδοχικά αιτήματα αποτελούν περίπτωση ομο-ανάκτησης, έχει τεθεί στα 3600 δευτερόλεπτα. Αυτές οι ακολουθίες αιτημάτων ανάκτησης μετασχηματίστηκαν στο σύνολο των περιπτώσεων ομο-ανάκτησης που παρουσιάζονται στον Πίνακα 2.
Αυτή η προσέγγιση στην σύνθεση περιπτώσεων ομο-ανάκτησης προσιδιάζει ιδιαίτερα με τη μέθοδο Time Out-IP που εξετάζεται από τους Pirolli and Pitkow (1999) και η οποία πραγματεύεται τα οφέλη και τις ανεπάρκειες της άντλησης, κατ’ αυτόν τον τρόπο, των διαδρομών ανάκτησης από τα αρχεία καταγραφής του εξυπηρετητή του WWW. Είναι γνωστό ότι είναι ιδιαίτερα δύσκολο να αντληθούν επαρκή δεδομένα για τη χρήση από τα αρχεία καταγραφής των εξυπηρετητών του WWW (Pitkow, 1997). Εντούτοις, ο στόχος δεν είναι το να αναδομηθεί με απόλυτη ακρίβεια η διαδρομή που ακολούθησαν οι χρήστες κατά την ανάκτηση αλλά να αναδομηθούν τα ζεύγη εκείνα που ικανοποιούν τα ομο-ανακτημένα τεκμήρια ή τα περιοδικά με στόχο την έγκυρη εκτίμηση της δύναμης της αμοιβαίας τους σχέσης.
clip_image002

Πίνακας 1. Ένα παράδειγμα τους μετασχηματισμένου αρχείου καταγραφής του Science Server που χρησιμοποιήθηκε για την αναδόμηση των περιπτώσεων ομο-ανάκτησης περιοδικών και τεκμηρίων. (Πηγή: Bollen, Vemulapalli, Xu, 2002)
clip_image003

Πίνακας 2. Περιπτώσεις ομο-ανάκτησης που αντλήθηκαν από το σύνολο των αιτημάτων ανάκτησης των χρηστών του Πίνακα 1. (Πηγή: Bollen, Vemulapalli, Xu, 2002)
Το σύνολο αναδομημένων περιπτώσεων ομο-ανάκτησης μπορεί στη συνέχεια να χρησιμοποιηθεί για να παραγάγει δίκτυα τεκμηρίων ή περιοδικών κάνοντας χρήση μιας μεθοδολογίας που σχετίζεται έντονα με το προηγουμένως αναφερθέν από τους Bollen and Heylighen (1998) για να εφαρμόσει την προσαρμοστική σύνδεση υπερκειμένων βάσει των διασταυρωμένων συχνοτήτων υπερσυνδέσεων που χρησιμοποιήθηκαν από τους χρήστες (Bollen, Vandesompel and Rocha, 1999Chan, 1999).
Τα δίκτυα τεκμηρίων και περιοδικών αναπαρίστανται από μια κατευθυνόμενη, γραφική παράσταση με βάρη που προτείνει ότι οι καθορισμένες σχέσεις είναι παρόμοιες με εκείνες που εμφανίζονται στις γραφικές παραστάσεις των παραπομπών: αναπαριστούν την κατευθυντήρια σχέση που υπάρχει μεταξύ ενός ολόκληρου τεκμηρίου και ενός άλλου, και η ύπαρξη ενός συνδέσμου μεταξύ του τεκμηρίου b και του τεκμηρίου α δεν προκύπτει από την ύπαρξη ενός συνδέσμου μεταξύ του τεκμηρίου α και του τεκμηρίου b. Ως εξαίρεση στις σχέσεις παραπομπών, οι σύνδεσμοι συνδέονται με μια αξία βάρους που εκφράζει τη δύναμη ή την εγκυρότητα του συνδέσμου, και αντλούνται από τα πρότυπα ομο-ανάκτησης των χρηστών περισσότερο, παρά από τη συχνότητα παραπομπής.
Μέσω μιας σειράς συναρτήσεων που περιγράφονται από τους Bollen, Venulapalli and Xu (2002), καταλήγουμε να αντιστοιχίσουμε κάθε ομο-ανάκτηση ci = (vi, vj, t(vi, vj)) σε μια μικρή τιμή εφαρμογής r προστεθειμένη στην εγγραφή του πίνακα mij που αντιπροσωπεύει την ισχύ της σχέσης μεταξύ των περιοδικών vi and vj. Από αυτή την άποψη, το σύνολο όλων των επικαλυπτόμενων «ιχνών» των ακολουθιών ανάκτησης χρηστών, ή των ομο-ανακτήσεων, παράγει βαθμιαία ένα δίκτυο περιοδικών που μπορεί να πραγματοποιηθεί για να αντιπροσωπεύσει τις επικαλυπτόμενες προτιμήσεις των ατόμων στην κοινότητα χρηστών για την οποία έχει παραχθεί το σύνολο των ομο-ανακτήσεων.
Οι παραχθέντες πίνακες υποτίθεται ότι παρουσιάζουν τις υπονοούμενες προτιμήσεις μιας κοινότητας χρηστών, όπως εκφράστηκαν στα πρότυπα ανάκτησης τεκμηρίων ή περιοδικών. Από τα παραχθέντα δίκτυα μπορούμε να δομήσουμε μετρήσεις της επιρροής των περιοδικών καθώς επίσης και μετρήσεις για το πώς η δομή των σχέσεων περιοδικών δείχνει προς τη μετατόπιση και τις αλλαγές στις προτιμήσεις χρηστών και στη σύνθεση και στη δομή της ίδιας της κοινότητας χρηστών. Τα αποτελέσματα μιας τέτοιας ανάλυσης είναι πολύ χρήσιμα στην αξιολόγηση των υπηρεσιών ΨΒ, την αξιολόγηση της έρευνας και των δημοσιεύσεων, την ανάλυση της εξέλιξης scientometric στη ευρύτερη επιστημονική κοινότητα (Borgman and Rice, 1992) και ως εργαλείο για τη διαχείριση ΨΒ για να ενημερώσουν σχετικές με την πολιτική τους αποφάσεις.
clip_image005Ο ορισμός του f(vi) σε αυτήν την πρόταση είναι απλός, δηλαδή f(vi) = 1. Επομένως κάθε τιμή του mij αντιστοιχεί ακριβώς στη συχνότητα με την οποία vi και vj περιλήφθηκαν σε μία περίπτωση ομο-ανάκτησης. Η συχνότητα με την οποία ένα άρθρο στο περιοδικό vi αναζητήθηκε, F(vi), είναι σύμφωνη με τον ορισμό στην Εξίσωση 2. Αναφερόμαστε στο F ως Journal Consultation Frequency (JCF).
clip_image006
Σαφώς αυτή η συχνότητα θα δείξει το βαθμό στον οποίο έχουν συμβουλευθεί ένα δεδομένο περιοδικό, στο πλαίσιο ενός συγκεκριμένου δείγματος των αρχείων καταγραφής του εξυπηρετητή WWW της ΨΒ, και επομένως αναπαριστά μία μέτρηση της επιρροής του περιοδικού μεταξύ των αναγνωστών που καθορίζεται ανεξάρτητα από τις συχνότητες παραπομπής. Απ’ τη στιγμή που η JCF έχει οριστεί ανεξάρτητα από τις σχέσεις παραπομπών, δεν περιορίζεται, δηλαδή, στις ακαδημαϊκές εκδόσεις, αντικατοπτρίζει τις προτιμήσεις των χρηστών περισσότερο, παρά των συγγραφέων και μπορεί να προσαρμοστεί σε συγκεκριμένες κοινότητες χρηστών.
Η συχνότητα χρήσης περιοδικών συγχέει δύο ευδιάκριτους παράγοντες:
1. Σχετικότητα ή επιρροή των περιοδικών σε μια συγκεκριμένη κοινότητα χρηστών.
2. Γενική επιρροή ή σχετικότητα ενός περιοδικού προς την ευρύτερη επιστημονική κοινότητα.
Παραδείγματος χάριν, το περιοδικό Science μπορεί να έχει μια υψηλή συχνότητα της χρήσης στο Los Alamos National Laboratory, αλλά αυτό ισχύει για οποιαδήποτε επιστημονική κοινότητα δεδομένου της γενικά υψηλής επιρροής αυτού του περιοδικού. Η ανίχνευση μιας υψηλής συχνότητας της χρήσης για αυτό το περιοδικό, επομένως, δεν αναδεικνύει κάποιο συγκεκριμένο χαρακτηριστικό γνώρισμα της κοινότητας χρηστών του LANL, αλλά συγχέει τη γενικότερη επιρροή των περιοδικών με την επιρροή για την συγκεκριμένη κοινότητα χρηστών του LANL.
Δεδομένου ότι η γενική επιρροή των περιοδικών εκφράζεται από το ISI IF (είναι βασισμένο στις συχνότητες παραπομπής των ερευνητών που δεν είναι περιορισμένοι σε μια συγκεκριμένη κοινότητα), οι τιμές JCF που καθορίζονται για μια συγκεκριμένη κοινότητα μπορούν να διαφέρουν από τις καθιερωμένες τιμές του IF για το ίδιο σύνολο περιοδικών. Υποθέτουμε ότι αυτές οι διαφορές ή αποκλίσεις είναι σημαντικότερες για περιοδικά που αντιστοιχούν καλύτερα στα συγκεκριμένα χαρακτηριστικά αυτής της κοινότητας. Με άλλα λόγια, το σύνολο των περιοδικών που χρησιμοποιούνται συχνότερα από την κοινότητα χρηστών του LANL, παρά την διαβάθμιση IF ίσως είναι το σύνολο των πιο ενδεικτικών περιοδικών που άπτεται των ενδιαφερόντων της κοινότητας χρηστών της LANL RL. Για να καθοριστούν τα περιοδικά, των οποίων η JCF παρεκκλίνει περισσότερο από τον IF, καθορίζεται η αναλογία απόκλισης του βαθμού επιρροής (IFDR), rf (vi), για ένα περιοδικό vi ως αναλογία μεταξύ του JCF και του ISI IF όπως φαίνεται στην Εξίσωση 3.
Εξίσωση 3. (Πηγή: Bollen, Vemulapalli, Xu, 2002)
clip_image008
Τα περιοδικά με τις υψηλότερες τιμές IFDR είναι εκείνα για τα οποία υπάρχει η υψηλότερη απόκλιση μεταξύ του IF και της JCF, και επομένως υποτίθεται πως είναι τα πιο χαρακτηριστικά περιοδικά για μια δεδομένη κοινότητα χρηστών.
Η πειραματική περίπτωση της Los Alamos National Laboratory
Research Library
Η Los Alamos National Laboratory (LANL) Research Library (RL) χρησιμοποιήθηκε ως δοκιμή για την προτεινόμενη μεθοδολογία. Μια μεγάλη μερίδα του καταλόγου της RL είναι διαθέσιμη σε ψηφιακή μορφή και οι αναγνώστες μπορούν να μεταφορτώσουν τα περισσότερα άρθρα περιοδικών στους υπολογιστές τους από τον ιστότοπο της RL. Έχουμε εστιάσει συγκεκριμένα στους χρήστες της υπηρεσίας LANL RL SciSearch επειδή ο εξυπηρετητής του κράτησε τα πληρέστερα αρχεία αιτημάτων των χρηστών για ανάκτηση άρθρων. Το σύνολο των καταχωρημένων αρχείων έχει εντούτοις επεκταθεί για το 2001 σε όλες τις υπηρεσίες της LANL RL.
Η βάση δεδομένων Los Alamos National Laboratory SciSearch είναι βασισμένη στο Science Citation Index, ένα προϊόν του Institute of Scientific Information που παρέχει ευρετηρίαση, παραπομπή και τα μεταδεδομένα για τα άρθρα που δημοσιεύονται σε μεγάλο αριθμό επιστημονικών περιοχών όπως π.χ. η αστρονομία, η βιολογία, η φυσική, η πληροφορική, η εφαρμοσμένη μηχανική, κ.λπ. Η LANL Research Library είναι συνδρομήτρια σε έναν μεγάλο αριθμό βάσεων δεδομένων εκδοτών που περιέχουν ψηφιακά αντίγραφα των τεκμηρίων που περιγράφονται βιβλιογραφικά στη βάση δεδομένων SciSearch. Οι χρήστες της SciSearch μπορούν με αυτόν τον τρόπο όχι μόνο να ψάξουν και να ανακτήσουν τις βιβλιογραφικές πληροφορίες ενός άρθρου, αλλά μπορούν επίσης να μεταφορτώσουν το ακριβές άρθρο από οποιαδήποτε από αυτές τις συνδρομητικές βάσεις δεδομένων έτσι ώστε μπορούν να διαβαστούν ή να τυπωθούν από τους υπολογιστές των χρηστών.
Η βάση δεδομένων περιέχει περισσότερες από 17,000,000 εγγραφές επί του παρόντος και ανανεώνεται σε εβδομαδιαία βάση.
Η Εικόνα 1α παρουσιάζει την ιστοσελίδα της Los Alamos National Library που προσφέρει πρόσβαση στη βάση δεδομένων SciSearch[2]. Διάφοροι τομείς κειμένων επιτρέπουν στο χρήστη να ψάξει σε διάφορα είδη βιβλιογραφικών πληροφοριών όπως το «όνομα συγγραφέα», «ο τίτλος», το «χρονολογία έκδοσης», «ISSN», κ.λπ.
Όταν ένα αίτημα αναζήτησης εισάγεται, η βάση δεδομένων SciSearch επιστρέφει έναν κατάλογο που περιέχει συνοπτικά τα μεταδεδομένα για όλα τα άρθρα που ικανοποιούν τα κριτήρια και τους συνδέσμους προς τις ηλεκτρονικές εκδόσεις εκείνων των άρθρων. Τα συνοπτικά μεταδεδομένα υπερσυνδέονται σε μια ακόλουθη σελίδα πληροφοριών που προσφέρει πιο εκτεταμένα μεταδεδομένα για το επιλεγμένο άρθρο, που συνοδεύεται από μια άλλη υπερσύνδεση προς την ψηφιακή έκδοση εκείνου του άρθρου. Ο χρήστης μπορεί να μεταφορτώσει ένα δεδομένο άρθρο επιλέγοντας την υπερσύνδεση που οδηγεί στην ψηφιακή έκδοση του άρθρου. Ένα νέο παράθυρο του φυλλομετρητή θα ανοίξει και το PDF αρχείο που περιέχει το άρθρο θα μεταφορτωθεί και θα προβληθεί (Εικόνα 1β).
clip_image010clip_image011
clip_image012

Science Server
Όλα τα αιτήματα χρηστών για μεταφόρτωση της ψηφιακής έκδοσης ενός άρθρου καταγράφονται και αποθηκεύονται στον εξυπηρετητή της LANL RL, με την διαδοχή με την οποία πραγματοποιούνται. Τα αρχεία καταγραφής του εξυπηρετητή καταχωρούν τον αριθμό IP ενός πραγματοποιηθέντος αιτήματος, την ημερομηνία και ώρα του αιτήματος, έναν προσδιορισμό του μεταφορτωμένου άρθρου (συμπεριλαμβανομένου του αριθμού ISSN) και έναν προσδιορισμό της υπηρεσίας για την οποία τα αρχεία καταγραφής του εξυπηρετητή έχουν καταχωρηθεί[3]. Ένα σύνολο αρχείων καταγραφής του εξυπηρετητή που καταγράφηκαν το 2001 για τα αιτήματα ανάκτησης από τις υπηρεσίες του LANL Science Server επελέγησαν για περεταίρω ανάλυση. Αυτά τα διαδικτυακά αρχεία έχουν καταγράψει 40.847 αιτήματα ανάκτησης για 20.720 μοναδικά τεκμήρια, δημοσιευμένα σε ένα σύνολο 1829 μοναδικών περιοδικών, που τέθηκαν από 1.858 μοναδικούς χρήστες.
Τα επιλεγμένα αρχεία διαμορφώθηκαν με την αντικατάσταση ολόκληρων των ονομάτων χρηστών ή των IP από ένα μοναδικό, αριθμητικό προσδιοριστικό για λόγους προστασίας των προσωπικών δεδομένων και την ταξινόμηση του αρχείου σύμφωνα με το χρήστη και την ημερομηνία/ώρα του αιτήματος. Τα τελευταία θα συγκέντρωναν όλα τα αιτήματα ανάκτησης σύμφωνα με την ταυτότητα του χρήστη, και την ημερομηνία και ώρα του αιτήματος. Μια μικρή εφαρμογή Java θα ανίχνευε όλα τα ταξινομημένα αιτήματα και θα παρήγαγε ένα σύνολο περιπτώσεων ομο-ανάκτησης. Σε αυτήν την περίπτωση το Δt, ελλείψει πληροφοριών για την τυπική χρονοκαθυστέρηση μεταξύ των επόμενων αιτημάτων, επελέγησαν τα 3.600s.
Αυτή η διαδικασία έχει υπολογιστικά πολύ λίγες απαιτήσεις και ολοκληρώθηκε σε λιγότερο από 20 σε έναν υπολογιστή εξοπλισμένο με έναν επεξεργαστή Pentium IV στα 1.6Ghz και 128mb RAM. Μια εφαρμογή της Java εφαρμόστηκε για την αυτοματοποιημένη ανάλυση μεγάλων αρχείων καταγραφής του εξυπηρετητή της ΨΒ. Η εφαρμογή μπορεί επί του παρόντος να διαβάσει οποιοδήποτε αρχείο των εξυπηρετητών της ΨΒ που περιέχει τουλάχιστον ένα στίγμα ημερομηνίας και ώρας, ταυτότητα χρήστη και ταυτότητα τεκμηρίου για κάθε αίτημα χρήστη. Οι πίνακες τεκμηρίων και περιοδικών μπορούν να παραχθούν σύμφωνα με έναν αριθμό διαφορετικών μεθόδων εκμάθησης, και να αποθηκευτούν σε ποικιλία μορφοτύπων. Η εφαρμογή επιτρέπει στο χρήστη να εξετάσει τους παραχθέντες πίνακες τεκμηρίων και περιοδικών με τη χρήση ενός δυναμικού γραφήματος απεικόνισης. Μια αποτύπωση της οθόνης της εφαρμογής προβάλλεται στην Εικόνα 2.
clip_image014
Εικόνα 2. Εφαρμογή Java που αναπτύχθηκε για την παραγωγή πινάκων τεκμηρίων και περιοδικών από τα αρχεία καταγραφής των εξυπηρετητών της ΨΒ LANL (Πηγή: Bollen, Vemulapalli and Xu, 2002)
Το παραχθέν σύνολο περιπτώσεων ομο-ανάκτησης τεκμηρίων χρησιμοποιήθηκε στη συνέχεια για να παραγάγει ένα δίκτυο σχέσης περιοδικών. Αν και η ανωτέρω περιγραφείσα μεθοδολογία θα μπορούσε να εφαρμοστεί στην παραγωγή ενός δικτύου συσχέτισης τεκμηρίων, επελέγη να παραχθεί ένα δίκτυο περιοδικών για ένα πρώτο πρωτότυπο δεδομένου ότι ο αριθμός τεκμηρίων (20.720) υπερέβη κατά πολύ τον αριθμό περιοδικών (1.829). Βρέθηκε ότι ο τελευταίος αριθμός θα παρήγαγε πιο εύχρηστα σύνολα στοιχείων για ένα πρώτο πρωτότυπο. Εντούτοις, η περιγραφείσα μεθοδολογία θα μπορούσε σε γενικές γραμμές αποτελεσματικά να εφαρμοστεί στην παραγωγή των δικτύων τεκμηρίων ή οποιοιδήποτε σύνολο στοιχείων για τα οποία οι περιπτώσεις ομο-ανάκτησης μπορούν να αναδημιουργηθούν από τα αρχεία του εξυπηρετητή της ΨΒ.
Ένα δίκτυο των σχέσεων περιοδικών παρήχθη και για τα 1.829 περιοδικά σύμφωνα με τον αλγόριθμο που περιγράφηκε στην Εισαγωγή, και που αναπαραστάθηκε από ένα πίνακα Μ 1.829×1.829. Ένα δείγμα του πίνακα που προκύπτει παρουσιάζεται στον Πίνακα 3 για τα 15 συχνότερα εμφανιζόμενα στα αρχεία του SciServer περιοδικά. Μια οπτική αναπαράσταση του παραχθέντος δικτύου περιοδικών παρουσιάζεται στην Εικόνα 3.
Εικόνα 3. Ο γράφος εμφανίζεις τις παραχθείσες συνδέσεις μεταξύ των δέκα συχνότερα χρησιμοποιηθέντων περιοδικών (Πηγή: Bollen, Vemulapalli and Xu, 2002)

clip_image016
Πίνακας 3. Δείγμα του παραχθέντος πίνακα συσχετίσεων περιοδικών για 15 περιοδικά που συνδέονται με την υψηλότερη βαθμολογία JCF (Πηγή: Bollen, Vemulapalli and Xu, 2002)

clip_image018
Ο παραχθείς πίνακας ήταν ιδιαίτερα μικρής πυκνότητας (0,176%), δείχνοντας τη συμπεριφορά ανάκτησης των χρηστών που στράφηκε σε έναν περιορισμένο αριθμό περιοδικών, ή ότι μόνο ένα περιορισμένο σύνολο περιοδικών μοιράζεται σημαντικές σχέσεις. Η διανομή των τιμών στον πίνακα Mt έδειξε το ίδιο: ο μέσος όρος βαρών συνδέσεων βρέθηκε να είναι 1,196 με μια σταθερή απόκλιση 0,821 για όλο το mij: mij > 0. Οι ελάχιστες και μέγιστες καταγραμμένες τιμές βρέθηκαν να είναι αντίστοιχες του 1 και 22, δείχνοντας ένα ευρύ φάσμα συχνοτήτων ομο-ανάκτησης.
clip_image020
Πίνακας 4. Δείγμα του παραχθέντος πίνακα συσχετίσεων περιοδικών για 15 περιοδικά που συνδέονται με την υψηλότερη βαθμολογία JCF (Πηγή: Bollen, Vemulapalli and Xu, 2002)
Ο Πίνακας 4 καταγράφει τα 5 ζευγάρια που αντιστοιχούν στις υψηλότερες συχνότητες ομο-ανάκτησης. Πράγματι, τα «PHYSICA B» και «PHYSICA C» ήταν αυτά που ομο-ανακτήθηκαν συχνότερα. Η συχνή ομο-ανάκτησή τους στο LANL δείχνει ότι συσχετίζονται έντονα για τα μέλη της επιστημονικής κοινότητας του LANL γεγονός που δεν εκπλήσσει δεδομένου ότι δημοσιεύουν τα άρθρα στους συναφείς ερευνητικούς τομείς, δηλαδή «Συμπυκνωμένα υλικά» και «Υπεραγωγιμότητα». Ομοίως, υψηλές συχνότητες ομο-ανάκτησης παρατηρήθηκαν για τα “NUCL INSTRUM METH A” και “IEEE T NUCL SCI”, και “PHYSICA B” και “J MAGN MAGN MATER” περιοδικά που δημοσιεύουν άρθρα με υψηλό βαθμό σχετικότητας προς τους τομείς έρευνας, σε αυτή την περίπτωση αναφορικά με πυρηνικά όργανα και πυρηνική επιστήμη και μαγνητικά υλικά και συμπυκνωμένα υλικά.
Οι τιμές JCF υπολογίστηκαν και για τα 1829 περιοδικά και οι τιμές IF ανακτήθηκαν από το οι τιμές ανακτήθηκαν από τη βάση δεδομένων Institute for Scientific Information Journal Citation Records. Τα 15 περιοδικά που αντιστοιχούν στις υψηλότερες τιμές JCF στο παραχθέν δίκτυο παρουσιάζονται στον Πίνακα 5, και ακολουθούνται από τις αντίστοιχες τιμές IF. Προφανώς, αυτός ο κατάλογος περιοδικών δεν αντιστοιχεί σε αυτό που σε άλλη περίπτωση θα ήταν αναμενόμενο να είναι τα περιοδικά στα οποία ανατρέχουν συχνότερα για άλλους φορείς ή την επιστημονική κοινότητα γενικά. Τουλάχιστον 4 των απαριθμημένων περιοδικών αντιστοιχούν στην πυρηνική επιστήμη, η οποία αφορά σαφώς τη γενική αποστολή του LANL. Μια μεγάλη πλειοψηφία των απαριθμημένων περιοδικών επιπλέον αντιστοιχεί στη φυσική και την επιστήμη των υλικών, η οποία είναι μια άλλη ένδειξη ότι η αξιοποίηση της συχνότητας χρήσης των περιοδικών έχει καλώς επιλεγεί ως χαρακτηριστικό της ερευνητικής κοινότητας του LANL, δηλαδή η εστίασή της στη φυσική και πιο συγκεκριμένα στην πυρηνική φυσική.
Ανακτήθηκε το IF[4] ISI του έτους 2000 για το ίδιο σύνολο των 15 περιοδικών που σημείωσαν την υψηλότερη βαθμολογία στο JCF και παρατίθενται στον Πίνακα 5. Αν και τα περισσότερα περιοδικά φέρουν σχετικά υψηλό IF, ο IF δεν φαίνεται να αρμόζει στην ταξινόμηση αυτών των περιοδικών σύμφωνα με την κατάταξή τους στο LANL JCF. Υπολογίστηκε ο συσχετισμός μεταξύ JCF και ISI IF, όπου ήταν διαθέσιμοι. Οι IF μπόρεσαν να ανακτηθούν για τα 1.033 από τα 1.829 περιοδικά. Η κατάταξη Spearman καθόρισε ότι η συσχέτιση μεταξύ των βαθμών JCF και IF ήταν 0,13 (p < 0,05), αναδεικνύοντας μια στατιστικά σημαντική αλλά αδύναμη σχέση μεταξύ της βαθμολογίας του JCF και του ISI IF για τα περιοδικά. Η σκεδαστική αποτύπωση των ανακτημένων τιμών IF και JCF προβάλλεται στο Εικόνα 4 και απεικονίζει την αδύναμη σχέση μεταξύ των τιμών JCF και IF για την κοινότητα χρηστών.
Οι τιμές rf (Impact Factor Discrepancy Ratio - Αναλογία Απόκλισης Παράγοντα Επιρροής) ορίστηκαν για το σύνολο των 1.033 περιοδικών για τα οποία οι τιμές IF ήταν διαθέσιμες. Ο Πίνακας 6 καταγράφει τα 15 περιοδικά που αντιστοιχούν στις υψηλότερες τιμές rf. Η διάταξη των περιοδικών σύμφωνα με τις τιμές του rf τους διαφέρει έντονα από την παραχθείσα κατάταξη που προκύπτει από την διάταξη σύμφωνα με τις τιμές JCF. Ο κατάλογος που παρουσιάζεται στον Πίνακα 4 χαρακτηρίζεται από την παρουσία περιοδικών στους τομείς της φυσικής, της πυρηνικής φυσικής καθώς επίσης και της αεροναυτικής και της διαστημικής επιστήμης. Συγκεκριμένα, η υψηλή θέση στην κατάταξη rf των περιοδικών “ASTROPHYS SPACE SCI”, “ADV SPACE RES”, “ACTA ASTRONAUT” and “AEROSP SCI TECHNOL” αναδεικνύει τη συγκεκριμένη επιρροή ή τη σημασία αυτών των περιοδικών για την ερευνητική κοινότητα του LANL παρά τη χαμηλή βαθμολογία τους στην κατάταξη του IF.
Ομοίως, ένας αριθμός περιοδικών πυρηνικής επιστήμης που δεν κατέλαβαν υψηλή θέση στη βαθμίδα σύμφωνα με τις τιμές JCF τους, εντούτοις αντιστοιχούσαν σε υψηλές τιμές rf, π.χ. «NUCL ENG DES» και «PROG NUCL ENERG». Μια αξιοσημείωτη εξαίρεση στην επικράτηση των περιοδικών πυρηνικής επιστήμης και φυσικής και στην κατάταξη JCF και στο rf είναι το υψηλό αποτέλεσμα rf του περιοδικού «COMPUT EDUC» που παρά τον πολύ χαμηλό IF διεκδικεί ακόμα ένα σχετικά υψηλό JCF. Αυτό το περιοδικό εμφανίζεται να είναι περισσότερο αντιπροσωπευτικό για την ερευνητική κοινότητα του LANL ή τουλάχιστον μιας ορισμένης μερίδας αυτής της κοινότητας απ’ ότι θα αναμενόταν από τις κατατάξεις JCF και IF.
clip_image022
Πίνακας 5. Λίστα των τίτλων των 15 περιοδικών που εμφανίζονται συχνότερα στον LANL RL Science Server (Πηγή: Bollen, Vemulapalli and Xu, 2002)
clip_image024
Εικόνα 4. Το σκεδαστικό διάγραμμα των ανακτηθέντων τιμών IF πάνω από το JFC για ένα σύνολο 1033 περιοδικών. (Πηγή: Bollen, Vemulapalli and Xu, 2002)
clip_image026
Πίνακας 6. Λίστα των τίτλων των 15 περιοδικών που έλαβαν τον υψηλότερο βαθμό JCF και ο αντίστοιχος ISI IF τους. (Πηγή: Bollen, Vemulapalli and Xu, 2002)
Αυτά τα προκαταρκτικά αποτελέσματα δείχνουν ότι έχουμε όντως απομονώσει ένα σύνολο περιοδικών που σχετίζονται έντονα με τα συγκεκριμένα χαρακτηριστικά και τη σύνθεση της ερευνητικής κοινότητας του LANL μέσω των τιμών JCF και rf, και ήταν σε θέση να ταξινομήσουν αυτά τα περιοδικά σύμφωνα με τη μέτρηση του βαθμού επιρροής τους μεταξύ εκείνης της κοινότητας. Αν και μια παρόμοια αξιολόγηση θα μπορούσε να έχει γίνει βασισμένη στην εμπειρία και τη διαίσθηση της διαχείρισης ΨΒ, αυτή η μεθοδολογία παρέχει ποσοτικά μέσα για τη σύγκριση του βαθμού επιρροής και τη σημασία που αποδίδεται σ’ ένα δεδομένο συνόλο περιοδικών, ή τεκμηρίων, για μια συγκεκριμένη κοινότητα χρηστών, και με αυτόν τον τρόπο επιτρέπει, επίσης, και μια ποσοτική αξιολόγηση των χαρακτηριστικών αυτής της κοινότητας.
Μετά την έρευνα στα αρχεία καταγραφής στον εξυπηρετητή της LANL DL τα έτη 1998 και 2001, σύμφωνα με τη μέθοδο και τα αποτελέσματα που περιγράφηκαν παραπάνω, οι Bollen, Vemulapalli and Xu σε συνεργασία με τον Luce, ο οποίος ανήκει στο προσωπικό της LANL DL, συνέχισαν να ερευνούν προς την κατεύθυνση της αξιολόγησης της ΨΒ βάσει των προτύπων αναζήτησης των χρηστών.
Πιο συγκεκριμένα, ενώ αρχικά, όπως έχουμε ήδη αναφέρει, χρησιμοποιήθηκαν τα στοιχεία ομο-ανάκτησης προκειμένου να παραχθούν δίκτυα άρθρων και περιοδικών, στη τρίτη φάση της έρευνας, η προσοχή εστιάστηκε στην μεταβολή που υπήρξε εντός της δομής αυτών των παραχθέντων δικτύων από το 1998 έως το 2001. Ο εντοπισμός των περιπτώσεων ομο-ανάκτησης παύει να είναι το αντικείμενο, καθώς από την έρευνα στα αρχεία καταγραφής στις 2 προηγούμενες φάσεις, το 1998 και το 2001, είχε ολοκληρωθεί η "χαρτογράφηση" των δικτύων περιοδικών. Αυτή τη φορά, εξετάζεται το πώς διαμορφώθηκαν οι ανάγκες των χρηστών της ΨΒ με το πέρας της τριετίας. Με την ίδια μεθοδολογία, γίνεται σύγκριση των δικτύων περιοδικών όπως είχαν περιγραφεί το 1998 και στη συνέχεια το 2001 προκειμένου να διαπιστωθεί τόσο η αλλαγή των πληροφοριακών αναγκών των χρηστών όσο και αυτή που σημειώθηκε στη συμπεριφορά τους κατά την αναζήτηση. Εδώ πρέπει να σημειωθεί ότι συνεχίζει να ισχύει και η σύγκριση με το ISI IF των περιοδικών που εντάσσονται στο δίκτυο καθώς μεταβολές παρατηρήθηκαν κατά το ίδιο διάστημα και στον IF που δημοσιεύεται.
Στόχος της νέας αυτής έρευνας είναι να αξιολογηθεί η ψηφιακή βιβλιοθήκη ώστε όχι μόνο να σχεδιάσει την πολιτική προσκτήσεών της με τρόπο τέτοιο που να ικανοποιεί τόσο τις νέες ερευνητικές τάσεις των χρηστών της, όσο και τις απαιτήσεις τους, όπως έχουν πλέον διαμορφωθεί.
Η παρούσα εργασία προτείνει μια μεθοδολογία για την μέτρηση του βαθμού επιρροής ενός συνόλου περιοδικών και τεκμηρίων που απεικονίζουν τα χαρακτηριστικά μιας δεδομένης κοινότητας χρηστών. Η μεθοδολογία στηρίζεται στην αναδόμηση των περιπτώσεων ομο-ανάκτησης που αντλούνται από τα αρχεία των εξυπηρετητών της ΨΒ προκειμένου να παραχθούν δίκτυα τεκμηρίων ή περιοδικών. Από αυτά τα δίκτυα εξήχθησαν μετρήσεις του βαθμού επιρροής των περιοδικών μεταξύ των χρηστών, όπως ο JCF και το rf. Εντούτοις, η παρουσιασμένη ανάλυση δεν εξαντλεί τις πολλές δυνατότητες που τα παραχθέντα δίκτυα προσφέρουν από την άποψη της αξιολόγησης των υπηρεσιών της ΨΒ και των κοινοτήτων χρηστών.
Πρόσφατες απόπειρες έχουν επικεντρωθεί στην διερεύνηση συγκεκριμένων γραφο-θεωρητικών χαρακτηριστικών των παραχθέντων δικτύων τεκμηρίων βάσει της ανάλυσης των ιεραρχικών δεσμών και της Λανθάνουσας Σημασιολογικής Ανάλυσης.
Αρχικά, η ανάλυση δεσμών θα καταστήσει δυνατή όχι μόνο την κατάταξη περιοδικών και τεκμηρίων σύμφωνα την καθορισμένη από τους χρήστες τους επιρροή αλλά επίσης και την παραγωγή δεσμών περιοδικών που μπορούν να συσχετιστούν με συγκεκριμένες δέσμες των χρηστών ΨΒ. Αν και τα τρέχοντα αρχεία δεδομένων είναι για λόγους μυστικότητας ανώνυμα, τα στοιχεία εντούτοις θα αποκαλύψουν ορισμένα χαρακτηριστικά γνωρίσματα της δομής της ελλοχεύουσας κοινότητας χρηστών. Αυτές οι πληροφορίες μπορούν να ενημερώσουν τις πολιτικές ΨΒ σχετικά με την προσαρμογή των υπαρχουσών παρεχομένων για τις ανάγκες των συγκεκριμένων υποομάδων χρηστών υπηρεσιών που σε άλλη περίπτωση δε θα είχαν εντοπιστεί. Πράγματι, είναι αρκετά εύλογο ότι η οργανωτική δομή ενός ερευνητικού οργανισμού μόνο μερικώς εντοπίζει τις πολλές λανθάνουσες ομάδες χρηστών που καθορίζονται από κοινά ενδιαφέροντα και προτιμήσεις που αυτή η μέθοδος θα αποκάλυπτε.
Δεύτερον, μια Λανθάνουσα Σημασιολογική Ανάλυση (LSA) (Foltz, 1990Letsche and Berry, 1997) μπορεί να χρησιμοποιηθεί για να αποκαλύψει την ελλοχεύουσα σημασιολογική δομή των σχέσεων τεκμηρίων και περιοδικών και να ενισχύσει στην προσαρμοστική θεματική κατηγοριοποίηση μιας συλλογής ΨΒ. Επιπλέον, όπως τα σύνολα δεδομένων αυξάνονται σε μέγεθος, ανάλογα αυξάνουν και οι παραχθέντες πίνακες περιοδικών και τεκμηρίων. Αν και οι παραχθέντες πίνακες αναμένεται να είναι εξαιρετικά σκεδαστικοί, το LSA μπορεί επίσης να ωφελήσει την ανάλυση καθιστώντας δυνατή την παραγωγή προσεγγίσεων χαμηλότερα στην κατάταξη που απαιτούν τη λιγότερη αποθήκευση και μπορεί να αναλυθεί αποτελεσματικότερα.
Η προτεινόμενη μεθοδολογία έχει αποδείξει ότι παράγει αποτελέσματα σχετικά με την αξιολόγηση των συλλογών ΨΒ και την αξιολόγηση των χαρακτηριστικών των χρηστών. Οραματιζόμαστε την επέκταση της παρούσας σειράς εφαρμογών. Η παρούσα ανάλυση πραγματοποιήθηκε σε ένα μάλλον μικρό σύνολο αρχείων του εξυπηρετητή ΨΒ και εστίασε σε μια συγκεκριμένη υπηρεσία αναζήτησης. Εντούτοις, το Los Alamos National Laboratory DL, όπως πολλές ΨΒ κάνουν, παραγάγει αρχεία εξυπηρετητών πολλαπλάσιου του συζητουμένου μεγέθους. Λαμβάνοντας υπόψη τις παρούσες εμπειρίες μας, συμπεραίνεται με ασφάλεια ότι η παρούσα μεθοδολογία και τα εργαλεία μπορούν να προσαρμοστούν σε σύνολα δεδομένων διαφόρων μεγεθών, μεγαλύτερα από αυτά που έχουν υποβληθεί σε επεξεργασία αυτή τη στιγμή.
Η ανάλυση μεγαλύτερων συνόλων δεδομένων είναι μια απαίτηση για την καθιέρωση της εγκυρότητας και αξιοπιστίας αυτής της προσέγγισης. Σε παρόμοια μέθοδο, τα αρχεία των εξυπηρετητών ΨΒ που καταχωρούνται σε διαφορετικούς χρόνους μπορούν να αναλυθούν, έτσι ώστε τα παραχθέντα δίκτυα τεκμηρίων και περιοδικών να μπορούν να χρησιμοποιηθούν για να ανιχνεύσουν αλλαγές στις κοινότητες χρηστών και τις επακόλουθες αλλαγές στον βαθμό επιρροής των περιοδικών. Τέτοια ανάλυση μπορεί να επιτρέψει στη διαχείριση ΨΒ να προσδοκεί τις μελλοντικές εξελίξεις και να αποκριθεί με τις κατάλληλες αλλαγές στις πολιτικές παροχής υπηρεσιών και προσκτήσεων. Περαιτέρω πειραματισμός με τις διαφορετικές λειτουργίες εκμάθησης και παραμέτρων πιθανόν θα έφερνε εγγυημένα αποτελέσματα. O Helighen (2001) εξετάζει παρόμοιους μηχανισμούς για την παραγωγή σχέσεων λέξεων και τεκμηρίων που εξάγουν μετρήσεις για τα ενδιαφέροντα των χρηστών από τον χρόνο που αφιερώνουν διαβάζοντας ένα τεκμήριο, και διαμορφώνει την προσαρμογή βάρους συνδέσεων σύμφωνα με το ενδιαφέρον των χρηστών. Αν και η προτεινόμενη μέθοδος εκμάθησης αναπτύχθηκε για εφαρμογές στο WWW, μπορεί να προσαρμοστεί και σε περιβάλλον ΨΒ.
Τα παραχθέντα δίκτυα τεκμηρίων και περιοδικών μπορούν να εφαρμοστούν στην δόμηση των νέων συμβουλευτικών υπηρεσιών όπως η Spreading Activation (δράση διάδοσης) (Bollen, Vandesompel and Rocha, 1999) που διαδίδει τιμές ενεργοποίησης στις συνδέσεις δικτύων για ανάκτηση σχετικών τεκμηρίων. Αυτός ο τύπος ανάκτησης είναι ανεξάρτητος από το κειμενικό περιβάλλον και τα μεταδεδομένα καθώς στηρίζεται στις σχέσεις τεκμηρίου και περιοδικού που καθιερώνονται από τα πρότυπα ανάκτησης των χρηστών.
Από τη μελέτη της βιβλιογραφίας προέκυψαν οι ακόλουθοι προβληματισμοί:
Ø Είναι προτιμότερο οι ΨΒ να χρησιμοποιούν ως κριτήριο στις προσκτήσεις το ISI IF ή να μπαίνουν στη διαδικασία να πραγματοποιούν έρευνες αντίστοιχες με αυτές που έγιναν στην ΨΒ του Los Alamos National Laboratory ώστε να παράγουν τους δικούς τους IF που θα προέρχονται από την ανάλυση της κοινότητας των χρηστών τους;
Ø Πόσο εύκολο / χρήσιμο είναι αυτό να εφαρμοστεί σε βιβλιοθήκες στις οποίες η κοινότητα χρηστών δεν είναι τόσο περιορισμένη;
Ø Σε τι βαθμό είναι σε θέση να επηρεάσει η πραγματοποίηση μιας αντίστοιχης έρευνας και η αξιοποίηση των αποτελεσμάτων της την πολιτική της βιβλιοθήκης;
Ø Υπάρχει κάποια αντίστοιχη δράση στον ελληνικό χώρο; Κατά πόσον μπορεί μια τέτοια μέθοδος να αξιοποιηθεί στις υβριδικές βιβλιοθήκες που είναι η πιο συνηθισμένη μορφή στις μέρες μας;
Γλωσσάρι
ΟΡΟΣ ΠΡΩΤΟΤΥΠΟΥ (Αγγλικά) ΟΡΟΣ ΜΕΤΑΦΡΑΣΗΣ (Ελληνικά)
Co-retrieval Ομο-ανάκτηση
Download Μεταφορτώνω / Μεταφόρτωση
Impact factor Βαθμός επιρροής
Interface Διεπαφή
Log files Αρχεία καταγραφής
Patterns Πρότυπα
Server Εξυπηρετητής
Website Ιστότοπος

Βιβλιογραφία
Άρθρα περιοδικών και εισηγήσεις συνεδρίων
Bollen, J. (2000), Group user models for personalized hyperlink recommendation. In LNCS 1892 - International Conference on Adaptive Hypermedia and Adaptive Web-based Systems (AH2000), pages 39–50, Trento, August 2000. Springer Verlag.
Bollen, J. and Heylighen, F. (1998), A system to restructure hypertext networks into valid user models. The New Review of Hypermedia and Multimedia, 4:189–213.
Bollen, J., Luce, R., Vemulapalli, S. S., & Xu, W. (2003). Usage analysis for the identification of Research trends in digital libraries. D-Lib Magazine, 9(5), Ανάκτηση 6/2/2008 από http://www.dlib.org/dlib/may03/bollen/05bollen.html
Bollen, J. and Rocha, L. M. (2000), An adaptive systems approach to the implementation and evaluation of digital library recommendation systems. In LNCS - Fourth European Conference on Research and Advanced Technology for Digital Libraries (ECDL2000), Lisbon, September 2000. Springer Verlag.
Bollen, J., Vandesompel, H. and M. Rocha, L. M. (1999), Mining associative relations from website logs and their application to context-dependent retrieval using spreading activation. In Proceedings of the Workshop on Organizing Webspaces (ACM-DL99), Berkeley, California, 1999. in preparation.
Bollen, J., Vemulapalli, S., and Xu, W. (2002), Digital Library Evaluation by Analysis of User Retrieval Patterns. In Proceedings of the 6th European Conference on Research and Advanced Technology For Digital Libraries (September 16 - 18, 2002). M. Agosti and C. Thanos, Eds. Lecture Notes In Computer Science (LNCS), vol. 2458. Springer-Verlag, London, p.p 432-447.
Borgman, C. L. and Rice, R. E. (1992), The convergence of information science and communication: A bibliometric analysis. Journal of the American Society for Information Science, 43(6):397–411, 1992
Chan, P. K. (1999), Constructing web user profiles: a non-invasive learning approach. In Brij Masand and Myra Spiliopoulou, ed., Web Usage Analysis and User Profiling – LNAI 1836, San Diego, CA, August 1999. Springer.
Foltz, P. W. Using latent semantic indexing for information filtering. (1999), In R. B. Allen, ed., Proceedings of the Conference on Office Information Systems, pages 40–47, Cambridge, MA, 1990.
Garfield, E. (1979), Citation Indexing: Its Theory and Application in Science, Technology, and Humanities. John Wiley and Sons, New York, 1979.
Heylighen, F. (2001), Mining associative meanings from the web: from word disambiguation to the global brain. In R. Timmerman and M. Lutjeharms, editors, Proceedings of the International Colloqium: Trends in Special Language and Language Technology, pages 15 – 44, Antwerpen, Belgium, 2001. Standaard Editions.
Kaplan, N. R. and Nelson, M. L. (2000), Determining the publication impact of a digital library. Journal of the American Society of Information Science, 51:324–339, 2000.
Kostoff, R. N. (1998), The use and misuse of citation analysis in research evaluations. Scientometrics, 43(1):27–43.
Letsche, T. A. and Berry, M. W. (1997), Large-scale information retrieval with latent semantic indexing. Information Sciences, 100:105–137.
MacRoberts, M. H. and MacRoberts, B. R. Problems of citation analysis: A critical review. Journal of the American Society for Information Science, 40(5):342–349, 1989.
Opthof, T. Sense and nonsense about the impact factor. Cardiovascular Research, 33:1–7, 1997.
Pirolli, P. and Pitkow, J. E.. Distributions of surfers’ paths through the world wide web:empirical characterization. World Wide Web, 2(1,2):29–45, 1999.
Pitkow, J. In search of reliable usage data on the www. In Proceedings of the Sixth International WWW Conference, Santa Clara, California, April 7-11 1997.
Reedijk, J. Sense and nonsense of science citation analyses: comments on the monopoly position of isi and citation inaccuracies. risks of possible misuse and biased citation and impact data. New J. Chem., pages 767–770, 1998.
Rocha, L. M.. Talkmine and the adaptive recommendation project. In Proceedings of ACM Digital Libraries 99, Berkeley, California, August 1999.
Vandesompel, H. Reference linking in a hybrid library environment (i). DLib Magazine, 5(4), 1999.
Muraskin, L. D., Understanding Evaluation: The Way to Better Prevention Programs, 1993. Διαθέσιμο από http://www.ed.gov/PDFDocs/handbook.pdf Last modified -- December 28, 1998, τελευταία προσπέλαση 6/2/2008
House, E.R. Evaluating with validity, Sage Publications, 1980
Karwowski and Rodrick (2003) Ergonomics in Encyclopedia of Information Systems, Volume 2, p. 185-201 c2003, Elsevier Science (USA)
Μείζον ελληνικό λεξικό: ορθογραφικό, ερμηνευτικό, ετυμολογικό, συνωνύμων, αντιθέτων, κυρίων ονομάτων. Τεγόπουλος – Φυτράκης, 1997.

[1] Το abstract που παρατίθεται είναι αυτούσια μεταφορά του abstract του άρθρου των Bollen, Vemulapalli and Xu, 2002 καθώς η δική τους έρευνα είναι αυτή που κυρίως απασχολεί την παρούσα εργασία.
[2] Δυστυχώς, η συγκεκριμένη ιστοσελίδα είναι απεικόνιση της παλιότερης βάσης SciSearch, η οποία αντικαταστάθηκε από την SciSearch Plus το Φεβρουάριο του 2003 και στην οποία δε δίνεται πρόσβαση σε χρήστες υπολογιστών που δεν ανήκουν στο δίκτυο της ψηφιακής βιβλιοθήκης ή του ερευνητικού ιδρύματος.
[3] Ο σκοπός αυτού του αντικειμένου είναι η μελλοντική αποσαφήνιση των καταγεγραμμένων αρχείων του εξυπηρετητή για διαφορετικές υπηρεσίες.
[4] Ο IF του 2001 δεν είχε δημοσιευτεί ακόμα.

Δεν υπάρχουν σχόλια: