Όλοι μας μετατρέπουμε σιγά σιγά τις μουσικές συλλογές μας σε αρχεία αποθηκευμένα στον σκληρό δίσκο του υπολογιστή μας. Αν θυμηθούμε πριν από αρκετά χρόνια τα mp3s των 128 Kbps κυριαρχούσαν ενώ τώρα οι περισσότεροι τα σνομπάρουμε γιατί δεν έχουν καλή ποιότητα. Θα προσπαθήσω να περιγράψω σε συνέχειες τον τρόπο με τον οποίο προσπαθώ να αντιμετωπίσω την δική μου συλλογή, τα προγράμματα που χρησιμοποιώ για τον σκοπό αυτό και κυριότερα το γιατί επιλέγω αυτά που επιλέγω. Δεν ισχυρίζομαι πως αυτό που κάνω είναι το σωστότερο, ούτε ο μοναδικός τρόπος να περάσετε την μουσική συλλογή σας στον υπολογιστή σας.
Σε πολλά σημεία υπάρχουν αποφάσεις και επιλογές ανάλογα με το τι θέλει ο καθένας και πως φαντάζεται τις ανάγκες του για αναπαραγωγή των συγκεκριμένων αρχείων.
Επίσης είναι τόσο ευρύ το θέμα που αναγκαστικά θα περιοριστώ στα απολύτως απαραίτητα που αφορούν το ηχητικό μέρος αφήνοντας απ έξω ότι έχει να κάνει με τα συνοδευτικά (πληροφορίες, metadata, εξώφυλλα δίσκων, βάσεις δεδομένων για να χειρίζεται κανείς την συλλογή του). Ακόμα όμως και αυτό είναι υπερβολικά ευρύ, οπότε θα αφήσω έξω κατά μέρος ηχογραφήσεις προσωπικές και θέματα ηχοληψίας και mastering.
Αναλογικός και ψηφιακός ήχος
Γενικά
Ο ήχος διαδίδεται ως κύμα και όπως όλα τα κύματα έχει ορισμένα βασικά χαρακτηριστικά:
Το εύρος δόνησης (amplitude) που δεν είναι παρά η μεταβολή της πίεσης από το μέγιστο σημείο στο ελάχιστο.
Ο κύκλος που εκφράζει μια πλήρη επαναλαμβανόμενη αλληλουχία πίεσης από μηδενική, στη μέγιστη, στην ελάχιστη και πάλι στην μηδενική.
Η συχνότητα που εκφράζει κύκλους ανά δευτερόλεπτο
Η φάση που χαρακτηρίζει σε ποιο σημείο του κύκλου βρισκόμαστε.
Η μηδενική πίεση είναι το αρχικό σημείο, στις 90 μοίρες έχουμε την μέγιστη πίεση, στις 270 την ελάχιστη και στις 360 έχουμε επιστρέψει στη μηδενική.
Μήκος κύματος είναι η απόσταση 2 σημείων που έχουν την ίδια ακριβώς φάση.
Φυσικά τα ηχητικά κύματα που φτάνουν στα αυτιά μας δεν είναι απλά όπως αυτό που περιγράφηκε παραπάνω, αλλά οι συνισταμένες όλων των επιμέρους ήχων που μπορούμε να αντιληφθούμε.
Το μικρόφωνο μετατρέπει την θετική πίεση του ηχητικού κύματος σε θετική διαφορά δυναμικού και την αρνητική αντίστοιχα. Έτσι ο ήχος μπορεί να αποθηκευτεί αναλογικά στα αντίστοιχα μέσα (μαγνητικές ταινίες - δίσκοι βινυλίου).
Αντίθετα τα ψηφιακά μέσα δεν μπορούν να χειριστούν τέτοιας φύσης δεδομένα παρά μόνο δυαδικά δεδομένα. Άρα το πραγματικό ηχητικό κύμα πρέπει να χωριστεί σε επιμέρους στιγμιότυπα των οποία ονομάζονται δείγματα (samples).
Το πρώτο ζήτημα που τίθεται είναι πόσα δείγματα χρειάζονται ανά δευτερόλεπτο έτσι ώστε να μπορέσει να περιγραφεί ικανοποιητικά ένα κύμα.
Αυτό εκφράζεται μέσω της συχνότητας δειγματοληψίας (sample rate) και έχει δειχτεί μαθηματικά πως για να μπορέσει να αναπαραχθεί ένα κύμα μιας συγκεκριμένης συχνότητας η συχνότητα δειγματοληψίας πρέπει να είναι τουλάχιστον διπλάσιά της. Έτσι στα CDs που η συχνότητα δειγματοληψίας είναι 44100 δείγματα ανά δευτερόλεπτο μπορούν να περιγραφούν συχνότητες μέχρι τα 22050 Ηz (το ανώτατο όριο που μπορεί να αντιληφθεί το αυτί μας είναι περίπου 20000 Ηz)
Προσέξτε όμως λίγο το παρακάτω διάγραμμα:
Στο (Α) βλέπετε πως μια χαμηλή συχνότητα δειγματοληψίας όχι απλά δεν περιγράφει σωστά κάποια κυματομορφή, αλλά και μπορεί να οδηγήσει
σε μια πλασματική κυματομορφή μικρότερης συχνότητας από την πραγματική.
Κατά συνέπεια οι υψηλές συχνότητες ( > 20000 Hz που απαιτούν και την μεγαλύτερη συχνότητα δειγματοληψίας) που κανονικά δεν γίνονται αντιληπτές μπορεί να οδηγήσουν σε πλασματικές κυματομορφές συχνότητας μικρότερης από 20000 Hz που όμως είναι πλέον αντιληπτές από το αυτί μας.
Άρα το πρώτο συμπέρασμα: Φροντίστε να διατηρήσετε την συχνότητα δειγματοληψίας στα 44100 Hz αν πρόκειται για ριπάρισμα από CD.
Τι είναι όμως αυτό το οποίο μετράται και αποθηκεύουμε σε κάθε δείγμα που πέρνουμε από την κυματομορφή μας;
Μα το εύρος της δόνησης της εκείνη τη στιγμή.
Όσο περισσότερα bits διαθέσουμε γι αυτή την πληροφορία, τόσο μεγαλύτερο πλήθος τιμών θα έχουμε για τη συγκεκριμένη τιμή εύρους άρα τόσο καλύτερα αυτή θα αποκρίνεται στην πραγματικότητα κι έτσι το εύρος δυναμικότητας θα είναι μεγαλύτερο επιτρέποντας να ορίσουμε χαμηλότερο επίπεδο θορύβου και τελικά υψηλότερη πιστότητα ήχου.
Έτσι ένα αρχείο ήχου wav στον δίσκο σας αποτελείται από μια μικρή επικεφαλλίδα με πληροφορίες για τη συχνότητα δειγματοληψίας και το εύρος των bit που χρησιμοποιούνται και μια σειρά αριθμών για κάθε δείγμα.
Έτσι αν έχουμε 44100 δείγματα το δευτερόλεπτο με 16 bits ανά δείγμα χρειαζόμαστε 86ΚΒ ανά δευτερόλεπτο (5ΜΒ ανά λεπτό) για κάθε κανάλι.
Επειδή τα CD έχουν 2 κανάλια αυτό σημαίνει κατά προσέγγιση 10ΜΒ το λεπτό.
Βιβλιογραφία:
Το αρχείο βοήθειας του Adobe Audition v. 2.0
Οι δύο βασικές διαδικασίες που πρέπει να κάνουμε είναι να
1) Μεταφέρουμε τα ηχητικά δεδομένα από το CD στον υπολογιστή και να
2) Κωδικοποιήσουμε τον ήχο στο πρότυπο της αρεσκείας μας.
Μεταφορά από το CD στον υπολογιστή
Σ’ ένα CD τα μουσικά δεδομένα γράφονται πάνω σε μια σπειροειδή διαδρομή (περίπου όπως στα βινύλια). Έτσι τα δεδομένα παρουσιάζονται σαν μακριές αλυσσίδες ψηφιακών δεδομένων που θα μπορούσαν να διαβαστούν συνεχόμενα.
Δεν υπάρχουν δηλαδή εκείνα τα δεδομένα και η δομή που δημιουργεί τους λογικούς τομείς (sectors) σταCD-ROM.
Το μόνο που υπάρχει είναι ένας εσωτερικός δείκτης χρόνου που δείχνει σε ποιο σημείο βρισκόμαστε με προσέγγιση 1/75 του δευτερολέπτου.
Αυτό σημαίνει πως η συσκευή δεν έχει την δυνατότητα να προσδιορίσει με ακρίβεια μεγαλύτερη του 1/75 του δευτερολέπτου το σημείο από το οποίο θα ξεκινήσει η ανάγνωση των δεδομένων. Αυτό κανονικά δεν αποτελεί πρόβλημα γιατί συνήθως η ανάγνωση ξεκινά στην αρχή του κάθε τραγουδιού (track) όπου συνήθως υπάρχει σιωπή.
Πρόβλημα θα αρχίσει να υπάρχει αν για κάποιο λόγο ο υπολογιστής δεν μπορεί να πάρει τα δεδομένα από την συσκευή γρήγορα και το CD-ROM καλείται να ξαναδιαβάσει κάποιο σημείο. Σε αυτή την περίπτωση επειδή ακριβώς το σημείο που παρουσιάστηκε το πρόβλημα δεν μπορεί να καθοριστεί επακριβώς είτε κάποια δείγματα θα παραληφθούν, είτε θα ξαναδιαβαστούν και θα υπάρχουν 2 φορές.
Τα καλά και ακριβά CD-ROM συνήθως χειρίζονται από μόνα τους τέτοια προβλήματα και αν χρειαστεί να επανεκινήσουν από κάποιο σημείο στέλνουν τα σωστά δεδομένα. Από την άλλη τα IDE CD-ROMs συνήθως δεν ανήκουν σ’ αυτή την κατηγορία.
Το να μειώσει κανείς την ταχύτητα ανάγνωσης βοηθάει γιατί μειώνει τον ρυθμό μετάδοσης δεδομένων κι έτσι η πιθανότητα να μην μπορεί ο υπολογιστής να επεξεργαστή τα δεδομένα που δέχεται μειώνεται. Τέλος υπάρχουν προγράμματα για ριπάρισμα που μπορούν να επέμβουν σε αυτό το σημείο διορθώνοντας το πρόβλημα. Ένας τρόπος γι αυτό είναι να διαβαστεί 2 (ή περισσότερες) φορές μια περιορισμένη περιοχή εκεί που παρατηρείται το πρόβλημα και να γίνει μια σύγκριση bit προς bit ώστε να διαπιστωθεί ποια ανάγνωση είναι η ακριβής.
Στις περιπτώσεις που οι φθηνές συσκευές δεν μπορούν να διαβάσουν τα δεδομένα με αξιόπιστο τρόπο έτσι ώστε τα αποτελέσματα του κάθε τομέα να διαφέρουν από ανάγνωση σε ανάγνωση, δεν υπάρχει η δυνατότητα διόρθωσης αυτών των προβλημάτων και η μόνη λύση είναι η αντικατάσταση της συσκευής ανάγνωσης CD.
Όμως όλες οι συσκευές ανάγνωσης CD δεν είναι ίδιες.
Οι κεφαλές ανάγνωσης δεν στοιχίζονται το ίδιο οπότε μπορεί να προκύψουν διαφορές στην ανάγνωση των δεδομένων ήχου.
Αν για παράδειγμα τοποθετούνται 1000 δείγματα πριν από την πραγματική αρχή όλα τα δεδομένα του ριπαρίσματος θα είναι μετατοπισμένα κατά 1000 δείγματα.
Αυτή η μετατόπιση ονομάζεται offset και είναι χαρακτηριστική για κάθε τύπο συσκευής. Θετική τιμή offset σημαίνει πως η συσκευή τοποθετείται πριν από την πραγματική έναρξη του σήματος και αρνητική τιμή σημαίνει το ακριβώς αντίθετο. Η μεγαλύτερη τιμή που έχει παρατηρηθεί είναι της τάξης των 1858 δειγμάτων (που με ρυθμό δειγματοληψίας 44100 Hz σημαίνει 1858/44100 = 0.042 δλ
Είναι σαφές πως το πρόβλημα δεν είναι ιδιαίτερα μεγάλο, αλλά αν κάποιος απαιτεί ποιότητα είναι καλό να έχει υπόψη του το τι μπορεί να συμβεί και να παίρνει τα μέτρα του.
Μέτρα που δεν είναι άλλα από την χρήση κάποιου ποιοτικού προγράμματος για ριπάρισμα.
Όσοι έχουν Plextor CD-ROMs μπορούν να χρησιμοποιήσουν τα Plextools, για τους υπόλοιπους υπάρχουν τόσο το Dbpoweramp (που πρέπει να αγοράσει κανείς), αλλά και το δωρεάν για μη εμπορικούς σκοπούς EAC (Exact Audio Copy http://www.exactaudiocopy.de). Για το τελευταίο ετοιμάζει έναν οδηγό χρήσης ο Μονόκερος από όσο ξέρω και το χρησιμοποιώ και εγώ αρκετά οπότε θα σας δώσω κι εγώ μερικές λεπτομέρειες για την χρήση και την ρύθμισή του.
Άρα το δεύτερο συμπέρασμα: Δεν είναι αυτονόητο και δεδομένο πως η οποιαδήποτε συσκευή CD-ROM μπορεί να διαβάσει και να μεταφέρει σωστά τα δεδομένα ήχου από το CD στον υπολογιστή σας.
Φροντίστε λοιπόν να διαλέξετε ένα καλό πρόγραμμα ριπαρίσματος που θα βοηθήσει σε αυτή τη διαδικασία όπως το EAC.
Ασφαλές (secure) και ακριβές (accurate) ριπάρισμα
Οι έννοιες αυτές δεν είναι ταυτόσημες αλλά συμπληρωματικές.
Ασφαλές θεωρείται το ριπάρισμα που σε δύο (ή περισσότερες) αναγνώσεις μιας συγκεκριμένης περιοχής το αποτέλεσμα είναι το ίδιο.
Ακριβές είναι το ριπάρισμα που έχει δώσει το ίδιο αποτέλεσμα με άλλα ριπαρίσματα του ιδίου δίσκου που έχουν γίνει από άλλους χρήστες με διαφορετικό hardware.
Για τον σκοπό αυτό υπάρχει μια βάση δεδομένων που κρατάει τις σχετικές πληροφορίες και τα προγράμματα που είναι συμβατά με αυτή την ρωτάνε σχετικά.
Αν το δισκάκι που ριπάρετε υπάρχει στην βάση τότε μπορείτε να συγκρίνετε το δικό σας ριπάρισμα με αυτά των υπολοίπων χρηστών.
Πρόβλημα αποτελεί ακόμα πως δεν υπάρχουν στοιχεία για όλα τα δισκάκια στην βάση οπότε εκεί δεν μπορεί να βοηθήσει.
Το ασφαλές ριπάρισμα πάλι μπορεί να σημαίνει κάτι - αν η συσκευή σας ανάγνωσης έχει ρυθμιστεί σωστά για τα λάθη που μπορούν να συμβούν και αναφέρθηκαν περιληπτικά πιο πάνω - μπορεί και να μην σημαίνει τίποτε (στην περίπτωση που η ρύθμιση δεν είναι σωστή οπότε λάθη υπάρχουν απλά το πρόγραμμά σας δεν τα εντοπίζει).
Από την άλλη ασφαλές αλλά όχι ακριβές ριπάρισμα μπορεί να σημαίνει πως το δισκάκι που έχετε στα χέρια σας έχει προέλθει από διαφορετική πρέσσα / είναι διαφορετική παρτίδα σε σχέση με εκείνα που είναι ήδη στην βάση δεδομένων του ακριβούς ριπαρίσματος.
Λάθη στο ριπάρισμα
Καλώς ή κακώς γρατζουνισμένα δισκάκια υπάρχουν και αυτό οδηγεί σε λάθη ανάγνωσης ακόμα κι αν με το μάτι δεν μπορούμε να διακρίνουμε τις γρατζουνιές. Υπάρχουν στις συσκευές ανάγνωσης μηχανισμοί αναγνώρισης τέτοιων λαθών.
Ένας από αυτούς είναι ο C2 όπου σε τακτά χρονικά διαστήματα υπάρχουν δείκτες ποιότητας των δεδομένων μέχρι εκείνη την στιγμή (όπως ακριβώς οι τιμές ενός CRC ελέγχου).
Αν η τιμή που προκύπτει από τον υπολογισμό δεν συμφωνεί με αυτή που έχει ο δείκτης C2 τότε γνωρίζουμε πως έχει συμβεί λάθος ανάγνωσης.
Όμως δεν υποστηρίζουν όλες οι συσκευές αυτή τη λειτουργία ή και από αυτές που την υποστηρίζουν δεν την υποστηρίζουν αξιόπιστα (λόγω μη τελειοποιημένων firmware). Ακόμα όμως και αν η ικανότητα τους να εντοπίζουν σωστά τέτοια λάθη είναι 999999 στο 1000000 σε ένα δισκάκι με 1000 κατεστραμμένα frames η πιθανότητα να περάσει κάποιο κατεστραμμένο χωρίς να ταυτοποιηθεί ως προβληματικό είναι 1 στα 1000.
Κωδικοποίηση του ήχου σύμφωνα με κάποιο πρότυπο
Έστω λοιπόν πως έχουμε πλέον κατορθώσει και έχουμε ριπάρει το τραγούδι/δισκάκι μετατρέποντάς το σε αρχείο στον δίσκο του υπολογιστή μας.
Τι κάνουμε μετά;
Είπαμε πως τα μη συμπιεσμένα δεδομένα απαιτούν για 1 δλ 44100 δείγματα * 16 bit ανά δείγμα * 2 κανάλια (stereo) = 1411200 bits δηλαδή περίπου 1378 Kbps
Υπάρχουν 3 τρόποι συμπίεσης του όγκου αυτών των δεδομένων:
- Οι μη απωλεστικοί (Lossless)
- Οι ενδιάμεσοι
- Οι απωλεστικοί (Lossy)
Μη απωλεστικοί τρόποι συμπίεσης (Lossless)
Στην περίπτωση αυτή καμιά πληροφορία δεν χάνεται και η διαδικασία συμπίεσης είναι αντιστρεπτή. Μπορείτε να φανταστείτε πως είναι το ανάλογο των αλγορύθμων zip,gzip,rar για τα δεδομένα.
Η διαφορά είναι πως εφαρμόζονται κατ' αποκλειστικότητα σε ηχητικά δεδομένα άρα είναι έτσι βελτιστοποιημένοι ώστε να τα συμπιέζουν πολύ καλύτερα σε σύγκριση με τους γενικής χρήσης αλγορύθμους συμπίεσης.
Εφόσον δεν χάνεται καμιά πληροφορία είναι ο ιδανικός τρόπος να αρχειοθετήσετε την συλλογή σας.
Ακόμα κι αν στο μέλλον επικρατήσει κάποιο άλλο πρότυπο πάντα θα μπορείτε να μετατρέψετε την συλλογή σας σε αυτό χρησιμοποιώντας σαν βάση αυτά εδώ τα αρχεία. Το τίμημα βέβαια για την μη απώλεια είναι το μέγεθος του κάθε συμπιεσμένου αρχείου που κατά προσέγγιση είναι κάτι λιγότερο από το μισό του ασυμπίεστου.
Τα γνωστότερα πρότυπα αυτού του είδους είναι τα FLAC, MonkeysAudio, ενώ ανερχόμενο θεωρείται το Wavpack και το ΑLAC. Γιατί όμως υπάρχουν διαφορετικά πρότυπα αφού όλα μεταφέρουν αυτόυσια της πληροφορία;
Για τον ίδιο λόγο που υπάρχουν και διαφορετικά πρότυπα γενικής συμπίεσης.
Πρώτο και κύριο διαφέρουν στο τελικό μέγεθος των συμπιεσμένων αρχείων.
Επίσης διαφέρουν στον χρόνο που απαιτείται για την συμπίεση των δεδομένων.
Τέλος είναι επίσης η δυνατότητα ή μη να μεταφέρουν metadata (tags με πληροφορίες δηλαδή για το κάθε τραγούδι/δισκάκι) καθώς και η υποστήριξή τους από hardware που να μπορεί να αναπαράξει τα συγκεκριμένου τύπου αρχεία.
Ακόμα η δυνατότητα υποστήριξης πολυκάναλου ήχου είναι θέμα μιας και σιγά σιγά ολόκληρη η μουσικη βιομηχανία θα μετακινηθεί από το στέρεο σε πολυκάναλα πρότυπα. Άλλη από αυτούς ακολουθούν φιλοσοφία ανοιχτού κώδικα και άλλοι είναι προϊόντα εταιρειών που καλύπτονται από εμπορικές άδειες χρήσης.
Μια λεπτομερέστερη παρουσίαση και σύγκρισή τους μπορείτε να βρείτε εδώ έχοντας κατά νου πως πρόκειται ακόμα για ταχύτατα εξελισσόμενο πεδίο άρα οι μετρήσεις και τα αποτελέσματα που βλέπετε αφορούν τις εκδόσεις των κωδικοποιητών που δοκιμάστηκαν στα τεστς και δεν σημαίνει πως ισχύουν και για τις εκδόσεις που είναι διαθέσιμες αυτή τη στιγμή. Επειδή όμως σας περιγράφω τι προτιμώ εγώ για τη δική μου συλλογή, η επιλογή μου είναι το FLAC και σαν δεύτερη επιλογή το Wavpack.
Ενδιάμεσοι τρόποι συμπίεσης
Πρόκειται για αλγορύθμους που μπορούν να συμπιέσουν μη απωλεστικά κάποιο αρχείο αλλά ταυτόχρονα και απωλεστικά μειώνοντας το μέγεθός του.
Το Wavpack είναι ο καλύτερος εκπρόσωπος αυτής της κατηγορίας που όταν λειτουργεί κατά αυτόν τον τρόπο δημιουργεί 2 αρχεία για κάθε τραγούδι.
Ένα απωλεστικό σχετικά μικρού μεγέθους που μπορεί να χρησιμοποιηθεί για την αναπαραγωγή του αρχείου (με χειρότερη ποιότητα από το ασυμπίεστο αρχείο) και ένα αρχείο διορθώσεων το οποίο περιέχει τις πληροφορίες που λείπουν από το απωλεστικό κι έτσι όταν χρησιμοποιηθεί σε συνδυασμό με εκείνο είναι δυνατή η πλήρης ανασύσταση του γνησίου ασυμπίεστου αρχείου από το οποίο προέκυψαν.
Απωλεστικοί τρόποι συμπίεσης (Lossy)
Στην πραγματικότητα από αυτούς ξεκινήσαν όλα.
Το mp3 ανήκει σε αυτή την κατηγορία η οποία έφερε επανάσταση στο πως ακούμε μουσική σήμερα και είναι και η αιτία που κάθομαι και γράφω αυτόν τον μίνι οδηγό.
Η ιδέα πίσω από την χρήση τους είναι πως μπορούμε να συμπιέσουμε το μέγεθος ενός ηχητικού αρχείου, αφαιρώντας από αυτό πληροφορίες που έτσι κι αλλιώς περνούν απαρατήρητες (ή σχεδόν απαρατήρητες) από εμάς.
Υπάρχουν και εδώ αρκετοί διαφορετικοί αλγόρυθμοι και τρόποι κωδικοποίησης καθώς και διάφορες παραλλαγές τους. Εγώ θα επικεντρωθώ σε 2 μόνο από αυτόυς το aac και το mp3 με έμφαση κύρια στο τελευταίο.
MP3
Να που φτάσαμε λοιπόν στο mp3 το οποίο και κυριαρχεί: Ο λόγος της κυριαρχίας του είναι το μικρό μέγεθος των αρχείων.Είπαμε πως για κάθε δλ μουσικής σε μη συμπιεσμένη μορφή απαιτούνται 1378 Κbits.
To mp3 όμως κατόρθωσε να δώσει "καλή" ποιότητα μουσικής από τα 128 Κbps δηλαδή να συμπιέσει περίπου 11 φορές τα δεδομένα καθιστώντας δυνατό και τον διαμοιρασμό τους μέσω του δικτύου, αλλά και την μαζική αποθήκευσή τους σε σκληρούς και οπτικούς δίσκους.
Η ιδέα ήταν κατά βάση απλή και έξυπνη. Το ανθρώπινο αυτί αντιλαμβάνεται συχνότητες από 20 - 20000 Hz χονδρικά. Μάλιστα η ικανότητα αυτή μεταβάλλεται με τον χρόνο με τους ενήλικες δύσκολα να ξεπερνούν το όριο των 16000 Hz (με τις γυναίκες να τα πηγαίνουν καλύτερα από τους άνδρες στην αντίληψη υψηλών συχνοτήτων).
Επίσης, το αυτί μας φαίνεται να είναι εξελικτικά προσαρμοσμένο στον ήχο και τις συχνότητες της ανθρώπινης φωνής (500 - 2000 Hz) και είναι παρουσιάζει την μέγιστη ευαισθησία σε συχνότητες 2000 - 4000 Hz. Αυτό σημαίνει πως δεν αντιλαμβανόμαστε με τον ίδιο τρόπο όλες τις συχνότητες αλλά για κάθε μια υπάρχει ένα διαφορετικό κατώφλι έντασης το οποίο πρέπει να ξεπεραστεί για να γίνει αντιληπτή.
Αλλά ακόμα και όταν μπορεί να γίνει αντιληπτή δεν είναι απαραίτητο πως αυτό συμβαίνει στην πραγματικότητα για μια πληθώρα από λόγους:
Μπορεί να καλύπτεται από μια άλλη συχνότητα μεγαλύτερης έντασης (οπτικό ανάλογο η τεχνική των πιλότων της πολεμικής αεροπορίας να γίνονται "αόρατοι" από τον αντίπαλο πιλότο εκμεταλλευόμενοι τον ήλιο) ή μπορεί να μην έχει τέτοια χρονική διάρκεια που να της επιτρέπει να γίνει αντιληπτή σαν ξεχωριστή συχνότητα (κάτι ανάλογο της εμπειρίας των κινουμένων σχεδίων που είναι χωριστά σκίτσα αλλά εμείς δεν τα αντιλαμβανόμαστε ως τέτοια αλλά ως συνεχόμενη ταινία).
Αυτές οι εμπειρικές κατά κύριο λόγο παρατηρήσεις αποτελούν τις αρχές της ψυχοακουστικής και αποτελούν την βάση πάνω στην οποία οι κωδικοποιητές mp3 αποφασίζουν ποιες συχνότητες και τι έντασης κρατιούνται στο τελικό αρχείο και ποιες απορρίπτονται και χάνονται.
Φυσικά υπάρχουν αρκετοί διαφορετικοί κωδικοποιητές οι οποίοι δεν εφαρμόζουν το ίδιο ψυχοακουστικό μοντέλο ούτε φυσικά καταλήγουν σε ίδια αρχεία από πλευράς ποιότητας.
(Για παράδειγμα ο παλιός κωδικοποιητής της Xing αφαιρούσε τις περισσότερες συχνότητες πάνω από τα 16000 Ηz, ενώ οι περισσότεροι σημερινοί δέχονται την μεταβλητή lowpass που καθορίζει την ανώτερη τιμή της συχνότητας που θα περάσει).
Αφού γίνει ο χωρισμός και απορριφθούν οι συχνότητες που είναι προς απόρριψη, οι υπόλοιπες συμπιέζονται στη συνέχεια με μη απωλεστικές μεθόδους, ώστε να μικρύνει το τελικό μέγεθος του αρχείου κατά τον δυνατόν περισσότερο.
Μία παράμετρος όμως που παίζει ρόλο στην αυστηρότητα του κριτηρίου με το οποίο ο κωδικοποιητής απορρίπτει συχνότητες σύμφωνα με το ψυχοακουστικό του μοντέλο είναι και το bitrate το οποίο δεν είναι τίποτε άλλο από το διαθέσιμο συνολικό μέγεθος για δεδομένα ήχου ανά δλ.
Έτσι όταν ζητάμε από τον κωδικοποιητή να συμπιέσει το αρχείο στα 128 Κbps του λέμε πως έχει στη διάθεσή του 128000 bits για να χωρέσει τα μουσικά δεδομένα αυτού του δλ, οπότε απορρίπτει περισσότερα δεδομένα από ό,τι αν επιλέγαμε κωδικοποίηση στα 256 Κbps και του παρείχαμε το διπλάσιο χώρο για το ίδιο δλ. Αυτό βέβαια δεν είναι απόλυτα σωστό, ούτε απόλυτα το ίδιο για όλους τους κωδικοποιητές.
Δεν μπορεί το πρωτόκολλο να υποστηρίξει οποιοδήποτε bitrate αλλά μόνο προκαθορισμένες τιμές (8,16,18,20,24,32,40,48,56,64,80,96,112,128,144,16 0,192,224,256,320 Κbps) αυτό σημαίνει πως σε κάποια συγκεκριμένα δλ μπορεί να "περισσεύει" χώρος και σε κάποια άλλα να μην επαρκεί. Ο χώρος που περισσεύει μπορεί να μεταφερθεί προς χρήση σε επόμενα frames και είναι γνωστός ως bit reservoir.
Άρα το επόμενο συμπέρασμά μας είναι πως γενικά όσο μεγαλύτερο το bitrate τόσο καλύτερη η ποιότητα του αρχείου που προκύπτει και τόσο μεγαλύτερο το μέγεθός του.
Επίσης, ΔΕΝ είναι σωστό να επεμβαίνουμε να προσθαφαιρούμε τμήματα των αρχείων mp3 (editing) γιατί λόγω του bit reservoir μπορεί κάποια να εξαρτώνται από αυτά που αφαιρούμε κι έτσι να εισάγουμε τεχνουργήματα στα σημεία κοπής.
Αν πρέπει να γίνουν τέτοιες επεμβάσεις μετατρέψτε το mp3 σε wav κάντε τις αλλαγές σε εκείνο το αρχείο και ξανακωδικοποιήστε το σε mp3.
Η ιδέα του bit reservoir επεκτάθηκε και οδήγησε σε mp3 μεταβλητού bitrate (VBR) και στη συνέχεια σε mp3 με bitrate σταθερού μέσου όρου (ABR). Στα VBR δεν ορίζει ο χρήστης το ίδιο το bitrate αλλά το επίπεδο της ποιότητας και ο κωδικοποιητής είναι εκείνος που αποφασίζει ανάλογα με αυτό και με το πόσο σύνθετο είναι κάθε τμήμα του αρχείου ήχου το bitrate κάθε frame.
Προφανές αποτέλεσμα η καλύτερη εκμετάλλευση του μεγέθους του αρχείου σε σχέση με εκείνα σταθερού bitrate (CBR) μιας και μόνο οι σύνθετες περιοχές εκφράζονται με υψηλό bitrate, ενώ οι πιο απλές που δεν το χρειάζονται με χαμηλότερο. (Η μέθοδος bit reservoir εξακολουθεί να χρησιμοποιείται και εδώ). Μειονεκτήματα η ανάγκη περισσότερου χρόνου για να κωδικοποιηθεί ένα τέτοιο αρχείο καθώς και η μέχρι πρότινος αδυναμία συσκευών να υποστηρίξουν αυτού του είδους της κωδικοποίηση.
Τέλος το ABR απαιτεί τουλάχιστον 2 περάσματα του αρχείου από τον κωδικοποιητή, όπου στο πρώτο θα καθοριστούν οι περιοχές που μπορούν να αποδοθούν με μικρότερο bitrate καθώς κι εκείνες με μεγαλύτερο κατά τέτοιο τρόπο ώστε ο μέσος όρος να είναι το bitrate που ορίζουμε εμείς και στο δεύτερο θα γίνει η κωδικοποίηση με βάση τις οδηγίες του πρώτου.
Η επιλογή του είδους και του μεγέθους του bitrate εξαρτάται από το τι θέλουμε να κάνουμε με το αρχείο μας. Αν ο σκοπός είναι η αρχειοθέτηση είναι ΚΑΚΗ ΕΠΙΛΟΓΗ ΤΟ ΟΠΟΙΟΔΗΠΟΤΕ ΑΠΩΛΕΣΤΙΚΟ πρότυπο.
Έχοντας επαναλάβει αυτό, δεν θα πήγαινα ποτέ κάτω από τα 320 Kbps. Αν η χρήση είναι για να τα ακούμε τότε η επιλογή ανάμεσα σε σταθερό, μεταβλητό και μέσου όρου bitrate εξαρτάται από το τι υποστηρίζουν οι συσκευές αναπαραγωγής μας. Για το σκοπό αυτό δεν θα κατέβαινα ποτέ σε bitrate μικρότερο του 192.
Μένει ένα ακόμα βασικό χαρακτηριστικό να ξεκαθαρίσουμε: τις διαφορές ανάμεσα σε Mono/Dual Channel/Joint Stereo/Stereo.
Μιας και κανένας δεν νομίζω να κωδικοποιεί μονοφωνικά mp3s νομίζω μπορούμε να ξεχάσουμε το πρώτο, και να ξεπεράσουμε στα γρήγορα το δεύτερο με την μοναδική αναφορά πως στην επιλογή στέρεο μπορούμε να σταθμίσουμε την συμπεριφορά του αριστερού και δεξιού καναλιού έτσι ώστε πχ το ένα να ακούγεται κατά 65% και το άλλο κατά 35% ενώ στο Dual Channel η ένταση είναι μοιρασμένη εξίσου.
Το Joint Stereo από πολλούς θεωρείται ΚΑΚΟ και καταστρέφει τον ήχο.
Η πραγματικότητα είναι πως υπό προϋποθέσεις μπορεί να είναι πολύ καλό και αυτό εξαρτάται και από τον τρόπο χρήσης του από τον κωδικοποιητή.
Υπάρχουν 2 διαφορετικά είδη Joint Stereo:
Το πρώτο αφορά τις εντάσεις των υψηλών συχνοτήτων.
Το ανθρώπινο αυτί όταν φτάνει στα όρια της αντιληπτικής του ικανότητας δεν μπορεί να ξεχωρίσει την κατεύθυνση από την οποία προέρχεται ο ήχος. Έτσι λοιπόν θεωρήθηκε πως μπορούν να απαλειφθούν συχνότητες υψηλής έντασης από ένα από τα δυο κανάλια μετατρέποντας το σήμα σε μονοφωνικό στο αντίστοιχο φάσμα για την εξοικονόμηση χώρου και καλύτερη συμπίεση.
Εδώ στηρίζεται και η κριτική και οι κατηγορίες περί καταστροφής του στέρεο σήματος.
Οι κριτικές όμως αυτές αγνοούν ένα σημαντικό ζήτημα:
Στις περιπτώσεις που έχουμε να κάνουμε με μια σύνθετη περιοχή και ο κωδικοποιητής προσπαθεί να συμπιέσει τα δεδομένα πχ στα 128 Kbps τι είναι προτιμότερο:
να εξοικονομήσει χώρο θυσιάζοντας το στερεοφωνικό σήμα κάποιων υψηλών συχνοτήτων
ή
να απορρίψει περισσότερες πληροφορίες και από τα 2 κανάλια για να κρατήσει την στερεοφωνικότητα;
Το δεύτερο είδος Joint Stereo είναι μη απωλεστικό(!) και έχει να κάνει με την μετατροπή των καναλιών από αριστερό (L) - δεξιό (R) σε μέσο (middle M) και πλευρικό (side S) με συγκεκριμένο και σταθερό τρόπο: M = (L+R)/2 S = (L-R)/2
Φυσικά απλή άλγεβρα δείχει πως L = M + S R = M - S οπότε φτάνουμε εκεί ακριβώς που ξεκινήσαμε, άρα δεν υπάρχουν απώλειες.
Σε τι μας βοηθάει αυτό: Το S είναι συνήθως πολύ μικρό μιας και τα 2 κανάλια δεν διαφέρουν πολύ μεταξύ τους.
Τότε ο κωδικοποιητής μπορεί να το συμπιέσει πολύ γρήγορα και μετά να αφιερώσει όλους τους πόρους για την καλύτερη συμπίεση του Μ καναλιού.
Σε αυτές τις περιπτώσεις αυτό το σχήμα M/S δίνει καλύτερα αποτελέσματα από το L/R. Αντίθετα αν δεν υπάρχει ομοιογένεια ανάμεσα στα 2 κανάλια δεν υπάρχει κανένας λόγος να μπούμε στον κόπο γι αυτή τη μετατροπή.
Άρα το συμπέρασμά μου από τα παραπάνω είναι πως σε χαμηλά bitrate προτιμούμε το Joint Stereo ενώ σε υψηλά το Stereo.
Βιβλιογραφία:
MP3: The Definitive Guide by Scott Hacker (O'Reilly March 2000)
Το τελευταίο σημείο σχετικό με τα mp3 που θέλω να θίξω είναι οι υπάρχοντες κωδικοποιητές.
Όλα ξεκίνησαν από ένα ίδρυμα, το Fraunhofer το οποίο και ανακάλυψε και προώθησε το συγκεκριμένο πρότυπο.
Σύντομα, πέρα από το πατεντάρισμα αναπτύχθηκε από τον παγκόσμιο οργανισμό τυποποίησης το σχετικό πρότυπο.
Αυτό δεν σημαίνει πως η πατέντα έπαψε να ισχύει.
Το πρότυπο που υπάρχει είναι αρκετά γενικό και περιέχει τις βασικές αρχές χωρίς να περιγράφει λεπτομέρειες για τον τρόπο εφαρμογής τους.
Το ίδρυμα Fraunhofer από την άλλη μεριά δεν δίνει άδειες χρήσης του κωδικοποιητή του σε τελικούς χρήστες, αλλά μόνο σε εταιρείες για να τον ενσωματώσουν στα προϊόντα τους.
Κατά σειρά εμφάνισης παρουσίασε τους εξής κωδικοποιητές L3Enc, MP3Enc & FastEnc.
Παράλληλα άλλες εταιρείες όπως η Xing και η Apple ανέπτυξαν δικούς τους κωδικοποιητές βασιζόμενες στις περιγραφές του διεθνούς προτύπου του παγκόσμιου οργανισμού τυποποίησης.
Μια άλλη σειρά κωδικοποιητών στηριγμένοι επίσης στο διεθνές πρότυπο οδήγησε ανεξάρτητα στους BladeEnc, Helix και στον LAME ο οποίος ακολουθεί πολιτική ανοιχτού κώδικα και στο πέρασμα των χρόνων έχει γνωρίσει σημαντικότατη ανάπτυξη και βελτίωση.
Τέλος μια κατηγορία μόνος του είναι ο Fraunhofer Radium κωδικοποιητής ο οποίος βασίζεται σε κρακαρισμένη έκδοση του αρχικού κωδικοποιητή της Fraunhofer, ο οποίος έχει υποστεί τροποποιήσεις και βελτιώσεις και φυσικά δεν αναγνωρίζεται από την Fraunhofer σαν δικός της.
Το ερώτημα που βέβαια θα τεθεί είναι ποιος είναι ο πιο καλός;
Αντικειμενική απάντηση δεν υπάρχει και οποιαδήποτε σύγκριση έχει εφαρμογή μόνο για τις εκδόσεις που συγκρίνονται κάθε φορά μιας και τα πράγματα αλλάζουν από έκδοση σε έκδοση.
Για παράδειγμα η Fraunhofer αντιμετώπιζε το mp3 σαν το μέσο για να μεταδίδεται "ραδιοφωνικό πρόγραμμα" στο δίκτυο, έτσι οι πρώτοι της κωδικοποιητές δίναν έμφαση στη ποιοτική κωδικοποίηση στο επίπεδο των 128 Kbps.
Πριν από 1 χρόνο, όλοι όσοι είχαν χρησιμοποιήσει τον κωδικοποιητή που η Αpple ενσωμάτωσε στο iTunes διαπίστωναν πως πρόσθετε σημαντικό echo στα 320 Kbps.
Από την άλλη μεριά ο LAME απαιτούσε περισσότερο χρόνο για να κωδικοποιήσει το ίδιο αρχείο σε σχέση με τους υπόλοιπους.
Η δική μου επιλογή είναι ο LAME κυρίως γιατί είναι ανοιχτού κώδικα, βελτιώνεται συνεχώς και υπάρχει πλήρης και αναλυτική
περιγραφή των χαρακτηριστικών και των δυνατοτήτων του από την σελίδα του στο δίκτυο
και σε συνδυασμό με το EAC μου επιτρέπει να ορίζω επακριβώς την συμπεριφορά του ανάλογα με το τι θέλω.
(Ακόμα και τα επίπεδα έντασης αναπαραγωγής του αρχείου μέσω του ReplayGain tag το οποίο αρχίζουν να υποστηρίζουν ολοένα και περισσότερα προγράμματα που παίζουν mp3.)
Παραλλαγές και επεκτάσεις του mp3: mp3pro και mp3surround
mp3pro
Στην πραγματικότητα είναι το πάντρεμα του mp3 με μια μέθοδο ενίσχυσης γνωστή ώς Spectral band replication (SBR) -συγγνώμη δεν ξέρω το ελληνικό αντίστοιχό της.
Ο κωδικοποιητής κόβει από το αρχείο όλες τις υψηλές συχνότητες αντικαθιστώντας τες με λίγες οδηγίες ανασύστασής τους με αποτέλεσμα το αρχείο να έχει μικρότερο μέγεθος (και καλύτερη αντιπροσώπευση των χαμηλότερων εναπομεινουσών συχνοτήτων) σε σχέση με ένα mp3.
Γι αυτό αν το ακούσουμε σε συσκευή/πρόγραμμα αναπαραγωγής που δεν είναι συμβατό με το mp3pro
α) μπορεί να παίξει,
β) ακούγεται χειρότερο από το mp3.
Στις συσκευές/προγράμματα που είναι συμβατά με το mp3pro οι υψηλές συχνότητες επανασυντίθενται με βάση τις οδηγίες ανασύστασης και έτσι το ακουστικό αποτέλεσμα μπορεί να συγκριθεί με εκείνο που πετυχαίνουν mp3 μεγαλύτερου bitrate.
Το μεγαλύτερο πρόβλημα με το mp3pro είναι πως ποτέ δεν κέρδισε τους κατασκευαστές συσκευών αναπαραγωγής και οι λίγες συσκευές που εμφανίστηκαν και ήταν συμβατές μαζί του έχουν αποσυρθεί από την αγορά.
mp3 Surround και MP3 SX
Πρόκειται για τις τελευταίες προσπάθειες της Fraunhofer να μεταφέρουν τον πολυκάναλο ήχο σε σχετικά με το mp3 πρότυπα.
Το mp3 Surround σε πολύ γενικές γραμμές μπλέκει τα σήματα από τα διαφορετικά κανάλια σε ένα και δημιουργεί ένα ανεξάρτητο κανάλι με τις διαφορές που παρουσιάζουν μεταξύ τους (φανταστείτε στο σαν ανάλογη διαδικασία του υπολογισμού των Μ και S καναλιών του Joint Stereo) μέσω ενός σχήματος γνωστού ως Binaural cue coding (BCC).
Στην συνέχεια το κανάλι με όλα τα σήματα υπόκειται σε κωδικοποίηση mp3 και μαζί με το άλλο κανάλι σώζεται στο αρχείο. Το πρόγραμμα αναπαραγωγής βασισμένο στις πληροφορίες του δεύτερου καναλιού, αναλύει το πρώτο σε επιμέρους κανάλια ανασυνθέτοντας το πολυκάναλο περιεχόμενο.
Ανάλογα το MP3 SX μπορεί να συνθέσει πολυκάναλο περιεχόμενο από τα υπάρχοντα δικάναλα mp3. Δεν είναι πραγματικός πολυκάναλος, φανταστείτε τον σαν το αποτέλεσμα
μιας μαθηματικής διαδικασίας προβολής και επέκτασης του δικάναλου περιεχομένου στο πολυκάναλο χώρο.
Αυτοί οι κωδικοποιητές είναι διαθέσιμοι μόνο από την ίδια την Fraunhofer όπως και το αντίστοιχο πρόγραμμα που μπορεί να παίξει τα σχετικά αρχεία.
Δεν ξέρω να υπάρχει υιοθέτηση του προτύπου από άλλα προγράμματα, ούτε φυσικά (τουλάχιστον ακόμα) από συσκευές αναπαραγωγής.
Οι πληροφορίες προέρχονται από το σχετικό white paper του ιδρύματος Fraunhofer σε συνεργασία με την Agere systems.
AAC AACplus
Τελευταίος σταθμός σε αυτή τη παρουσίαση θα είναι το πρότυπο Advance audio coding (AAC). Το ό,τι η ίδια η Fraunhofer που δημιούργησε το mp3 (και συμμετείχε και στη δημιουργία του AAC) το χρίζει διάδοχο του νομίζω είναι σημαντικό.
Το ό,τι στην ίδια κοινοπραξία που το δημιούργησε συμμετείχαν Sony, Nokia και AT&T και κατά συνέπεια το υποστηρίζουν στα προϊόντα τους, αλλά και το γεγονός πως η Apple το έχει υιοθετήσει στα iPods και όλα τα τραγούδια που πουλάει μέσω iTunes δείχνει μια πολύ ισχυρή υποστήριξη από την βιομηχανία.
Φυσικά εξακολουθούμε να μιλάμε για απωλεστικό τρόπο συμπίεσης αλλά με αρκετά πλεονεκτήματα απέναντι στο mp3.
- Υποστηρίζει συχνότητες δειγματοληψίας ως τα 96kHz.
- Υποστηρίζει μέχρι 48 διαφορετικά κανάλια.
- Διαθέτει μεταβλητό μέγεθος frame και υποστηρίζει οποιοδήποτε bitrate και όχι μόνο προκαθορισμένες τιμές.
- Χειρίζεται με μεγαλύτερη ευελιξία δεδομένα του joint stereo.
- Κωδικοποιεί αποδοτικότερα ηχητικά σήματα.
- Μπορεί να χειριστεί καλύτερα εργαλεία που αυξάνουν την συμπίεση του σήματος.
Σε συνδυασμό με την ενίσχυση SBR που είδαμε παραπάνω αποτελεί το πρότυπο AACplus.
Όλες αυτές οι βελτιώσεις γίνονται ιδιαίτερα εμφανείς σε χαμηλά bitrate ενώ η διαφορά στην ποιότητα σε υψηλά bitrates ανάμεσα στα 2 πρότυπα δεν είναι ιδιαίτερα σημαντική.
Για τους λόγους αυτούς δεν θα έμπαινα στον κόπο να αντικαταστήσω την συλλογή μου από mp3 σε aac ούτε να αλλάξω τις συνηθειές μου να ριπάρω σε mp3.
Αλλά αν επρόκειτο να "παίξω" μουσική σε κάποιο ραδιοφωνάκι μέσω δικτύου δεν θα έπαιζα σε ο,τιδήποτε άλλο εκτός από aacplus.
Δημοσίευση σχολίου Blogger Facebook
Παρακαλώ, την προσοχή σας ! ! !
* Εάν εντοπίσετε κάποιο πρόβλημα σε κάποια δημοσίευση (μη ενεργός συνδεσμος λ.χ. ή οτιδήποτε άλλο), παρακαλούμε κάντε τον κόπο να γράψετε στα σχόλιά σας, το οποιοδήποτε πρόβλημά σας, ώστε να προβούμε στην άμεση διόρθωσή του.
Επίσης, μπορείτε να αποστείλετε ένα "Ευχαριστώ" προς όσους ασχολήθηκαν & σας προσέφεραν ένα... κομμάτι από τη γνώση τους.
Παράκληση προς τους φίλους αναγνώστες-σχολιαστές:
* Να αποφεύγετε να γράφετε με greekglish γιατί τα σχόλιά σας ΔΕΝ θα γίνονται δεκτά.
* Αποφεύγετε το spamάρισμα στα σχόλια. - Please don't spam me!
* Σε περίπτωση που δεν έχετε καταλάβει κάτι, επικοινωνήστε μαζί μας μέσα από την φόρμα των σχολίων και θα σας απαντήσουμε σε εύλογο χρόνο, γι' αυτό ΜΗΝ καταφεύγετε στη αποστολή e-mail για τις όποιες απορίες σας.
* Χρησιμοποιήστε το Reply (που βρίσκεται κάτω από την εικόνα χρήστη), αν θέλετε να του απευθύνετε το λόγο, ή να απαντήσετε σε προυγούμενο σχόλιο.
* Το μέγιστο όριο χαρακτήρων είναι 4.096
* Τα σχόλιά σας θα δημοσιεύονται μετά τον απαραίτητο έλεγχο.
Σημείωση: Όσοι θέλετε να παίρνετε ειδοποιήσεις για τα σχόλια που κανετε, μην ξεχάσετε να τικάρετε το κουμπί "Να λαμβάνω ειδοποιήσεις"
Σας Ευχαριστούμε για την κατανόηση και την επίσκεψή σας.!