Audiosignale und ihre Digitalisierung
Short Description
Download Audiosignale und ihre Digitalisierung...
Description
Gliederung
1. Physikalische Grundlagen der Akustik (Lehre vom Schall)
2. Physiologische Grundlagen des Hörens (Psychoakustik)
3. Digitalisierung von Audiosignalen
4. Komprimierung von Audiosignalen
Lehre vom Schall Mechanische Schwingung: Klaviersaite Lautsprechermembran
Übertragungsmedium Schallwelle: Luft, Flüssigkeiten, Festkörper
Ohr: Physiologische Bewertung
Kenngrößen: Frequenz, Schalldruck (Amplitude), Schallgeschwindigkeit Schallarten: Infraschall(20000 Hz) Schallgeschwindigkeit: Luft (331,6 m/s), Wasser (1498 m/s), Stahl (5000 m/s) Hörschwelle: Schalldruck p0=10-5 Pa , frequenzabhängig Schmerzschwelle: Schalldruck p=10² Pa, frequenzabhängig
Schalldruckpegel:
L p 20 lg
p dB p0
Was ist ein Klang? Ton Eine Frequenz
Klang Grundfrequenz + Oberschwingungen
Schalldruck als Funktion der Zeit
Schalldruckpegel als Funktion der Frequenz (Fourieranalyse)
Geräusch unperiodisches Klangereignis
Das menschliche Ohr 1 2 3 4 5 6 7 8 9 10
Ohrmuschel Gehörgang Trommelfell Mittelohr Hammer Amboss Steigbügel Gleichgewichtsorgan Schnecke Hörnerven
• Aussenohr: – räumliche Orientierung (Signale zweier Ohren + Phasendifferenzen) • Mittelohr: – Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung • Innenohr: – Schnecke (cochlea), zwei flüssigkeitsgefüllte Gänge – Haarzellen entlang der Tektalmembran: Wahrnehmung von Frequenzen
Psychoakustik Hörvermögen des Ohrs in Abhängigkeit von Frequenz und Schalldruckpegel
Psychoakustik
Kurven gleicher Lautstärke LS • Ermittelt durch Hörversuche
A-Bewertungskurven • LpA=Lp bei 1000Hz
• Ls=Lp bei 1000 Hz
• Einfache Messgeräte
• Schwierige Messbarkeit
• Bei technischen Lautstärkeangaben, 80 dB(A)
Grundprinzip der Digitalisierung
Analoges Eingangsgangssignal – Analog-Digital-Wandler – Digitales Ausgangssignal
Sampeln
Samplingfrequenz Wie oft muss das analoge Signal abgetastet werden? Abtastfrequenz > Doppelte im analogen Signal enthaltene maximale Frequenz Shannon‘sches Abtasttheorem Hörgrenze des Ohrs ca. 20 kHz – Abtastrate 44,1 kHz Beispiel Tonleiter ab 60-14000 Hz, 60 Töne = 5 Oktaven Abtastrate=44.1 kHz
Abtastrate=11,025 kHz
Abtastrate=1,4kHz
Abtastraten: Analoges Telefon 8000 Hz Mittelwelle Radio 11025 Hz UKW Radio 22050 Hz Audio-CD 44,1 kHz Digital Audio Tape 48 kHz Professionelle Audiogeräte 96 kHz
Aliasing
Aliasing
Tiefpassfilterung
RC-Glied als analoger Tiefpassfilter
Sprungantwort
Quantisierung Auflösung eines Samplers - Wortbreite Beispiel: Spannung von -1 V bis +1 V Auflösung: 8 bit / 28=256 Möglichkeiten / 1 V:256= 0,004 V 16 bit (heute üblich) / 216=65535 Möglichkeiten / 1 V:65535=15*10-6 V 24 bit (DVD-Audio) – Verbessert die Klangqualität
Datenmenge = Abtastrate 44000 Hz * 16 bit = 704000 bit/s = 88 kByte/s
Codierung
• PCM: Pulse-Code-Modulation = Für jeden Abtastzeitpunkt wird ein Signalwert binär gespeichert • Negative Werte = Zweierkomplement der positiven Werte
Probleme der Digitalisierung Amplitudenbegrenzung: Schalldruckspitzen werden ausgeblendet Quantisierungsrauschen • Ausgabesignal wird durch interpolierte Werte verbessert • Oversampling verbessert die Signalerkennung erhöht jedoch die Datenmenge
• Erhöhung der Wortbreite um 1 bit erhöht den SNR – Abstand um ca. 6 dB • Es gilt SNR = N*6,02 dB + 1,78 dB • 16 bit = 98,1dB
AD-Wandlung Sukzessive Approximation
• Hohe Verarbeitungszeit / Sample • Nur für kleine Samplefrequenzen • Steile analoge Tiefpassfilter notwendig (Anti-Aliasingfilter)
AD-Wandlung Delta-Sigma-Wandlung – Bitstream-Wandler
• Erhöhung der Samplefrequenz (3 MHz) – Erniedrigung der Auflösung (1 bit) – geringes Rauschen • Nicht die absolute Größe eines Samples – Differenz von Sample zu Sample • Modulator (Bitstrom) + Digitaler Filter (Hörbereich) + Dezimierer (PCM –Wort, n-bit) • Latenzzeit 1,5 ms
Komprimierung von Audiosignalen Beispiel: Mitschnitt Livekonzert in CD-Qualität, Abtastrate 44,1 kHz, Stereo, Auflösung 16 bit/Kanal, Dauer 60 min Datenmenge= 44100 Hz * 2 * 16 bit * 3600s = 5,1 Gigabit = 635 Megabyte Audiokompression • Verlustfreie Audiokompression = Datenkomprimierung - Wie z.B. Huffman-Codierung, Apple-Losless, Windows Media Audio Lossless - Es gehen keine Daten verloren
- Keine großen Kompressionsgewinne (max. 50%) - Sinnvoll, wenn Audiofiles nachbearbeitet werden sollen • Verlustbehaftete Audiokompression = Datenreduktion - Keine orginalgetreue Kopie der Ausgangsdaten - Datenverlust - psycho- akustische Besonderheiten des menschlichen Gehörs - Große Kompressionsgewinne (MP3, ca.90%)
Komprimierung von Audiosignalen Vorarbeit: • Frequenzspektrum ermitteln - Fast Fourier Transformation (FFT) • Frequenzspektrum in Intervalle unterteilen - Können unterschiedlich groß sein - Abhängig vom Hörvermögen des Ohrs
• Zeitachse in Intervalle unterteilen - Gleichgroß - Audiosignal wird portioniert, je nach Anwendungszweck
Maskierung Hörschwellenmaskierung: • Entfernen der Töne, die unterhalb der Hörschwelle liegen • z.B. Ton von 12 kHz und 20 dB
Maskierung Frequenzmaskierung – Simultane Maskierung: • Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden • z.B. Ton mit 10 kHz und 40 dB maskiert von einem Ton mit 8 kHz und 60 dB • Mit steigender Frequenz wird der maskierte Frequenzbereich breiter
Maskierung
Frequenzmaskierung – Simultane Maskierung:
Anwendung bei MP3
16bit -44kHz
MP3-codiert
• Erhöhtes Rauschen – nicht hörbar wegen Maskierung
Maskierung Zeitmaskierung – Temporale Maskierung: • Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden • Zeitliche Abfolge wird zusätzlich betrachtet (Erregungszeit des Ohrs) • z.B. Ton mit 1 kHz und 60 dB abgeschaltet maskiert dieser noch 5 ms den Ton mit 1,1 kHz und 40 dB
Maskierung Zeitmaskierung – Temporale Maskierung:
Maskierung Hörschwellen- + Frequenz- + Zeitmaskierung = 256kBit/s
Stereoredundanz: • Gleiches Signal (z.B. Gesangsstimme) auf beiden Kanälen – nur einmal übertragen
• Unter 80 Hz kann Ohr Richtung nicht feststellen – kein Stereo notwendig • verschiedene Verfahren • bis 128 kBit/s -Phaseninformationen bleiben erhalten • bis 64 kBit/s - Phaseninformationen gehen verloren
- Nicht für Dolby Surround geeignet - Deutliche Differenzen zum Original
MP3 = MPEG 1 Layer III
• Filterbank: Transformiert Audiosignal vom Zeit- in Frequenzbereich (32 Frequenzbänder) • Jedes Frequenzband durch diskrete Cosinus-Transformation (MDCT) in 18 Teilbereiche • Quantisierung
MP3 Vergleich MP3 – Minderwertigerer Decoder
Überblick Format
Entwickler
Qualität
Perspektiven
MP3
Fraunhofer-Institut
bei 128 kBit/s akzeptabler Klang
Quasi-Standard im Internet
AAC
AT&T, Dolby Laboratories, FraunhoferIIS und Sony
schon bei 64 kBit/s anderen Formaten in der Qualität deutlich überlegen
Favorit der Musikindustrie Teil von MPEG-4 Format der Zukunft
RealAudio
Real
Qualität je nach Bandbreite
die Nr.1 für Streaming
WMA
Microsoft
Nicht so gut wie MP3
bisher kaum Interesse bei Anwendern und Musikindustrie
OggVorbis
Ogg-Projekt
bei 128 kBit/s vergleichbare Klangqualität wie MP3
einziges freies Format, dazu gute Qualität, bedient ähnliche Klientel wie Linux
Quellen
-www.leidinger.net/publications/Audiokompression -Roland Pianos -Spektrum der Wissenschaft: Thoralf Abgarjan – Digitale Klangerzeungung -C´t: Matthias Carstens – Musik kompakt -Peter Gorges – Das große Sampler Praxisbuch -Peter Brehm – Das digitale Tonstudio -E. Zwicker und R. Feldtkeller – Das Ohr als Nachrichtenempfänger -Martin Ohsmann – Espresso -Proceedings of the IEEE: Perceptual Coding of Digital Audio -www.beis.de/Elektronik -DAA-Technikum Skript -www.fh-wedel.de (Digital Audio) -www.medien.informatik.uni-münchen.de (digitale medien 5) -www.informatik.uni-leipzig.de (AD-Wandlung)
View more...
Comments