Audiosignale und ihre Digitalisierung

January 8, 2018 | Author: Anonymous | Category: Wissenschaft, Gesundheitswissenschaften, Hörgeräteakustiker
Share Embed Donate


Short Description

Download Audiosignale und ihre Digitalisierung...

Description

Gliederung

1. Physikalische Grundlagen der Akustik (Lehre vom Schall)

2. Physiologische Grundlagen des Hörens (Psychoakustik)

3. Digitalisierung von Audiosignalen

4. Komprimierung von Audiosignalen

Lehre vom Schall Mechanische Schwingung: Klaviersaite Lautsprechermembran

Übertragungsmedium Schallwelle: Luft, Flüssigkeiten, Festkörper

Ohr: Physiologische Bewertung

Kenngrößen: Frequenz, Schalldruck (Amplitude), Schallgeschwindigkeit Schallarten: Infraschall(20000 Hz) Schallgeschwindigkeit: Luft (331,6 m/s), Wasser (1498 m/s), Stahl (5000 m/s) Hörschwelle: Schalldruck p0=10-5 Pa , frequenzabhängig Schmerzschwelle: Schalldruck p=10² Pa, frequenzabhängig

Schalldruckpegel:

L p  20 lg

p dB p0

Was ist ein Klang? Ton Eine Frequenz

Klang Grundfrequenz + Oberschwingungen

Schalldruck als Funktion der Zeit

Schalldruckpegel als Funktion der Frequenz (Fourieranalyse)

Geräusch unperiodisches Klangereignis

Das menschliche Ohr 1 2 3 4 5 6 7 8 9 10

Ohrmuschel Gehörgang Trommelfell Mittelohr Hammer Amboss Steigbügel Gleichgewichtsorgan Schnecke Hörnerven

• Aussenohr: – räumliche Orientierung (Signale zweier Ohren + Phasendifferenzen) • Mittelohr: – Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung • Innenohr: – Schnecke (cochlea), zwei flüssigkeitsgefüllte Gänge – Haarzellen entlang der Tektalmembran: Wahrnehmung von Frequenzen

Psychoakustik Hörvermögen des Ohrs in Abhängigkeit von Frequenz und Schalldruckpegel

Psychoakustik

Kurven gleicher Lautstärke LS • Ermittelt durch Hörversuche

A-Bewertungskurven • LpA=Lp bei 1000Hz

• Ls=Lp bei 1000 Hz

• Einfache Messgeräte

• Schwierige Messbarkeit

• Bei technischen Lautstärkeangaben, 80 dB(A)

Grundprinzip der Digitalisierung

Analoges Eingangsgangssignal – Analog-Digital-Wandler – Digitales Ausgangssignal

Sampeln

Samplingfrequenz Wie oft muss das analoge Signal abgetastet werden? Abtastfrequenz > Doppelte im analogen Signal enthaltene maximale Frequenz Shannon‘sches Abtasttheorem Hörgrenze des Ohrs ca. 20 kHz – Abtastrate 44,1 kHz Beispiel Tonleiter ab 60-14000 Hz, 60 Töne = 5 Oktaven Abtastrate=44.1 kHz

Abtastrate=11,025 kHz

Abtastrate=1,4kHz

Abtastraten: Analoges Telefon 8000 Hz Mittelwelle Radio 11025 Hz UKW Radio 22050 Hz Audio-CD 44,1 kHz Digital Audio Tape 48 kHz Professionelle Audiogeräte 96 kHz

Aliasing

Aliasing

Tiefpassfilterung

RC-Glied als analoger Tiefpassfilter

Sprungantwort

Quantisierung Auflösung eines Samplers - Wortbreite Beispiel: Spannung von -1 V bis +1 V Auflösung: 8 bit / 28=256 Möglichkeiten / 1 V:256= 0,004 V 16 bit (heute üblich) / 216=65535 Möglichkeiten / 1 V:65535=15*10-6 V 24 bit (DVD-Audio) – Verbessert die Klangqualität

Datenmenge = Abtastrate 44000 Hz * 16 bit = 704000 bit/s = 88 kByte/s

Codierung

• PCM: Pulse-Code-Modulation = Für jeden Abtastzeitpunkt wird ein Signalwert binär gespeichert • Negative Werte = Zweierkomplement der positiven Werte

Probleme der Digitalisierung Amplitudenbegrenzung: Schalldruckspitzen werden ausgeblendet Quantisierungsrauschen • Ausgabesignal wird durch interpolierte Werte verbessert • Oversampling verbessert die Signalerkennung erhöht jedoch die Datenmenge

• Erhöhung der Wortbreite um 1 bit erhöht den SNR – Abstand um ca. 6 dB • Es gilt SNR = N*6,02 dB + 1,78 dB • 16 bit = 98,1dB

AD-Wandlung Sukzessive Approximation

• Hohe Verarbeitungszeit / Sample • Nur für kleine Samplefrequenzen • Steile analoge Tiefpassfilter notwendig (Anti-Aliasingfilter)

AD-Wandlung Delta-Sigma-Wandlung – Bitstream-Wandler

• Erhöhung der Samplefrequenz (3 MHz) – Erniedrigung der Auflösung (1 bit) – geringes Rauschen • Nicht die absolute Größe eines Samples – Differenz von Sample zu Sample • Modulator (Bitstrom) + Digitaler Filter (Hörbereich) + Dezimierer (PCM –Wort, n-bit) • Latenzzeit 1,5 ms

Komprimierung von Audiosignalen Beispiel: Mitschnitt Livekonzert in CD-Qualität, Abtastrate 44,1 kHz, Stereo, Auflösung 16 bit/Kanal, Dauer 60 min Datenmenge= 44100 Hz * 2 * 16 bit * 3600s = 5,1 Gigabit = 635 Megabyte Audiokompression • Verlustfreie Audiokompression = Datenkomprimierung - Wie z.B. Huffman-Codierung, Apple-Losless, Windows Media Audio Lossless - Es gehen keine Daten verloren

- Keine großen Kompressionsgewinne (max. 50%) - Sinnvoll, wenn Audiofiles nachbearbeitet werden sollen • Verlustbehaftete Audiokompression = Datenreduktion - Keine orginalgetreue Kopie der Ausgangsdaten - Datenverlust - psycho- akustische Besonderheiten des menschlichen Gehörs - Große Kompressionsgewinne (MP3, ca.90%)

Komprimierung von Audiosignalen Vorarbeit: • Frequenzspektrum ermitteln - Fast Fourier Transformation (FFT) • Frequenzspektrum in Intervalle unterteilen - Können unterschiedlich groß sein - Abhängig vom Hörvermögen des Ohrs

• Zeitachse in Intervalle unterteilen - Gleichgroß - Audiosignal wird portioniert, je nach Anwendungszweck

Maskierung Hörschwellenmaskierung: • Entfernen der Töne, die unterhalb der Hörschwelle liegen • z.B. Ton von 12 kHz und 20 dB

Maskierung Frequenzmaskierung – Simultane Maskierung: • Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden • z.B. Ton mit 10 kHz und 40 dB maskiert von einem Ton mit 8 kHz und 60 dB • Mit steigender Frequenz wird der maskierte Frequenzbereich breiter

Maskierung

Frequenzmaskierung – Simultane Maskierung:

Anwendung bei MP3

16bit -44kHz

MP3-codiert

• Erhöhtes Rauschen – nicht hörbar wegen Maskierung

Maskierung Zeitmaskierung – Temporale Maskierung: • Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden • Zeitliche Abfolge wird zusätzlich betrachtet (Erregungszeit des Ohrs) • z.B. Ton mit 1 kHz und 60 dB abgeschaltet maskiert dieser noch 5 ms den Ton mit 1,1 kHz und 40 dB

Maskierung Zeitmaskierung – Temporale Maskierung:

Maskierung Hörschwellen- + Frequenz- + Zeitmaskierung = 256kBit/s

Stereoredundanz: • Gleiches Signal (z.B. Gesangsstimme) auf beiden Kanälen – nur einmal übertragen

• Unter 80 Hz kann Ohr Richtung nicht feststellen – kein Stereo notwendig • verschiedene Verfahren • bis 128 kBit/s -Phaseninformationen bleiben erhalten • bis 64 kBit/s - Phaseninformationen gehen verloren

- Nicht für Dolby Surround geeignet - Deutliche Differenzen zum Original

MP3 = MPEG 1 Layer III

• Filterbank: Transformiert Audiosignal vom Zeit- in Frequenzbereich (32 Frequenzbänder) • Jedes Frequenzband durch diskrete Cosinus-Transformation (MDCT) in 18 Teilbereiche • Quantisierung

MP3 Vergleich MP3 – Minderwertigerer Decoder

Überblick Format

Entwickler

Qualität

Perspektiven

MP3

Fraunhofer-Institut

bei 128 kBit/s akzeptabler Klang

Quasi-Standard im Internet

AAC

AT&T, Dolby Laboratories, FraunhoferIIS und Sony

schon bei 64 kBit/s anderen Formaten in der Qualität deutlich überlegen

Favorit der Musikindustrie Teil von MPEG-4 Format der Zukunft

RealAudio

Real

Qualität je nach Bandbreite

die Nr.1 für Streaming

WMA

Microsoft

Nicht so gut wie MP3

bisher kaum Interesse bei Anwendern und Musikindustrie

OggVorbis

Ogg-Projekt

bei 128 kBit/s vergleichbare Klangqualität wie MP3

einziges freies Format, dazu gute Qualität, bedient ähnliche Klientel wie Linux

Quellen

-www.leidinger.net/publications/Audiokompression -Roland Pianos -Spektrum der Wissenschaft: Thoralf Abgarjan – Digitale Klangerzeungung -C´t: Matthias Carstens – Musik kompakt -Peter Gorges – Das große Sampler Praxisbuch -Peter Brehm – Das digitale Tonstudio -E. Zwicker und R. Feldtkeller – Das Ohr als Nachrichtenempfänger -Martin Ohsmann – Espresso -Proceedings of the IEEE: Perceptual Coding of Digital Audio -www.beis.de/Elektronik -DAA-Technikum Skript -www.fh-wedel.de (Digital Audio) -www.medien.informatik.uni-münchen.de (digitale medien 5) -www.informatik.uni-leipzig.de (AD-Wandlung)

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF