CRE154 Digital Audio

Veröffentlicht am 11. Mai 2010 von Tim Pritlove

Warum die Darstellung von Klängen und Geräuschen in Nullen und Einsen nicht so einfach ist

Die Digitalisierung von Klängen und Geräuschen ist ein komplexes Thema, was jeder, der sich mal damit beschäftigt hat, bestätigen kann. Im Gespräch mit Tim Pritlove erläutert Daniel Mack die zahlreichen Probleme und Stolperfallen bei der Überführung von Musik und Sprache in diskrete Werte.

Themen: wie Klang digital dargestellt wird; wie man Audio digitalisiert und welche Rolle die Lautstärke dabei spielt; Samplingfreuqenzen; Karajan und die CD; der Klang von Live- und aufgezeichneter Musik; AD-DA-Wandlung; moderne Wandlungsverfahren; die Rolle des Rauschens; das Problem mit der Zeit; digitale Audio-Schnittstellen; Audioübertragung über Ethernet, USB und FireWire; Computer-Audio-Subsysteme der Betriebssysteme.

Tim Pritlove

Daniel Mack

Shownotes

Links:

46 Gedanken zu „CRE154 Digital Audio“

Tharben sagte am 12. Mai 2010 um 12:14 Uhr :

Oh, mit dem Thema kenne ich mich halbwegs aus .. bin gespannt. Ups, DL schon fertig. Damn, ich liebe bittorrent.

Antworten ↓
panzi sagte am 12. Mai 2010 um 13:04 Uhr :

Was mich grad beim Hören gewundert hat ist wie lange Tim um das Wort „interpolieren“ herumgeredet hat und es doch nie ausgesprochen hat. Das lernt man doch in Mathe schon vor dem Studium. Polynominterpolation, Bezier Kurven, etc. Da wird man im Audiobereich keine anderen Verfahren verwenden wie wenn man eine tatsächlich graphische Kurve interpoliert.

Antworten ↓
qwertz sagte am 12. Mai 2010 um 13:59 Uhr :

Nette Sendung.
Mehr!
…insbesondere bezüglich Audio.

Antworten ↓
onny sagte am 12. Mai 2010 um 14:08 Uhr :

Schade, dass es noch keine Alternative zum MP3-Download gibt, wie ein OGG-Vorbis-Audioformat :( Dabei würden es moderne Betriebsysteme und Brwoser ohne extra Codecs wunderbar abspielen!

Antworten ↓
thomas sagte am 12. Mai 2010 um 15:43 Uhr :

hyhy!

sehr schöner und sehr interessanter pcast! habe vorhin im zug schon mal rein gehört :)!

ich habe da mal eine andere frage, wenn ich die podcasts mit meinem pc runter geladen habe werden die ja automatisch danach geseeded.

wie mach ich das nun, wenn ich die auf einen anderen pc/notebook etc, kopiert habe das die von diesem auch geseeded werden? muss ich die dann in das entsprechende verzeichnis von bittorrent ablegen und dann nochmal alle torrents runterladen die starten und dann erkennt bittorrent das die files schon runter geladen sind und meldet dem tracker das und dann seeded bittorrent die files?

wäre cool wenn mich da jemand aufklären könnte!

vielen dank schon mal im voraus und einen schönen rest sonntag noch!

mfg
thomas

Antworten ↓
Tharben sagte am 12. Mai 2010 um 20:29 Uhr :

Hammergeiler Podcast! Konnte einige Dinge dazulernen.

Hallo Daniel, eine Frage:

Ungeachtet der Tatsache, dass verschiedene Uhren und damit verschiedene Wandler immer unterschiedlich schnell laufen – gibt es den in der Praxis relevanten Fall, dass zwischen Samples unterschiedlich viel Zeit vergangen ist? Ich meine damit, dass die Uhr zwar auf lange Sicht konstant schnell läuft, aber innerhalb eines Zyklus‘ unrund läuft, sozusagen einert?

Habe mir auch einmal deine Facharbeit des SAE runtergeladen – sieht spannend aus.

————————-

Der Rest sind ein paar winzige (aber viele) Anmerkungen für den interessierten Lesen – und eher so halbe Fragen an Daniel:

2. Man kann sich eine Amplitudenkurve im Waveeditor auch einfach so vorstellen, dass, wenn sich die Kurve nach oben bewegt, sich die Membran aus dem Chassis der Lautsprecherbox bewegt und vice versa.

3. Ich bin mir da auch nicht sicher, aber könnte die Identifizierbarkeit von Livemusik nicht auch an der Lautstärkedynamik anstatt nur am Frequenzmuster liegen?

4. Ergibt eine Vorkomprimierung von Analogsignalen beim 24 oder gar 32 bit floating-point auflösendem Aufzeichnen überhaupt Sinn?

5. Zur Vergewaltigung des Audiosignals durch Digitalisierung (Zerteilung in digitale Werte): Natürlich ergibt das ein unscharfes Bild der Realität. Die entscheidende Frage aber ist doch, ob man das mit menschlichen Sinnen wahrnehmen kann. Ich würde sagen – ähnlich wie sie das menschliche Auge zum Mikroskop verhält: nein.

6. Dass Dithering jenseits von Downsampling eine Rolle spielt, war mir nicht bewusst. Erstaunlich.

7. Daniel zum digitalen Mikro: „Meines Erachtes ist das Quatsch“ Lass das nicht die Leute von Sennheiser hören, die waren 2008 genau deswegen für den Zukunftspreis des Bundespräsidenten nominiert. Siehe: deutscher-zukunftspreis.de/content/team-3 (Ich verstehe, warum du das unsinnig findest.)

8. Stimmt. Unter Windows funktioniert bisher lediglich ASIO. Dafür allerdings auch zuverlässig. Die feste Buffersize empfinde ich bei meinen Anwendungen zumindest nicht als Nachteil.

@Tim

Selbst Hardwaresynthies haben eine Latenz von ~ 6 ms (- zumindest ältere). Anders als bei Kopfhörern und links-rechts-Synchronität kommt man bei Tasten- und Saiteninstrumenten mit ein paar ms Latenz ganz gut zurecht, weswegen Softwaresynthies überhaupt möglich sind.

Antworten ↓
Felix sagte am 12. Mai 2010 um 20:36 Uhr :

Kann mich den Vorrednern nur anschließen – richtig geile Sendung.

Wir wollen Fotos sehen!! :D

Antworten ↓
Frank sagte am 12. Mai 2010 um 21:29 Uhr :

Oh, ein Podcast über mein täglich Brot…

Schönes Thema, interessantes Gespräch! Allerdings muss ich leider sagen, dass Daniel bei den theoretischen Hintergründen doch häufiger ins Schwimmen kam — ich konnte mir nicht verkneifen, hier eine Menge Sachen ins Wiki zur Sendung zu schreiben.

Trotzdem vielen Dank für den Podcast – ich freue mich schon auf 155…

Antworten ↓
flummi sagte am 13. Mai 2010 um 00:17 Uhr :

Hey, da faellt Euch schon auf, dass Eure Erklaerung der Nyquist-Frequenz nicht hinhauen kann, und dann korrigiert Ihr’s nicht …

Zur Reproduktion von n Hz sind 2*n Hz _nicht_ ausreichend (oder genauer zur Reproduktion des Bandes von 0 bis n Hz) – eben, weil bezueglich der Phasenlage nichts garantiert ist und es damit passieren koennte, dass man dauernd nur die Nulldurchgaenge samplet, womit sich die Samplefolge nicht von der Samplefolge eines 0 Hz-Signals auf der Nulllinie unterscheiden liesse. Es braucht vielmehr eine Frequenz _ueber_ 2*n Hz – je steiler der Tiefpass vor dem ADC und hinter dem DAC, desto naeher darf man von oben an die 2*n Hz ran, aber man darf die 2*n Hz nie erreichen. Und da steile Filter teuer sind, spart man sich meistens auch besser, allzu nah ranzukommen, und investiert stattdessen besser in eine etwas hoehere Samplefrequenz.

Antworten ↓
panzi sagte am 13. Mai 2010 um 02:14 Uhr :

Wenn ich das richtig verstehe dann sind es Leute wie der hier Interviewte denen wir PulseAudio zu verdanken haben (also falls der Linux verwendet)? Ich meine, wer verwendet Linux wenn er professionell Audio macht? Da nimmt man doch nen Mac. Aber trotzdem mussten sie PulseAudio verbrechen mit dem dann eben solche USB Soundkarten funktionieren, aber dann nichts anderes mehr. Nur Probleme hat man mit dem *§?$! Zu Anfang hats ne halbe Sekunde bis Sekunde Latenz produziert, im NORMALEN SYSTEMSOUND. Stell dir mal vor so ein Spiel zu spielen! Immer noch produziert es ab und zu ein Knacken und weil es sich regelrecht in alle Audio-Libs reinhackt machts irre Probleme bei Software die nicht exakt für dein Linux kompiliert wurde (z.B. kommerzielle Spiele). 2001 hat Audio unter Linux viel besser Funktioniert als 2010, nämlich perfekt out of the box ohne Knacken o.ä. Und alle großen Distries verwenden PulseAudio so extensiv das Audio nicht mehr funktioniert wenn man’s einfach deinstalliert. Kannst dir quasi ne Distri from scratch machen wenn du kein PA willst (bzw. angeblich verwendet Arch Linux kein PA, sollt ich mir echt mal anschaun).

Sorry, musste mal (wieder) raus. Es wurde einfach zum Horror mit Sound unter Linux.

Antworten ↓
panzi sagte am 13. Mai 2010 um 02:18 Uhr :

@Welche Software kommt schon aus Deutschland: SAP (was *wirklich* groß ist!) und SuSE (naja, jetzt ja von Novell gekauft).

Antworten ↓
manka sagte am 13. Mai 2010 um 06:07 Uhr :

@tharben:

„…Die entscheidende Frage aber ist doch, ob man das mit menschlichen Sinnen wahrnehmen kann. Ich würde sagen – ähnlich wie sie das menschliche Auge zum Mikroskop verhält: nein.“
Ich denke der Mikroskop Vergleich ist nicht ganz passend. Wir hören nicht nur mit den Ohren, sondern können Schallwellen anders als die des Lichtes am ganzen Körper erfahren. Dieses Klangbild ist Live immer voller und umfangreicher als jenes aus der Konserve. Statt wie beim Mikroskop ist es eher wie bei einer Suppe die schlecht umgerührt wurde und an einigen Stellen total versalzen ist und an anderen wiederum völlig fade daherkommt.

Antworten ↓
flummi sagte am 13. Mai 2010 um 08:31 Uhr :

@manka:

Ich glaube, der Vergleich passt besser als Du glaubst.

Ja, Schallwellen im weitesten Sinne (also Druckschwankungen im Umgebungsgas) koennen wir durchaus auch mit anderen Organen als den Ohren wahrnehmen, mit ein wenig Ueberlappung des Frequenzbereichs.

Und elektromagnetische Wellen koennen wir ebenfalls mit anderen Organen als den Augen wahrnehmen, da aber wohl knapp ohne Ueberlappung des Frequenzbereichs: Wenn Du die Waerme einer Heizung oder eines Feuers auf der Haut ohne direkten Kontakt spuerst, und auch nicht zufaellig durch Konvektion, weil Du Deine Haende oben drueber haeltst, dann fuehlst Du Waermestrahlung, also Infrarotstrahlung – eben Licht mit etwas laengerer Wellenlaenge als das was unsere Augen sehen koennen.

In beiden Faellen hat unsere Wahrnehmung aber trotzdem sehr enge Grenzen – und in beiden Faellen ist es im Rahmen der technischen Machbarkeit, digitale Aufzeichnung und Wiedergabe so detailliert zu machen, dass einem Menschen keine Unterscheidung mehr moeglich ist. Nur weil Deine Hifi-Anlage oder Dein Fotoapparat das nicht koennen, heisst das nicht, dass es nicht moeglich waere. Ebenfalls ist es in beiden Faellen moeglich, mit entsprechender Technik (wie Mikroskopen) noch deutlich mehr „sichtbar“ zu machen als unsere Sinne einfach so wahrnehmen koennen (Bakterien, Roentgenstrahlen, Radiowellen, Ultraschall, Echo-Entfernungsmessung, Messung von Oberflaecheneigenschaften per Schallwellen, …).

Und was die Unterscheidung von Musik von der CD und Livemusik angeht: Wenn jemandem das moeglich ist, dann nicht, weil die AD/DA-Wandlung prinzipbedingt zuviel verschlucken oder verfaelschen wuerde, sondern entweder weil die gewaehlten Parameter zu eng sind (ibs. die Sample-Frequenz), oder weil sonst irgendein Teil der Reproduktionskette zu grosse Fehler einfuegt (ibs. Lautsprecher!), oder auch einfach (ich denke, in den meisten Faellen der entscheidende Faktor), weil zwei Kanaele nicht ausreichen, die Richtungsaufloesung des menschlichen Hoersinns vollstaendig abzubilden.

Antworten ↓
Mühsam sagte am 13. Mai 2010 um 10:34 Uhr :

@onni Das Ogg Vorbis rumgeweine hat in den letzten 10 Jahren nichts gebracht und wird es auch in Zukunft nicht.

Antworten ↓
Tharben sagte am 13. Mai 2010 um 11:47 Uhr :

@Frank

Wow, da steht ja einiges im Wiki.

@manka

Ja, der Mikroskop-Auge-Vergleich passt nicht wenn es um die Identifizierbarkeit von Livemukke vs. Konservenmukke geht. Ich habe diesen Vergleich bezüglich der s.g. Vergewaltigung des Audiosignals durch Digitalisierung gebracht.

Antworten ↓
Daniel sagte am 13. Mai 2010 um 11:59 Uhr :

Hallo Frank,

Du hast sicherlich recht mit deiner Klarstellung zum Nyquist-Theorem und zu digitalen Mikrofonen. Wir haben an der Stelle im Podcast ein bischen übertrieben mit den Auswirkungen, es ging aber – und ich denke, so ist es auch von den meisten Hörern verstanden worden – um eine anschauliche Erklärung dessen, was mit mit einem Signal passiert, wenn es gewandelt wird. Und wenn man es schon versucht in Bildern zu verpacken, dann kann man die Beschreibung eines analogen Signals (auf seinen Wegen durchs Studio bis hin zum analogen Endprodukt) auch so stehen lassen. Dass das in der Praxis weniger Rolle spielt als von mit beschrieben ist natürlich klar.

Vielen Dank jedenfalls für die Beiträge und Richtigstellungen :)

Daniel

Antworten ↓
Daniel sagte am 13. Mai 2010 um 12:10 Uhr :

Panzi,

mir hast Du PulseAudio nicht zu verdanken, nein. Ich habe nur versucht, einen Überblick über verfügbare Audiosysteme zu geben und einen Trend auszumachen. Die Nennung dieses Projektnamens scheint auf Deiner Seite schon Grund genug zu sein, den Kommentarfeed dieses Blogs für unreflektierte Rants zu missbrauchen, insofern müssen die Schmerzen wirklich gross sein. Ich würde dir einfach empfehlen wollen, die Diskussion auf entsprechende Mailinglisten zu verlagern, auf denen man Dir helfen kann.

Daniel

Antworten ↓
panzi sagte am 13. Mai 2010 um 18:26 Uhr :

@Daniel
Ja sorry das ich hier gerantet hab. Hab ja auch nicht dich persönlich gemeint sondern Audio-Profis die Linux verwenden. Und eigentlich sind das auch die falschen, denn welcher Audio-Profi verwendet schon Linux? Schuld sind die PA Typen bzw. die Distris die PA einsetzen. Und ich bin nicht allein mit meinen Problemen. Wenn irgendwo die Sprache auf PA kommt gibts immer eine Welle von Rants wie sehr das einen das System zerhaut (nicht nur von mir). Das Problem ist bekannt und wird ignoriert. Die breite Masse an Linux Usern ist unwichtig, nur die potentiellen Audio-Profies die eh niemals Linux einsetzen würden sind den Distris wichtig. Sorry für mein Ranten aber das ewige Verschlimbessern treibt mich schön langsam weg von Linux, wären Apple und MS nicht aus anderen Gründen kein Option (und würde ich KDE nicht lieben).

Tschuldigung, panzi

Antworten ↓
Daniel sagte am 13. Mai 2010 um 18:49 Uhr :

@Panzi, diese Diskussion ist ja leider so furchtbar alt. Meine persönliche Meinung ist, dass PA total Sinn macht und dann man Probleme damit dank einer sehr aktiven Community durchaus in den Griff kriegen kann. Und hey – das Beste an Linux ist ja, dass Du es einfach ausschalten und deinstallieren und durch was Anderes ersetzen kannst. Je nach Distribution ist das grade mal ein Klick. Aber wie auch immer – ich würde Dir wirklich empfehlen, deinen Rant nochmal (ein bischen detailierter und differenziert vielleicht) auf der PA-Mailingliste loszuwerden :)

Nix für ungut – Daniel.

Antworten ↓
Tharben sagte am 13. Mai 2010 um 19:57 Uhr :

Daniel oder Frank, könnt ihr mir auf die Sprünge helfen?

Soundkarten haben doch einen Schwingquarz, nach dessen Takt die Abtastung des analogen Signals erfolgt. Takten solche Quarze immer gleichmäßig oder kann es passieren, dass ein eiernder Quarz Schwankungen im digitalisiertem Signal verursacht? (Sorry falls das eine dumme Frage ist, ich habe von Elektrotechnik keine Ahnung.)

Antworten ↓
Daniel sagte am 13. Mai 2010 um 20:08 Uhr :

@Tharben, nein, das kann theoretisch schon passieren. Die Quarze, die man dazu verwendet, haben aber einen sehr engen Toleranzbereich, sodass das in der Praxis kaum eine Rolle spielt – zumindest solange äussere Einflüsse wie z.B. die Umgebungstemperatur stabil sind.

Aber in der Theorie gibt es den Effekt, den Du beschreibst. Beim Abspielen übrigens auch.

Daniel

Antworten ↓
flummi sagte am 13. Mai 2010 um 23:36 Uhr :

@Tharben:

Der Name fuer dieses „Eiern“ ist uebrigens „Jitter“.

Antworten ↓
flummi sagte am 14. Mai 2010 um 15:06 Uhr :

Achja, und noch was zu Delta-Sigma-Wandlern: Die haben natuerlich eine genauso harte Begrenzung, namentlich die Betriebsspannung. Der Wandler integriert ja seinen Ausgabe-Bitstrom und vergleicht das Integral fortlaufend mit der Signalspannung, was dann wiederum den Bitstrom erzeugt. Wenn das Integral die Betriebsspannung erreicht, clippt der genauso hart wie jeder andere ADC beim Ueberschreiten des Dynamikbereichs.

Antworten ↓
onny sagte am 14. Mai 2010 um 15:46 Uhr :

@Mühsam: dabei bieten alle anderen ccc-podcasts schon länger erfolgreich ogg-audio-formate an. frage mich, warum chaosradio nicht dazu kommt :(

Antworten ↓
Roddi sagte am 18. Mai 2010 um 10:07 Uhr :

Hi,

weil gerade bei den Grundlagen viel herumgeeiert wurde, hier meine Anmerkungen für die erste halbe Stunde:

15:53 „eigentlich will man mit deutlich mehr Abtastfrequenz arbeiten, als das Signal das man erwartet, aber man sagt so grob Faktor zwei“ – Faktor zwei ist das mindeste das man an Abtastfrequenz braucht. Mit Nyquisttheorem fiel ja auch das Stichwort, warum das so ist. Unterhalb doppelter Abtastfrequenz bekommt man Aliasing (deutscher Wikipediaartikel ist etwas dürftig deshalb: http://en.wikipedia.org/wiki/Aliasing). (siehe auch Kommentar von flummi)

16:49 Die beim Sprechen erzeugten Frequenzen gehen über den gesamten Hörbereich (Zischlaute). Für die Sprachverständlichkeit reicht aber deutlich weniger. Im Telefon z.B. werden Frequenzen von 300hz bis 3,3kHz übertragen (mach ITU Standart) und entsprechend mit 8kHz gesamplet.

19:07 „völlig falsche Messergebnisse“ – das ist das bereits angesprochene Aliasing. Um das zu verhindern *muss* das Signal vor dem Sampling tiefpassgefiltert werden.

21:13 „Maximale Dynamik“ Die Erklärung der 96db führt hier etwas in die Irre. Gemeint ist eigentlich der Signal-Rausch-Abstand (SNR) der bei 16bit 96dB beträgt. Durch die endliche Anzahl der abgebildeten Werte besteht immer ein Fehler zwischen tatsächlichen Signal und dem gesampleten Signal von bis zu +/- einer halben Stufenhöhe dadurch rauscht ein digitales Signal in der Lautstärke der Stufenhöhe. Das Verhältnis zwischen Signal und Rauschen wird ungünstiger, wenn das Signal kleiner ist, weil die Stufenhöhe sich nicht ändert. Für ein Tonband oder einen Plattenspieler wäre ein SNR von 96dB übrigens ein Traumwert.

22:54 „ein klassisches Orchester hat mehr als 96dB Dynamikumfang“ – Prinzipiell richtig, aber auch Klassikaufnahmen mit hohem Dynamikumfang werden auf etwa 40-50dB komprimiert. Mehr gibt eine handelsübliche Stereoanlage in einem handelsüblichen Wohnzimmer eh nicht her (ohne dass die Nachbarn klopfen oder man die Straße hört). Wenn man aufnimmt will man natürlich mehr, dem gebe ich recht. Ich nehme auch immer mit 24bit auf.

25:32 „6dB ist eine gefühlte Lautstärkenverdopplung“ – falsch. 6dB ist eine Amplitudenverdopplung. Das Gehör empfindet aber ungefähr eine Verzehnfachung der Schallleistung als Lautstärkenverdopplung und das entspricht 10dB. Überhaupt werden im Podcast offenbar die Begriffe Amplitude, Leistung, Lautstärke und Schalldruck synonym verwendet. Das macht mich ganz kirre.

mehr Anmerkungen wenn ich weiter gehört habe
Roddi

Antworten ↓
Fabian sagte am 18. Mai 2010 um 14:25 Uhr :

@Daniel
Mir hat ein bisschen der Aspekt gefehlt, dass auch bei der D/A-Wandlung in jedem Falle ein Tiefpassfilter benötigt wird. Denn man will ja nicht ein Signal haben, bei dem die einzelnen Samples wie „Treppchen“ aufeinander folgen (mit Kanten) oder einfach mit Linien verbunden werden (klingt aber schon besser).

Details:
Im Idealfall wird eigentlich ein analoger Tiefpass dahinter gehängt, der, wie auch schon bei der A/D-Wandlung, bei der Nyquistfrequenz (2*fs) zu macht (muss aber nicht ganz so steilflankig sein.

Fehlt der Filter, bekommt man ganz fieses „Imaging“ (wird oft und gerne mit Aliasing verwechselt; beim Aliasing jedoch wird das durch die (id.) Abtastung mit Dirac-Impulsen periodische Spektrum dem Nutzspektrum gespiegelt überlagert, sodass das Nutzsignal unwiederbringlich zerstört wird (wurde im Podcast kurz angesprochen). Imaging hingegen entsteht beim Zurückwandeln und besteht aus einem ebenfalls periodisch werdendem Spektrum, das sich jedoch oberhalb der Nyquistfrequenz unendlich oft wiederholt und das Nutzsignal NICHT überlagert und zerstört. Daher kann es mit einem einfachen Filter weggefiltert werden (übrigens entspricht das im Zeitbereich – genau! – einer Interpolation, wie ganz oben hier in den Kommentaren irgendwo festgestellt wurde).

Wie es sich anhört, wenn man KEINE Anti-Imaging-Maßnahmen trifft (durch einen Tiefpass oder in Playersoftware einfach durch Interpolation), weiß jeder, der schonmal eine Flash-Animation mit Sound anhören musste, bei der ein MP3 mit niedriger Samplefrequenz wie 22,05 oder gar nur 11,025 kHz hinterlegt ist. Der Adobe Flash Player (JA, DER ist daran Schuld in dem Fall!) gibt dann nämlich jedes Sample einfach 2x bzw. 4x hintereinander aus, um auf die 44,1 kHz der Soundkarte zu kommen (er macht das aber immer) – das ergibt schöne „Treppchen“, wenn man sich die Kurve im Zeitbereich anschaut.

Klingen tut es ganz furchtbar, blechern, krächzig, schabend, kristallig, ähnlich Aliasing, mit „Phantomfrequenzen“ die modulieren, einfach grauenhaft.

Einige billige DECT-Telefone und auch einige Telefonhybride für den Studioeinsatz (und die sind ganz und gar nicht billig!) haben das Problem auch. Hier muss man ja auch irgendwie von den 8 kHz ISDN-Samplefrequenz auf die 48 kHz Studiofrequenz kommen… Ohne Interpolation GEHTs aber einfach nicht, Imaging ist ein No-Go!

Viele hören es leider gar nicht oder sie stört es nicht.

Antworten ↓
Captain Gomd sagte am 20. Mai 2010 um 23:37 Uhr :

Super Sendung. Von mir aus könntet Ihr gerne noch mal ne Sendung zum Thema Akustik machen. Das wurde ja ein wenig abgekürzt, ist aber sicher nicht weniger interessant. So, jetzt muss ich mich mal um ein flattr invite kümmern… Hat wer einen?

Antworten ↓
Christoph sagte am 21. Mai 2010 um 14:22 Uhr :

Der Zusammenhang zwischen 44100 kHz und Videoformaten wurde im Wiki
bereits angesprochen, der – afaik – sich wohl davon ableitet, dass
von Anfang an Sony U-Matic (Video-)Recorder für das CD-Mastering
verwendet wurden.

@flummi
klar, steilflankige Filter sind teuer zu konstruieren, aber auch
wenn sie günstig wären, würde man sie nicht verwenden.
An dieser Stelle kommt aufnahmeseitiges Oversampling ins Spiel:
Filter verursachen grundsätzlich Phasenfehler im Signal
(und das will man definitv nicht), die im Bereich der Grenzfrequenz
besonders ausgeprägt sind.
Die Größenordung dieser Phasenverschiebungen wird
um so größer, je höher die Ordnung (Steilheit) des Filters.
Beim Oversampling vervielfacht man die Sampling-Frequenz ganzzahlig,
bis diese auftretenden Phasenfehler uninteressant werden (natürlich ist das sehr subjektiv und wiederum kostenabhängig, auf der anderen
Seite braucht man jetzt nicht mehr so steil zu filtern, im Extremfall garnicht) und rechnet anschließlich das Signal auf digitale Ebene mit dezimierenden Filtern auf die Originalfrequenz
runter.
Oversampling wirkt sich auch positiv auf das unweigerlich
auftretende Quantisierungsrauschen aus, das sich jetzt frequenzmäßig
breiter verteilt.
Es ging mir darum, die grundsätzliche Problematik
zu erläutern und nicht um technische Exaktheit, so please
don’t blame me.

Antworten ↓
Roddi sagte am 26. Mai 2010 um 08:37 Uhr :

Zum Thema FM Radio und Kompressoren noch eine Vermutung: Frequenzmodulation arbeitet ja so, dass eine größere Amplitude im Eingangssignal zu einer größeren Bandbreite des Ausgangssignals führt (und eine genaue Erklärung warum das so ist, zu weit). Deshalb wird der Betreiber des Sendeequipments (Telekom?) sein Eingangssignal ganz hart auf eine Maximalamplitude limiten. Um die dann voll ausnutzen zu können muss eine Sendeanstalt entsprechend exakt an ihrem Ausgang arbeiten. Ich würde deshalb den Ausgangskompressor auch jederzeit abschließen und verplombem!

Dass man beim Einstellen von Summenkompressoren viel falsch machen kann, konnte man übrigens in Berlin bei Motor FM bis vor einem Jahr gut hören. Das Signal hat so gepumpt, das war mitunter schon schmerzhaft. Inzwischen haben sie’s im Griff.

Antworten ↓
Roddi sagte am 26. Mai 2010 um 08:41 Uhr :

@Tim

Ich würde an Deiner Stelle weiterhin mit 16Bit aufnehmen, es sei denn Du hast das Gefühl, dass das Quantisierungsrauschen unerträglich laut ist…

Antworten ↓
Roddi sagte am 26. Mai 2010 um 08:49 Uhr :

Noch eine Anmerkung zum Thema Live vs. Studio: Was Daniel da erzählt hat ist natürlich hanebüchener Unsinn. Jeder der mal Live gespielt oder abgemischt hat und auch mal im Studio war, weiß, das man im Studio ganz anders arbeitet. Da wird die Gitarrenspur halt dreizehnmal eingespielt bis es passt (ahhh! Diese Alpträume!). Live schraddelt man’s halt nach Tagesform hin. Und die Bands, die ich live abgemischt habe, klingen im Studio hoffentlich ganz anders.

Antworten ↓
Roddi sagte am 27. Mai 2010 um 09:48 Uhr :

Eine letzte Besserwisseransage, dann halte ich auch die Klappe. Leider wird sehr oft falsch behauptet, dass bei mp3 (und ähnlichen Verfahren) „Frequenzen weggelassen werden“. Um zu erklären, warum das nicht wirklich richtig ist, muss ich ausholen.

Bei mp3 wird Encodieren das Signal zuerst über eine Filterbank geleitet. Man hat dann Einzelsignale in schmalen Frequenzbändern. Die Frequenzen des Quantisierungsrauschens beschränken sich in diesen Bändern effektiv auf die Breite des Bandes (für Korinthenkacker: ja, nur nach Unterabtastung). Das macht man sich zu Nutze, um an lauten und/oder durch Verdeckung schlecht zu hörenden Bändern gröber zu quantisieren. Auch in den Bändern gilt ja ein Signal-Rausch-Abstand von 6dB pro Bit. Ein gröber quantisiertes Signal rauscht also stärker, aber eben nur in dem einen Frequenzband.

Um es griffig zu formulieren: Man „spart Auflösung“, an Stellen im Frequenzspektrum wo man das (laut psychoakustischem Modell) nicht hört. Dieses Rauschen in einem einzelnen Band klingt allerdings nicht wie Rauschen, sondern wie Geschwurbel. Wer das mit dem Komprimieren schon mal übertrieben hat, kennt sicher diesen fiesen Sound.

Das Verfahren ist da vom Ansatz ähnlich JPEG, wo ja auch nicht Frequenzen weggelassen, sondern nur gröber quantisiert werden.

Antworten ↓
Martin sagte am 13. August 2010 um 23:41 Uhr :

Das war wirklich sehr aufschlussreich! Ich habe naiver Weise wirklich gedacht, dass digitales Audio doch gar nicht so schwer sein kann. Die Details wie z.B. das Abtasten des analogen Signals und dass jedes Gerät seine eigene interne Uhr hat, waren sehr interessant…

Antworten ↓
Ulla sagte am 12. September 2010 um 17:01 Uhr :

Hätte mir mehr Hintergrund-Wissen über den komplett neuen Audio-Stack von Windows Vista und Windows 7 gewünscht.

Gerade das Zusammenspiel von XACT, DirectSound, Universal Audio Architecture und natürlich auch WASAPI ist ein sehr interessantes Thema!

http://en.wikipedia.org/wiki/Technical_features_new_to_Windows_Vista#Audio
http://en.wikipedia.org/wiki/DirectSound
http://en.wikipedia.org/wiki/Cross-platform_Audio_Creation_Tool

Antworten ↓
Ulla sagte am 12. September 2010 um 17:04 Uhr :

Ansonsten ein sehr guter und schöner Podcast!

Antworten ↓
efluon sagte am 21. September 2010 um 11:15 Uhr :

gefaehrliches halbwissen bis grober unfug. klingt aber super. habs nach der haelfte geloescht, da mehr fehlinformationen als informationen drin waren. vom oversampling bis zu wandlerverfahren und den erklaerungen von dithering und noiseshaping.. unterhaltung statt information. schade

Antworten ↓
muoo sagte am 23. September 2010 um 00:41 Uhr :

Wo ist denn die versprochene übersicht über die linux sound architektur aus minute 2:08?

Antworten ↓
r.s. sagte am 16. Oktober 2010 um 18:23 Uhr :

> Wo ist denn die versprochene übersicht über die linux sound
> architektur aus minute 2:08?

Vielleicht
http://yokozar.org/blog/content/linuxaudio.png

Antworten ↓
r.s. sagte am 16. Oktober 2010 um 18:36 Uhr :

Schöner Podcast, wenn auch manchmal ungenau.
Schön dass die wichtigsten Mängel der CD-ROM angesprochen werden. Allerdings hätte man auch darauf hinweisen müssen, dass auch die Analogtechnik nicht ohne Probleme ist und jeder (analoge) Verstärker Nichtlinearitäten und Rauschen erzeugt. Die analoge Signalübertragung über weite Wege, über Mischpulte usw ist also sicher nicht problemlos.
Desweiteren sollte man darauf hin weisen, dass die CD-ROM, trotz der angesprochenen Mängel, aller sonstigen Technik (Schallplatte, Kompaktkassette), die ein Privatverbraucher üblicherweise besitzt, bezüglich Klangqualität haushoch überlegen ist. Die Schallplatte erreicht nicht den Dynamikumfang und die Kanaltrennung der CD. Auch Gleichlaufschwankungen und Störgeräusche gibt es bei der Schallplatte mehr.
http://de.wikipedia.org/wiki/Schallplatte#Vinylplatte_versus_Audio-CD

Weitere Infos zu gefährlichem Halbwissen:
http://www.elektronikinfo.de/audio/cd.htm#Player

Antworten ↓
r.s. sagte am 16. Oktober 2010 um 18:47 Uhr :

Die Seite http://www.elektronikinfo.de/audio/cd.htm ist wirklich lesenswert. Sehr kompetente Abhandlung. Ich wollte das hier nur noch mal extra erwähnen, weil mein Kommentar weiter oben zu dieser Seite vielleicht missverständlich war.

Antworten ↓
Heinz K. sagte am 16. Oktober 2010 um 22:03 Uhr :

Wünsche mir passend zum Thema einen Podcast zu mp3 und ähnlichen Verfahren. Wie funktioniert mp3, wie funktioniert die Datenreduktion? Wie gut/schlecht ist mp3 wirklich im Vergleich zur originalen CD?

Antworten ↓
Pingback: Mac vs. PC - Seite 3
Audiot sagte am 26. November 2012 um 21:49 Uhr :

@efluon: Dachte schon es ginge nur mir so. Leider einer der schlechtesten Podcasts die ich hier gehört habe. – Bitte das nächste Mal wieder jemanden einladen der wenigstens ein bißchen Ahnung von dem hat worüber er spricht.

Antworten ↓
mkie sagte am 17. Dezember 2012 um 20:41 Uhr :

Wieder mal eine sehr interessante Sendung. Dachte mir erst „Was soll an Digital Audio so spannend sein?“ aber von wegen…

An die beiden „Nörgler“ weiter oben: Einfach nur rummeckern geht ja mal gar nicht. Dann doch bitteschön *konkrete* Hinweise was eurer Meinung nach falsch war und gerne auch z.B. Links zu besseren Infos.

Antworten ↓
DyDack sagte am 20. April 2013 um 03:11 Uhr :

@mkie:
Es wird leider sehr viel an Begriffen durcheinander geworfen, die nicht korrekt sind. Auch wird vom sog. Experten für Audio ziemlich am Anfang gesagt, die menschliche Stimme läge bei etwa 4 kHz… Hör‘ Dir mal einen 4000 Hz Ton an… und Tim wird auch mit seiner Stimme KEINE einige kHz erzeugen können! Wenn es also schon sofort an der Stelle am Wissen scheitert, fällt es sehr schwer, der Exp. weiter ernst zu nehmen… und das wohl leider zurecht, wie weiter oben auch schon erwähnt wurde mit den 6dB als Lautstärkeverdoppelung etc. pp.

Antworten ↓
Martin Schröder sagte am 28. Juli 2014 um 19:46 Uhr :

Die WP zu 44.1 kHz: https://en.wikipedia.org/wiki/44.1_kHz
Die WP zur Laufzeit und Größe von CDs: https://en.wikipedia.org/wiki/Compact_Disc_Digital_Audio#Storage_capacity_and_playing_time
Karajan hat damit wohl nichts zu tun.

Antworten ↓