Konvertierung mp3 in ein Audio Format

mrgraves · Beitrag von **mrgraves** » Mo 13. Feb 2006, 19:36

falls ich mal kurz etwas zu mp3 sagen darf. es ist ein völlig veraltetes format und wenn es nicht zwingend erforderlich ist, wegen mp3stick unterstützung sollte man immer ein anderes format nutzen!!!

muss es unbedingt auf einem portable genutzt werden, kommen noch ogg und andere in frage.

will man seine cds ordentlich von seinen originalen archivieren und hat keine ambitionen die dateien mal unterwegs hören zu wollen, ist musepack absolut die erste wahl, da hier schon ab 200kb raten deutlich bessere ergebnisse erzielt als bei mp3 dateien in den 256+ regionen

bei der heutigen preiswerten festplatten situation bin ich allerdings der meinung, das man als ernstahfter musik junky gleich auf ein loosless format wie flac geht, was mittlerweile bei ca 50% der original größe arbeitet und sehr gute tagging möglichkeiten bietet.

ich denke mal die seiten www.audiohq.de und www.hydrogenaudio.org kennt eh jeder und wenn nicht wird er die selben ratschläge auch dort finden.

ich war trotz lame NIE zufrieden mit dem MP3 format, habe mich lange zeit mit MPC über die zeit gerettet und habe jetzt nur noch ein flac archiv meiner cd sammlung auf platte(n). Warum? ganz einfach ich sehe keinen sinn auch nur evt. qualitätsverluste hinzunehmen, nur weil ich jetzt meine playlisten über den pc verwalte!

Inder-Nett · Beitrag von **Inder-Nett** » Mo 13. Feb 2006, 20:28

Frank Klemm hat geschrieben:Die maximal mögliche Dynamik eines Codecs ist eine andere Angelegenheit. Hier ist die CD aber mit um die 100 dB das schlechteste System.

* CD: ca. 95 dB (16 bit L-PCM)
...
* MP3: ca. 385 dB (8 bit Skalenfaktor zu 1,5 dB)
* AAC: ca. 385 dB (8 bit Skalenfaktor zu 1,5 dB)

Weil wir einmal beim Klugscheißen sind muss ich da noch Einiges richtigstellen:

Die CD ermöglicht eine maximale Amplituden-Auflösung von 90 dB! Die 16 bit L-PCM würden zwar rechnerisch 96 dB ergeben, aber selbst im günstigsten Falle (= ideale Wandler) fällt ein Bit für Quantisierungsfehler weg, verbleiben nur noch 15 bit * 6 dB...)

Wenn ich mit dieser zur Verfügung stehenden Auflösung ein Signal mit einem Mindest-Störspannungsabstand von 70 dB digitalisieren möchte, dann blieben mir noch 20 dB Dynamik-Reserve.
...denn die Dynamik ist der Pegel-Unterschied zwischen den leisen und den lauten Stellen der Musik.

Wenn also in einem Musik-Stück, welches bereits vor der Kompression einen max. Pegel von 0dB (bezogen auf Vollaussteuerung) hatte, die durchschnittliche Lautstärke um ca. 6 dB angehoben wurde, dann geht das nur mit Übersteuerungen an den Pegelspitzen oder mit einer Dynamik-Kompression, d.h. die Pegelspitzen werden einfach "kurzzeitig leiser gedreht".

Diese Dynamik-Kompression ist weitestgehend unauffällig und für die meisten Leute nicht hörbar, weil sie über Radio und Schallplatte nichts Besseres gewöhnt sind. Trotzdem wird die Musik davon nicht besser, sondern im Sinne einer unverfälschten Wiedergabe eher schlechter.

Dass diese Dynamik-Kompression bei iTunes nicht durch den AAC-Encoder "verursacht" wird ist mir als Techniker zwar klar, aber für mich als Kunde ist das völlig Wurst, denn ich kann sie nicht rückgängig machen. Das bedeutet, dass das iTunes-Material für mich kein gleichwertiger Ersatz für die Original-CD ist, sondern bestenfalls auf dem Qualitäts-Niveau des (kostenlosen) Radio-Mitschnitts anzusiedeln ist.
Mehr wollte ich damit nicht ausdrücken!

Schließlich stelle ich mir die 1kW Audio-Leistung in's Wohnzimmer, um für hochwertige Aufzeichnungen eine ausreichende Dymanik-Reserve zu haben und nicht, damit ich mit dynamik-komprimiertem Material einen effektiven durchschnittlichen Lärmpegel von über 110dB schaffe!

padrino · Beitrag von **padrino** » Mi 22. Mär 2006, 19:45

mrgraves hat geschrieben:f

will man seine cds ordentlich von seinen originalen archivieren und hat keine ambitionen die dateien mal unterwegs hören zu wollen, ist musepack absolut die erste wahl, da hier schon ab 200kb raten deutlich bessere ergebnisse erzielt als bei mp3 dateien in den 256+ regionen

b

selbst ab 160kb (Standard) soll sich Musepack in transparenten regionen bewegen. Im Regelfall verwende ich eine Einstellung höher (extreme)

ein höherer Wert (insane/braindead) wird selbst von Seiten der Programmierer nicht mehr empfohlen (ich würde den Link posten wenn ich ihn gerade griffbereit hätte)

Amperlite · Beitrag von **Amperlite** » Mi 22. Mär 2006, 22:42

Inder-Nett hat geschrieben:Das bedeutet, dass das iTunes-Material für mich kein gleichwertiger Ersatz für die Original-CD ist, sondern bestenfalls auf dem Qualitäts-Niveau des (kostenlosen) Radio-Mitschnitts anzusiedeln ist.

Guter Vergleich. Für den Komfort, einen Mitschnitt nicht nachbearbeiten zu müssen, wären rd. 10 cent pro Song akzeptabel.

Frank Klemm · Beitrag von **Frank Klemm** » Do 23. Mär 2006, 02:35

Inder-Nett hat geschrieben:
Frank Klemm hat geschrieben:Die maximal mögliche Dynamik eines Codecs ist eine andere Angelegenheit. Hier ist die CD aber mit um die 100 dB das schlechteste System.

* CD: ca. 95 dB (16 bit L-PCM)
...
* MP3: ca. 385 dB (8 bit Skalenfaktor zu 1,5 dB)
* AAC: ca. 385 dB (8 bit Skalenfaktor zu 1,5 dB)
Weil wir einmal beim Klugscheißen sind muss ich da noch Einiges richtigstellen:

Die CD ermöglicht eine maximale Amplituden-Auflösung von 90 dB! Die 16 bit L-PCM würden zwar rechnerisch 96 dB ergeben, aber selbst im günstigsten Falle (= ideale Wandler) fällt ein Bit für Quantisierungsfehler weg, verbleiben nur noch 15 bit * 6 dB...)

Wenn man klugscheißen möchte, sollte man es können.
Ein ideales 16-bit-System hat 98 dB Abstand zwischen Quantisierungsrauschen und Effektivwert des maximal möglichen Sinusnutzsignals. Für beliebige lineare n-bit-Systeme ist der exakte Wert

SNR = 6,0206 dB * n + 1,7609 dB (für n = 16 => 98,09 dB)

Für Videosysteme, in denen der Abstand zwischen Quantisierungsrauschen und Spitze-zu-Spitze-Wert des maximal möglichen Nutzsignals als SNR angegeben wird, erhält man

SNR = 6,0206 dB * n + 10,7918 dB (für n = 16 => 107,12 dB)

Mit den 97 Versionen mit Noise Shaping, additivem und subtraktivem Dither, Bewertungsfiltern und weiteren Tricks will ich jetzt nicht anfangen, sonst verdunkelt sich die Sonne am Morgen.

Inder-Nett hat geschrieben:Wenn ich mit dieser zur Verfügung stehenden Auflösung ein Signal mit einem Mindest-Störspannungsabstand von 70 dB digitalisieren möchte, dann blieben mir noch 20 dB Dynamik-Reserve.
...denn die Dynamik ist der Pegel-Unterschied zwischen den leisen und den lauten Stellen der Musik.

Heutzutage schätzt man den SMR (Signal-to-Mask ratio) ab. Ist dieser deutlich größer als 0 dB, hört man das Rauschen nicht. Dynamik-Reserve verwendet kein Mensch mehr, diese Angabe stammt aus tiefsten Analogzeiten (und macht schon bei Rauschminderungsverfahren Probleme).

Kikl · Beitrag von **Kikl** » Do 23. Mär 2006, 07:53

Mein Gott, was ist denn hier für ein Ton in die Diskussion gekommen. Ich finde, die Klugscheißerei sollte langsam mal aufhören. Angefangen hat das mit folgender Äußerung:

Fünf, setzen und schämen (ich habe was gegen Leute, die sich selbst verarschen und das öffentlich bekanntgeben).

Was soll das? Ich finde, wer sich so äußert hat sich selbst vollkommen disqualifiziert.

Gruß

Kikl

Inder-Nett · Beitrag von **Inder-Nett** » Do 23. Mär 2006, 13:00

Frank Klemm hat geschrieben:Ein ideales 16-bit-System hat 98 dB Abstand zwischen Quantisierungsrauschen und Effektivwert des maximal möglichen Sinusnutzsignals. Für beliebige lineare n-bit-Systeme ist der exakte Wert

SNR = 6,0206 dB * n + 1,7609 dB (für n = 16 => 98,09 dB)

Diese Formel enthält 2 Fehler:
1. Das Quantisierungsrauschen wurde (unrealistischerweise) nur mit "1/2 bit" berücksichtigt.
2. Die Berücksichigung des Effektivwertes des maximal möglichen Sinusnutzsignals verringert den SNR um ca. 3 dB, statt ihn um 1,76dB anzuheben.

D.h. die Formel wäre korrekt:
SNR = 6,0206 dB * (n - 1) - 3.0102 dB (für n = 16 => 87,3 dB)

Aber um ehrlich zu sein ist es für das hier diskutierte Thema (incl. SMR und der unnötigen Polemik über "tiefste Analogzeiten") SCHEISSEGAL, ob es 87 oder 98 dB sind, denn bei einer SNR in dieser Größenordnung wäre die von mir kritisierte Dynamik-Kompression und die oftmals sogar auf CD zu findenen Übersteuerungen und Soft-Clippings völlig unnötig, weil das Medium auch bei geringeren Pegeln (also ggf. auch mit etwas Dynamik-Reserve) einen für Menschen mehr als zufriedenstellenden SNR bietet.
Und auch bei iTunes wäre es überhaupt nicht nötig, die Originale z.T. noch vor der AAC-Codierung zusätzlich zu komprimieren...

Kikl hat geschrieben:Was soll das? Ich finde, wer sich so äußert hat sich selbst vollkommen disqualifiziert.

Verstehe ich auch nicht.
Ironischerweise waren es ausgerechnet einige höchst kompetente Beiträge von Frank Klemm, welche mich in dieses Forum gelockt haben.

Vielleicht sollte er sich vor dem Posten auch einfach mal ausschlafen

Frank Klemm · Beitrag von **Frank Klemm** » Do 23. Mär 2006, 13:20

Inder-Nett hat geschrieben:
Frank Klemm hat geschrieben:Ein ideales 16-bit-System hat 98 dB Abstand zwischen Quantisierungsrauschen und Effektivwert des maximal möglichen Sinusnutzsignals. Für beliebige lineare n-bit-Systeme ist der exakte Wert

SNR = 6,0206 dB * n + 1,7609 dB (für n = 16 => 98,09 dB)
Diese Formel enthält 2 Fehler:
1. Das Quantisierungsrauschen wurde (unrealistischerweise) nur mit "1/2 bit" berücksichtigt.
2. Die Berücksichigung des Effektivwertes des maximal möglichen Sinusnutzsignals verringert den SNR um ca. 3 dB, statt ihn um 1,76dB anzuheben.

D.h. die Formel wäre korrekt:
SNR = 6,0206 dB * (n - 1) - 3.0102 dB (für n = 16 => 87,3 dB)

maximales Nutzsignal (Spitze-zu-Spitze) = 2^n - 1
maximales Nutzsignal (Effektivwert Sinus) = (2^n - 1)/sqrt(8)

Quantisierungsrauschen: Gleichverteilung auf Interval [-0.5,+0.5].
Effektivwert = sqrt ( Integral _{0.5}^{+0.5} x² dx ) = sqrt ( (+0.5)³/3 - (-0.5)³/3 ) = sqrt (1/12)

Bemerkung: Stammfunktion von x² ist x³/3.

Verhältnis Effektivwert des maximalen Sinus-Nutzsignals zu Effektivwert des Rauschens:

(2^n - 1)/sqrt(8)/sqrt(1/12) = (2^n - 1)*sqrt(1.5)

SNR = 20 dB * log10 ( (2^n - 1)*sqrt(1.5) ) = 10 dB * log10 ( 1.5 * (2^n - 1)² )

Für mehrere Bits ist 2^n >> 1, man kann daher vereinfachen zu:

SNR = 10 dB * log10 ( 1.5 * (2^n)² ) = 10 dB * log10 (1.5 * 4^n)

Genähert ist das:

SNR = 10 dB * ( log10 (1.5) + log10 (4^n) ) = 10 dB * 0,17609 + 10 dB * 0,60206 * n
SNR = 1,7609 dB + 6,0206 dB * n

Dies ist der unbewertete Abstand zwischen dem Effektivwert des Quantierungsrauschen bei Vorhandenseins eines Nutzsignals und dem maximalen Effektivwertes eines Sinus-Nutzsignals.

Da das Ohr nicht auf alle Frequenzen gleichartig reagiert, ist der effektive SNR höher. Unter Nutzung von Rauschformunstechniken (Noise Shaping) kann man noch auf deutlich höhere Werte kommen, besonders bei Nutzung höherer Abtastraten.

Frank Klemm · Beitrag von **Frank Klemm** » Do 23. Mär 2006, 13:23

Inder-Nett hat geschrieben:
Frank Klemm hat geschrieben:Ein ideales 16-bit-System hat 98 dB Abstand zwischen Quantisierungsrauschen und Effektivwert des maximal möglichen Sinusnutzsignals. Für beliebige lineare n-bit-Systeme ist der exakte Wert

SNR = 6,0206 dB * n + 1,7609 dB (für n = 16 => 98,09 dB)
Diese Formel enthält 2 Fehler:
1. Das Quantisierungsrauschen wurde (unrealistischerweise) nur mit "1/2 bit" berücksichtigt.
2. Die Berücksichigung des Effektivwertes des maximal möglichen Sinusnutzsignals verringert den SNR um ca. 3 dB, statt ihn um 1,76dB anzuheben.

D.h. die Formel wäre korrekt:
SNR = 6,0206 dB * (n - 1) - 3.0102 dB (für n = 16 => 87,3 dB)

maximales Nutzsignal (Spitze-zu-Spitze) = 2^n - 1
maximales Nutzsignal (Effektivwert Sinus) = (2^n - 1)/sqrt(8)

Quantisierungsrauschen: Gleichverteilung auf Interval [-0.5,+0.5].
Effektivwert = sqrt ( Integral _{0.5}^{+0.5} x² dx ) = sqrt ( (+0.5)³/3 - (-0.5)³/3 ) = sqrt (1/12)

Bemerkung: Stammfunktion von x² ist x³/3.

Verhältnis Effektivwert des maximalen Sinus-Nutzsignals zu Effektivwert des Rauschens:

(2^n - 1)/sqrt(8)/sqrt(1/12) = (2^n - 1)*sqrt(1.5)

SNR = 20 dB * log10 ( (2^n - 1)*sqrt(1.5) ) = 10 dB * log10 (1.5 * (2^n - 1)²)

Für mehrere Bits ist 2^n >> 1, man kann daher vereinfachen zu:

SNR = 10 dB * log10 (1.5 * (2^n)²) = 10 dB * log10 (1.5 * 4^n)

Genähert ist das:

SNR = 10 dB * ( log10 (1.5) + log10 (4^n)) = 10 dB * 0,17609 + 10 dB * 0,60206 * n
SNR = 1,7609 dB + 6,0206 dB * n

Dies ist der unbewertete Abstand zwischen dem Effektivwert des Quantierungsrauschen bei Vorhandenseins eines Nutzsignals und dem maximalen Effektivwertes eines Sinus-Nutzsignals.

Da das Ohr nicht auf alle Frequenzen gleichartig reagiert, ist der effektive SNR höher. Unter Nutzung von Rauschformunstechniken (Noise Shaping) kann man noch auf deutlich höhere Werte kommen, besonders bei Nutzung höherer Abtastraten.

Inder-Nett · Beitrag von **Inder-Nett** » Do 23. Mär 2006, 13:42

Frank Klemm hat geschrieben:maximales Nutzsignal (Effektivwert Sinus) = (2^n - 1)/sqrt(8)

Quantisierungsrauschen: Gleichverteilung auf Interval [-0.5,+0.5].

Ich würde (als realistischere, weil praktisch erreichbare Werte) eher:
- maximales Nutzsignal = (2^n - 1)/sqrt(2)
- Quantisierungsrauschen: > Gleichverteilung auf Interval [-1,+1]
ansetzen.

Die von Dir genannten Werte wären bestenfalls durch den "idealen Wandler" beschickt mit der "idealen Signalform" (d.h. völlig frei von Störungen) und mit ausreichend Frequenz-Abstand zur Sampling-Rate relevant. In der Praxis sind diese Werte selbst mit Oversampling und anschließendem digitalem Filtern/Downsampling nicht erreichbar.

Die Diskussion um diese Details halte ich allerdings noch immer für müßig, insbesondere weil die letzten 9 dB SNR keinesfalls als Begründung für die hier kirtisierten Probleme herhalten können.