Testsepp
Das grundsätzliche Verfahren einer MPEG-Kodierung besteht aus dem Versuch, möglichst viele Bildteile nur durch die Differenz des Bildinhaltes zum vorherig kodierten Bild zu beschreiben.
Dieses geschieht im Gegensatz z.B. zu den AVI/FLI-Formaten mit einer zusätzlichen Funktion der Bewegungskompensation (Motioncompensation). Diese Funktion ermittelt Verschiebung von Bildteilen, wie sie bei Kameraschwenks oder sich bewegenden Objekten entstehen. Die Bewegung von diesen Bildteilen können dann in Form von einfachen zweidimensionalen Verschiebungsvektoren ausgedrückt werden. So kommt beispielsweise ein langsamer Kameraschwenk fast ohne die Kodierung von direkten Bildinformationen aus. Eine weitere Eigenschaft zur Erhöhung der Datenreduktion ist die Interpolation von Bildbereichen über die Zeit, die Kodierung von Differenzen innerhalb sich bewegender Teile.
Ein wirklich hoher Komprimierungsfaktor kann allerdings nur durch Weglassen wenig relevanter Reizinformationen bzw. deren Gewichtung bezüglich der menschlichen Wahrnehmung erfolgen. Im optischen und akustischen Spektrum sind die menschlichen Sinne nicht linear empfindlich und reagieren im Zusammenhang mit bereits aufgenommenen Reizen dynamisch empfindlich. Mit diesem Wissen ist es möglich solche 'Wahrnehmungstoleranzen' geschickt zur Datenreduktion zu nutzen. Das Weglassen bestimmter Informationen läßt sich am einfachsten durch komplexe Filterfunktionen bewerkstelligen. Hierzu müssen die Bildinformationen mit einer der Fourriertransformation ähnlichen Funktion, der Diskreten Kosinustransformation (DCT) in die komplexe Ebene bzw. den Frequenzraum transformiert werden. Hier erscheinen Bildinhalte mit hohen Bildinformationsschwankungen u.a. lageindifferent. Bereiche mit hohem Detailreichtum bzw. mit häufigen Datenänderungen erscheinen im hochfrequenten Teil der DCT-Ausgabe, entsprechend werden monotone Bildteile im niederfrequenten Spektrum abgebildet. Neben den wahrnehmungsspezifischen Filterfunktionen (Farb- oder Kontrastwahrnehmung) ist eine weitere Funktion bezüglich der Abbildung in festen Rastern für eine Datenreduktion folgendermaßen anschaulich. Bildinformationswechsel, welche in ihrer Frequenz das Darstellungsraster (hier die Bitmap) übersteigen, können sowieso nicht mehr richtig dargestellt werden, Informationswechsel mit einer geringfügig unter dem Raster liegenden Wechselfrequenz verursachen störende Effekte, wie beispielsweise einer Moireestreuung und tragen somit ebenfalls nicht mehr sinnvoll zu der korrekten Bildinformation bei. Nach dem Herausfiltern dieser Bereiche sowie der Wertung entsprechender Wahrnehmungsspezifischer Gesichtspunkte liegen in dem Frequenzspektrum nur noch wenige Spektrallinien relevant vor. Dieses Spektrum kann nun wiederum vektorisiert und zusammen mit den Bewegungsvektoren (RLE) längenkodiert werden. Abschließend kann eine weitere Komprimierung durch die Suche nach einem optimalen Übertragungsalphabet (hier durch eine Huffmankodierung) durchgeführt werden. Nach diesen Optimierungsphasen lassen sich je nach Art und Weise der Bildinformationen und des Verhältnisses von interpolierten zu kodierten Originalbildern sowie der gewünschten Bildqualität mittlere Kompressionsraten von 1:100 bis fast 1:800 erreichen. Betrachtet man diesbezüglich die mittleren Kompressionsraten datenerhaltender Packalgorythmen mit Raten zwischen 1:2 bis 1:6 erscheint der immense zusätzliche Rechenaufwand gerade im Hinblick auf die Originalgröße eines 90 min. Filmes mit etwa 34 GBytes als einzige sinnvolle Möglichkeit der digitalen Übertragung oder Speicherung.
Dieses geschieht im Gegensatz z.B. zu den AVI/FLI-Formaten mit einer zusätzlichen Funktion der Bewegungskompensation (Motioncompensation). Diese Funktion ermittelt Verschiebung von Bildteilen, wie sie bei Kameraschwenks oder sich bewegenden Objekten entstehen. Die Bewegung von diesen Bildteilen können dann in Form von einfachen zweidimensionalen Verschiebungsvektoren ausgedrückt werden. So kommt beispielsweise ein langsamer Kameraschwenk fast ohne die Kodierung von direkten Bildinformationen aus. Eine weitere Eigenschaft zur Erhöhung der Datenreduktion ist die Interpolation von Bildbereichen über die Zeit, die Kodierung von Differenzen innerhalb sich bewegender Teile.
Ein wirklich hoher Komprimierungsfaktor kann allerdings nur durch Weglassen wenig relevanter Reizinformationen bzw. deren Gewichtung bezüglich der menschlichen Wahrnehmung erfolgen. Im optischen und akustischen Spektrum sind die menschlichen Sinne nicht linear empfindlich und reagieren im Zusammenhang mit bereits aufgenommenen Reizen dynamisch empfindlich. Mit diesem Wissen ist es möglich solche 'Wahrnehmungstoleranzen' geschickt zur Datenreduktion zu nutzen. Das Weglassen bestimmter Informationen läßt sich am einfachsten durch komplexe Filterfunktionen bewerkstelligen. Hierzu müssen die Bildinformationen mit einer der Fourriertransformation ähnlichen Funktion, der Diskreten Kosinustransformation (DCT) in die komplexe Ebene bzw. den Frequenzraum transformiert werden. Hier erscheinen Bildinhalte mit hohen Bildinformationsschwankungen u.a. lageindifferent. Bereiche mit hohem Detailreichtum bzw. mit häufigen Datenänderungen erscheinen im hochfrequenten Teil der DCT-Ausgabe, entsprechend werden monotone Bildteile im niederfrequenten Spektrum abgebildet. Neben den wahrnehmungsspezifischen Filterfunktionen (Farb- oder Kontrastwahrnehmung) ist eine weitere Funktion bezüglich der Abbildung in festen Rastern für eine Datenreduktion folgendermaßen anschaulich. Bildinformationswechsel, welche in ihrer Frequenz das Darstellungsraster (hier die Bitmap) übersteigen, können sowieso nicht mehr richtig dargestellt werden, Informationswechsel mit einer geringfügig unter dem Raster liegenden Wechselfrequenz verursachen störende Effekte, wie beispielsweise einer Moireestreuung und tragen somit ebenfalls nicht mehr sinnvoll zu der korrekten Bildinformation bei. Nach dem Herausfiltern dieser Bereiche sowie der Wertung entsprechender Wahrnehmungsspezifischer Gesichtspunkte liegen in dem Frequenzspektrum nur noch wenige Spektrallinien relevant vor. Dieses Spektrum kann nun wiederum vektorisiert und zusammen mit den Bewegungsvektoren (RLE) längenkodiert werden. Abschließend kann eine weitere Komprimierung durch die Suche nach einem optimalen Übertragungsalphabet (hier durch eine Huffmankodierung) durchgeführt werden. Nach diesen Optimierungsphasen lassen sich je nach Art und Weise der Bildinformationen und des Verhältnisses von interpolierten zu kodierten Originalbildern sowie der gewünschten Bildqualität mittlere Kompressionsraten von 1:100 bis fast 1:800 erreichen. Betrachtet man diesbezüglich die mittleren Kompressionsraten datenerhaltender Packalgorythmen mit Raten zwischen 1:2 bis 1:6 erscheint der immense zusätzliche Rechenaufwand gerade im Hinblick auf die Originalgröße eines 90 min. Filmes mit etwa 34 GBytes als einzige sinnvolle Möglichkeit der digitalen Übertragung oder Speicherung.