it-swarm.com.ru

Сколько раз файл может быть сжат?

Я думал о сжатии, и кажется, что должно быть какое-то ограничение на сжатие, которое может быть применено к нему, иначе это будет один байт.

Поэтому мой вопрос: сколько раз я могу сжать файл раньше:

  • Это не становится меньше?
  • Файл становится поврежденным?

Эти две точки одинаковы или различны?

Где появляется точка убывающей отдачи?

Как можно найти эти точки?

Я не говорю о каком-то конкретном алгоритме или конкретном файле, просто в общем.

51
samoz

Для сжатия без потерь единственный способ узнать, сколько раз вы можете получить повторное сжатие файла, - это попытаться. Это будет зависеть от алгоритма сжатия и файла, который вы сжимаете.

Два файла никогда не могут сжиматься в один и тот же вывод, поэтому вы не можете перейти к одному байту. Как один байт может представлять все файлы, которые вы можете распаковать?

Причина того, что второе сжатие иногда работает, состоит в том, что алгоритм сжатия не может сделать всевозможное идеальное сжатие. Есть компромисс между работой, которую она должна сделать, и временем, которое требуется, чтобы сделать это. Ваш файл изменяется со всех данных на комбинацию данных о ваших данных и самих данных.

Пример

Возьмем в качестве примера кодирование по длине прогона (возможно, простейшее полезное сжатие).

04 04 04 04 43 43 43 43 51 52 11 байт

Эта серия байтов может быть сжата как:

[4] 04 [4] 43 [-2] 51 52 7 байт (я ставлю метаданные в скобках)

Где положительное число в скобках - это число повторений, а отрицательное число в скобках - это команда, которая выдает следующие символы -n, когда они найдены.

В этом случае мы можем попробовать еще одно сжатие:

[3] 04 [-4] 43 fe 51 52 7 байт (например, ваш -2 рассматривается как данные дополнения двух)

Мы ничего не получили, и мы начнем расти на следующей итерации:

[-7] 03 04 fc 43 fe 51 52 8 байт

Некоторое время мы будем увеличиваться на один байт за итерацию, но на самом деле все будет хуже. Один байт может содержать только отрицательные числа до -128. Мы начнем увеличиваться на два байта, когда длина файла превысит 128 байтов. Рост будет еще хуже, поскольку файл становится больше.

Против программы сжатия дует встречный ветер - метаданные. А также, для реальных компрессоров, заголовок прикрепляется к началу файла. Это означает, что в конечном итоге файл начнет расти с каждым дополнительным сжатием.


RLE является отправной точкой. Если вы хотите узнать больше, посмотрите на LZ77 (который смотрит в файл, чтобы найти шаблоны) и LZ78 (который создает словарь). Компрессоры, такие как Zip, часто пробуют несколько алгоритмов и используют лучший.

Вот несколько случаев, когда я могу вспомнить, где работало многократное сжатие.

  1. Я работал в журнале Amiga, который поставлялся с диском. Естественно, мы упаковали диск в жабры. Один из инструментов, которые мы использовали, позволяет упаковать исполняемый файл так, чтобы при запуске он распаковывался и запускался сам. Поскольку алгоритм распаковки должен быть в каждом исполняемом файле, он должен быть небольшим и простым. Мы часто получали дополнительную прибыль, сжимая дважды. Декомпрессия была сделана в RAM. Поскольку чтение дискеты было медленным, мы также часто получали увеличение скорости!
  2. Microsoft поддерживает сжатие RLE для файлов bmp. Также многие текстовые процессоры делали кодирование RLE. Файлы RLE почти всегда значительно сжимаются лучшим компрессором.
  3. Во многих играх, над которыми я работал, использовался небольшой, быстрый декомпрессор LZ77. Если вы сжимаете большой прямоугольник пикселей (особенно если у него много фонового цвета или если это анимация), вы можете очень часто сжимать дважды с хорошими результатами. (Причина? У вас есть только столько битов, чтобы указать расстояние и длину просмотра, поэтому один большой повторный шаблон кодируется несколькими частями, и эти фрагменты легко сжимаются.)
64
Nosredna

Обычно предел - одно сжатие. Некоторые алгоритмы приводят к более высокой степени сжатия, и использование плохого алгоритма, сопровождаемого хорошим алгоритмом, часто приводит к улучшениям. Но использование хорошего алгоритма - это, в первую очередь, правильное решение.

Существует теоретический предел того, насколько данный набор данных может быть сжат. Чтобы узнать больше об этом вам придется изучить теория информации .

17
Martin Liversage

В целом, для большинства алгоритмов сжатие более одного раза бесполезно. Хотя есть особый случай.

Если у вас есть большое количество дубликатов файлов, формат Zip будет сжать каждый файл независимо, а затем вы можете сжать первый файл Zip, чтобы удалить дублирующуюся информацию Zip. В частности, для 7 идентичных файлов Excel размером 108 КБ их сжатие с 7-Zip приводит к архиву размером 120 КБ. Повторное сжатие приводит к архиву 18 КБ. Пройдя мимо, вы получаете убывающую отдачу.

14
CoderTao

Предположим, у нас есть файл длиной N бит и мы хотим сжать его без потерь, чтобы мы могли восстановить исходный файл. Есть 2 ^ N возможных файлов длиной N битов, поэтому наш алгоритм сжатия должен заменить один из этих файлов на один из 2 ^ N возможных других. Однако мы не можем выразить 2 ^ N разных файлов менее чем за N бит.

Поэтому, если мы можем взять некоторые файлы и сжать их, у нас должны быть файлы такой длины при сжатии, чтобы сбалансировать те, которые укорачиваются.

Это означает, что алгоритм сжатия может сжимать только определенные файлы, а на самом деле он должен удлинять некоторые. Это означает, что в среднем сжатие случайного файла не может сократить его, но может удлинить.

Практические алгоритмы сжатия работают, потому что мы обычно не используем случайные файлы. Большинство файлов, которые мы используем, имеют некоторую структуру или другие свойства, будь то текстовые или программные исполняемые файлы или значимые изображения. Используя хороший алгоритм сжатия, мы можем значительно сократить файлы тех типов, которые мы обычно используем.

Однако сжатый файл не относится к таким типам. Если алгоритм сжатия хорош, большая часть структуры и избыточности были вытеснены, а то, что осталось, выглядит как случайность.

Ни один алгоритм сжатия, как мы видели, не может эффективно сжимать случайный файл, и это относится и к случайному файлу. Следовательно, попытка повторно сжать сжатый файл не приведет к его значительному сокращению и может даже несколько его удлинить.

Таким образом, обычное количество раз, когда алгоритм сжатия может быть с пользой запущен, равно единице.

Коррупция происходит только тогда, когда мы говорим о сжатии с потерями. Например, вы не можете восстановить изображение точно из файла JPEG. Это означает, что компрессор JPEG может надежно сократить файл изображения, но только за счет невозможности его точного восстановления. Мы часто готовы сделать это для изображений, но не для текста и, в частности, не для исполняемых файлов.

В этом случае нет стадии, на которой начинается коррупция. Он начинается, когда вы начинаете сжимать его, и ухудшается, когда вы сжимаете его больше. Вот почему хорошие программы обработки изображений позволяют вам указать, какое сжатие вы хотите при создании JPEG: чтобы вы могли сбалансировать качество изображения с размером файла. Вы находите точку остановки, рассматривая стоимость размера файла (которая в целом важнее для сетевых подключений, чем хранилища) в сравнении с затратами на снижение качества. Там нет очевидного правильного ответа.

7
David Thornley

Обычно сжатие один раз достаточно хорошо, если алгоритм хорош.
Фактически, многократное сжатие может привести к увеличению размера

Ваши две точки разные.

  • Сжатие выполняется многократно и достигается без улучшения уменьшения размера
    является ожидаемым теоретическим условием
  • Повторное сжатие вызывает повреждение
    может быть ошибкой в ​​реализации (или, возможно, самого алгоритма)

Теперь давайте посмотрим на некоторые исключения или варианты,

  • Шифрование может быть применено повторно без уменьшения размера
    (фактически в разы увеличивается в размерах) с целью повышения безопасности
  • Изображения, видео или аудио файлы все больше сжимаются
    потеряет данные (в некотором смысле фактически "поврежден")
5
nik

Вы можете сжать бесконечное количество раз. Тем не менее, второе и последующее сжатие, как правило, будут производить только файл, размер которого больше предыдущего. Так что нет смысла сжимать более одного раза.

3
Lomir

Вы можете сжать файл столько раз, сколько захотите. Но для большинства алгоритмов сжатия результирующее сжатие со второго раза будет незначительным.

3
Matthew Vines

Сколько раз я могу сжать файл, прежде чем он станет меньше?

В общем, даже не один. Какой бы алгоритм сжатия вы ни использовали, всегда должен быть файл, который вообще не сжимается, иначе вы могли бы всегда сжимайте несколько раз, пока не достигнете 1 байта, по тому же аргументу.

Сколько раз я могу сжать файл, прежде чем он станет поврежденным?

Если программа, которую вы используете для сжатия файла, выполняет свою работу, файл никогда не будет поврежден (конечно, я думаю о сжатии без потерь ).

3
Federico A. Ramponi

Сжатие (я думаю, без потерь) в основном означает выражение чего-то более кратким. Например

111111111111111

может быть более кратко выражено как

15 X '1'

Это называется длиной кодирования. Другой метод, который может использовать компьютер, - найти шаблон, который регулярно повторяется в файле.

Ясно, что есть предел того, насколько эти методы могут быть использованы, например, кодирование длин серий не будет влиять на

15 X '1'

так как нет повторяющихся паттернов. Точно так же, если методы замены шаблона преобразуют длинные шаблоны в 3-х символьные, повторное применение будет иметь небольшой эффект, поскольку единственные оставшиеся повторяющиеся шаблоны будут иметь длину 3 или короче. Обычно применение сжатия к уже сжатому файлу делает его немного больше из-за различных накладных расходов. Применение хорошего сжатия к плохо сжатому файлу обычно менее эффективно, чем применение только хорошего сжатия.

3
Peter

Вот окончательный алгоритм сжатия (в Python), который при многократном использовании сжимает любую строку цифр до размера 0 (читателю оставлено в качестве упражнения, как применить его к строке байтов).


def compress(digitString):
    if digitString=="":
        raise "already as small as possible"
    currentLen=len(digitString)
    if digitString=="0"*currentLen:
        return "9"*(currentLen-1)
    n=str(long(digitString)-1); #convert to number and decrement
    newLen=len(n);
    return ("0"*(currentLen-newLen))+n; # add zeros to keep same length

#test it
x="12";
while not x=="":
    print x;
    x=compress(x)

Программа выводит 12 11 10 09 08 07 06 05 04 03 02 01 00 9 8 7 6 5 4 3 2 1 0, затем пустую строку. Он не сжимает строку при каждом проходе, но с достаточным количеством проходов сжимает любую строку цифр до строки нулевой длины. Обязательно запишите, сколько раз вы отправляли его через компрессор, иначе вы не сможете его вернуть.

2
paperhorse

Это очень хороший вопрос. Вы можете посмотреть в файл с другой точки зрения. Может быть, вы априори знаете, что этот файл содержит арифметические серии. Давайте рассмотрим его как поток данных "байтов", "символов" или "сэмплов".

Некоторые ответы могут дать вам "теорию информации" и "математическую статистику". Пожалуйста, проверьте монографию этих исследователей для полного понимания:

А. Колмогоров

С. Куллбек

С. Шеннон

Н. Винер

Одним из основных понятий в теории информации является энтропия . Если у вас есть поток "байтов" .... Энтропия этих байтов не зависит от значений ваших "байтов" или "отсчетов" ... Если был определен только частотами, с которых байты получают разные значения. Максимальная энтропия имеет место быть для полного случайного потока данных. Минимальная энтропия, равная нулю, имеет место для случая, когда ваши "байты" имеют одинаковое значение.

Это не становится меньше?

Таким образом, энтропия - это минимальное количество бит на ваш "байт", которое необходимо использовать при записи информации на диск. Конечно, это так, если вы используете алгоритм Бога. Реальные алгоритмы сжатия без потерь в эвристике не таковы.

Файл становится поврежденным?

Я не понимаю смысла вопроса. Вы не можете записывать биты на диск, и вы будете записывать поврежденный файл на диск размером 0 бит. Конечно, он поврежден, но его размер равен нулю.

2
bruziuz

Пример более продвинутой техники сжатия, использующей "двойную таблицу или кросс-матрицу", также исключает в алгоритме лишние символы unnessacry

[ПРЕДЫДУЩИЙ ПРИМЕР] Возьмем в качестве примера кодировку длины прогона (возможно, самое простое полезное сжатие).

04 04 04 04 43 43 43 43 51 52 11 байт

Эта серия байтов может быть сжата как:

[4] 04 [4] 43 [-2] 51 52 7 байт (я помещаю метаданные в скобки)

[ВРАЩАЕТСЯ] 04.43.51.52 ЗНАЧЕНИЯ 4.4. ** - 2 СЖАТИЕ

Дальнейшее сжатие с использованием дополнительных символов в качестве замещающих значений

04.A.B.C ЗНАЧЕНИЯ 4.4. ** - 2 СЖАТИЕ

0
C.L.U.

В теории, мы никогда не узнаем, это бесконечная вещь:

В информатике и математике термин теорема о полной занятости использовался для обозначения теоремы, показывающей, что ни один алгоритм не может оптимально выполнить определенную задачу, выполняемую некоторым классом специалистов. Название возникает из-за того, что такая теорема гарантирует, что есть бесконечные возможности для открытия новых методов, чтобы улучшить способ, по крайней мере, какую-то конкретную задачу. Например, теорема о полной занятости для авторов компиляторов гласит, что не существует такого понятия, как доказуемо совершенный компилятор, оптимизирующий размер, поскольку такое доказательство для компилятора должно было бы обнаруживать не завершающиеся вычисления и сводить их к бесконечной одной инструкции петля. Таким образом, существование доказуемо совершенного оптимизирующего размер компилятора означало бы решение проблемы остановки, которая не может существовать , делая само доказательство неразрешимой проблемой ,.

(источник)

0
ajax333221