it-swarm.com.ru

Какое компьютерное определение энтропии?

Недавно я начал курс по сжатию данных в моем университете. Тем не менее, я нахожу использование термина «энтропия», поскольку оно относится к информатике, довольно неоднозначным. Насколько я могу судить, это примерно переводится как «случайность» системы или структуры.

Каково правильное определение информатики "энтропия"?

59
fluffels

Энтропия может означать разные вещи:

Computing

В вычислительной технике энтропия - это случайность, собранная операционной система или приложение для использования в криптография или другие использует это требуют случайных данных. Это случайность часто собирается с оборудования источники, либо уже существующие такие как движения мыши или специально предоставлены генераторы случайности.

Теория информации

В теории информации энтропия - это мера неопределенности, связанной с со случайной величиной. Срок по Сам в этом контексте обычно ссылается к энтропии Шеннона, которая количественно, в смысле Ожидаемое значение, информация содержится в сообщении, обычно в единицы, такие как биты. Эквивалентно, Энтропия Шеннона является мерой Среднее содержание информации один отсутствует, когда человек не знает значение случайной величины

Энтропия в сжатии данных

Энтропия при сжатии данных может обозначать случайность данных, которые вы вводите в алгоритм сжатия. Чем больше энтропия, тем меньше степень сжатия. Это означает, что чем более случайный текст, тем меньше его можно сжать.

Энтропия Шеннона представляет собой абсолютное ограничение на лучшее из возможных сжатие без потерь любого общение: обработка сообщений... кодируется как последовательность независимых и одинаково распределенные случайные переменные, исходное кодирование Шеннона Теорема показывает, что в пределе средняя длина самого короткого возможное представление для кодирования сообщения в данном алфавите являются их энтропия, деленная на логарифм количество символов в цели алфавит.

55
Niyaz

Мое любимое определение с более практической направленностью содержится в главе 1 превосходной книги Эндрю Ханта и Дэвида Томаса Прагматичный программист: от подмастерья до мастера :

Программная энтропия

Пока разработка ПО не застрахована от почти всех физических законов, энтропии бьет нас сильно. Энтропия это термин от физика, которая относится к количеству «беспорядок» в системе. К несчастью, законы термодинамики гарантируют что энтропия во вселенной имеет тенденцию к максимуму. Когда беспорядок увеличение программного обеспечения, программистов Назовите это «программная гниль».

Есть много факторов, которые могут способствовать программной гнили Большинство Важным кажется психология или культура, на работе на проект. Даже если вы команда Во-первых, психология вашего проекта может быть очень деликатная вещь. Несмотря на лучшие планы и лучшие люди, а .__ Проект все еще может испытать гибель и распад в течение своей жизни. Еще нет Есть другие проекты, которые, несмотря на огромные трудности и постоянные неудачи, успешно бороться с природой склонность к беспорядку и умению выходи довольно хорошо.

...

...

Разбитое окно.

Одно разбитое окно, оставленное неотремонтированным для любой существенный отрезок времени, прививает жителям формирование чувства покинутости - а .__ чувствую, что силы, которые не будут заботиться о здании. Так что еще окно разбивается. Люди начинают засорение. Граффити появляется. Серьезные структурное повреждение начинается. В относительно короткий промежуток времени, здание повреждено за пределами желание владельца исправить это, и чувство покинутости становится реальностью.

«Теория разбитого окна» имеет Вдохновленные отделения полиции в Нью Йорк и другие крупные города для взлома вниз на мелочи, чтобы держись подальше. Оно работает: держать на вершине разбитых окон, граффити и другие мелкие нарушения снизил уровень серьезной преступности.

Совет 4

Не живи с разбитой Windows

Не оставляйте «разбитые окна» (плохой Дизайн, неправильные решения или плохой Код) без ремонта. Исправьте каждый как можно скорее как это обнаружено. Если там есть недостаточно времени, чтобы исправить это тогда сядь на борт. Возможно, вы можете закомментируйте оскорбительный код или отобразить сообщение «Не реализовано», или подставьте вместо фиктивных данных. Возьмите некоторые действия для предотвращения дальнейшего ущерба и показать, что ты на вершине ситуация.

Текст взят из: http://pragprog.com/the-pragmatic-programmer/extracts/software-entropy

16
Ash

Я всегда сталкивался с энтропией в смысле энтропии Шеннона. 

От http://en.wikipedia.org/wiki/Information_entropy :

В теории информации энтропия является мерой неопределенности, связанной со случайной величиной. Сам по себе термин в этом контексте обычно относится к энтропии Шеннона, которая количественно в смысле ожидаемого значения определяет информацию, содержащуюся в сообщении, обычно в единицах, таких как биты. Эквивалентно, энтропия Шеннона является мерой среднего информационного содержания, которое отсутствует, если не известно значение случайной величины.

9
Adrian Grigore

 alt text
(источник: mit.edu )

из Университет Мексики

Информационно-теоретическое понятие Энтропия является обобщением физическое понятие. Есть много способов описать энтропию. Это мера случайности случайного переменная. Это также мера количество информации случайное переменный или случайный процесс содержит. Это также нижняя граница сумма сообщения может быть сжат. И, наконец, это среднее количество вопросов да/нет что нужно спросить о случайном юридическое лицо, чтобы определить его стоимость.

Уравнение для энтропии в примере приложения для расчета вероятности: 

это сумма по всем значениям rv вероятности этого значения раз журнал этой проблемы (т. е p (x) logp (x)). Это уравнение может быть вытекает из первых принципов свойства информации.

9
Ric Tokyo

С точки зрения теории сжатия и информации, энтропия источника - это среднее количество информации (в битах), которую могут передавать символы из источника. Неформально говоря, чем более маловероятен символ, тем больше удивляет его внешний вид.

Если в вашем источнике есть два символа, скажем A и B, и они одинаково вероятны, то каждый символ передает одинаковое количество информации (один бит). Источник с четырьмя одинаково вероятными символами передает два бита на символ.

Для более интересного примера, если ваш источник имеет три символа: A, B и C, где первые два имеют в два раза большую вероятность, чем третий, то третий более удивителен, но также менее вероятен. Чистая энтропия для этого источника равна 1,52, как рассчитывается ниже.

Вы вычисляете энтропию как «средний сюрприз», где «сюрприз» для каждого символа - это его вероятность, умноженная на отрицательный двоичный журнал вероятности:

                            binary
symbol  weight  probability   log    surprise
  A        2        0.4      -1.32    0.53
  B        2        0.4      -1.32    0.53
  C        1        0.2      -2.32    0.46
total      5        1.0               1.52

Разумеется, используется отрицательный двоичный журнал, поскольку записи значений от 0 до 1 (исключая) являются отрицательными.

4
joel.neely

Вот отличное альтернативное объяснение entropy в теории информации.

Энтропия является мерой неопределенности, связанной с созданием прогноз .

Мы также можем описать энтропию как то, каким удивленным мы были бы, если бы получили результат после того, как сделали наш первоначальный прогноз.

Допустим, у нас есть согнутая монета, которая дает нам голову 99% времени и хвост 1% времени. Поскольку есть только один процент шансов получить хвост, мы были бы очень удивлены, если бы мы действительно получили хвост. С другой стороны, это не будет слишком удивительно, если мы получим голову, поскольку у нас уже есть 99-процентный шанс получить голову.

давайте предположим, что у нас есть функция с именем Surprise(x), которая даст нам неожиданность для каждого результата; тогда мы можем усреднить количество неожиданности по распределению вероятности. Это среднее количество сюрпризов также может быть использовано как показатель того, насколько мы неуверенны. Эта неопределенность называетсяentropy.

4
r2d2oid

Супер ПРОСТОЕ определение

Слово энтропия может быть определено в одном предложении:

«Количество информации, необходимое для описания системы».

Представьте для примера расширение вселенной: с самого начала вся материя была собрана за небольшую точку перед большим взрывом, поэтому мы могли бы описать систему так: «вся материя находится в одной точке». В то время как сегодня значительно больше информации требуется для описания системы (то есть Вселенной), необходимо описать все положения планет, их движение, что на них и т.д. .... В терминах теории информации определение также работает : Например: чем больше букв вы добавляете к паролю (системе), тем больше информации требуется для описания пароля. Затем вы можете измерить его в разных единицах, например, битах или символах, например "Hello" = 5 символов, энтропия = 40 битов энтропии (если charsize равен 8 битам).

Из этого также следует, что чем больше у вас информации, тем больше способов ее упорядочить. Если у вас 40 битов, есть 2 ^ 40 разных способов их размещения. Если мы говорим здесь пароли, то чем больше возможных вариантов информации (битов), тем больше времени потребуется для взлома (с помощью грубой силы или атак по словарю).

3
Axel K
2
Ray Tayek

Проще говоря, энтропия определяет случайность. Это больше похоже на то, как непредсказуемо что-то. Другими словами: «В вычислениях энтропия - это случайность, собираемая операционной системой или приложением для использования в криптографии или других целях, требующих случайных данных. Эта случайность часто собирается из аппаратных источников, либо ранее существовавших, таких как движения мыши, либо специально предоставленных генераторов случайности ». Как определено в Википедии.

Теперь можно легко заключить значение энтропии в отношении файла как измерения того, насколько беспорядочными являются байты в файле. Существуют различные единицы измерения энтропии, такие как nat, shannon или hartley. Ну, самая распространенная единица измерения - это Шеннон. Диапазон значений, в которые должна входить энтропия файла в соответствии с алгоритмом Шеннона, составляет от 0 до 8. Таким образом, когда значение энтропии равно нулю, можно сказать, что результат определен. Напротив, когда значение энтропии равно 8, результат может быть самым непредсказуемым. Формула, данная Шенноном для измерения случайности в исходе событий:

          Entropy = ∑ pi log(1/pi)

где i - событие с вероятностью pi

Это уравнение всегда будет в диапазоне от 0 до 8.

Для получения дополнительной информации перейдите по ссылке: https://www.talentcookie.com/2016/02/file-entropy-in-malware-analysis/

1
Tarang Arora

энтропия относится к степени, в которой программное обеспечение иногда изменяется в зависимости от требований клиента, поэтому стоимость его преобразования в соответствии с требованиями клиента становится максимальной.

1
machajackson

Это легко сделать из энтропии. На мой взгляд, это довольно простая и полезная концепция .

По сути, это количественная оценка того, что в среднем вы узнаете из события, такого как подбрасывание монеты, выполнение инструкции ветвления или индексация массива.

Подобно операции сравнения в середине алгоритма поиска, есть определенная вероятность P взятия одной ветви и 1-P взятия другой.

Предположим, что P равно 1/2, как в бинарном поиске. Затем, если вы берете эту ветвь, вы знаете на 1 бит больше, чем раньше, потому что log (2/1), основание 2, равно 1. С другой стороны, если вы берете другую ветку, вы также изучаете 1 бит.

Чтобы получить среднее количество информации, которую вы изучите, умножьте то, что вы изучаете в первой ветви, на вероятность, которую вы выберете для этой ветви, плюс на то, что вы узнали во второй ветви, умножьте на вероятность этой ветви.

1/2 раз 1 бит, плюс 1/2 раз 1 бит, это 1/2 бит плюс 1/2 бит или всего 1 бит энтропии. Это то, что вы можете ожидать усвоить в среднем из этого решения.

С другой стороны, предположим, что вы выполняете линейный поиск в таблице из 1024 записей.

В первом == тесте вероятность ДА равна 1/1024, поэтому энтропия ДА при этом решении равна

1/1024 times log(1024/1)

или 1/1024 * 10 = около 1/100 бит.

Таким образом, если ответ ДА, вы изучите 10 битов, но вероятность этого составляет около 1 на тысячу.

С другой стороны, НЕТ гораздо более вероятно. Это энтропия

1023/1024 * log(1024/1023)

или примерно 1 раз примерно ноль = около нуля.

Сложите их вместе, и в среднем вы узнаете примерно 1/100 от этого решения.

Вот почему линейный поиск идет медленно. Энтропия (сколько вы можете ожидать усвоить) при каждом решении слишком мала, так как вам нужно будет выучить 10 битов, чтобы найти запись в таблице.

0
Mike Dunlavey

Энтропия в информатике обычно относится к тому, насколько случайна цепочка битов .. Следующий вопрос касается уточнения:

Как я могу вычислить приблизительную энтропию битовой строки?

0
dreeves

Проще говоря, если вы знаете вероятности символов в языке, можно вычислить среднее информационное содержание символа в языке.

Или же 

Энтропия языка - это мера информативности среднего символа в языке.

Рассмотрим честную монету;

Есть два символа, каждый с вероятностью 1/2 , Поэтому энтропия рассчитывается как

h = - (1/2 * log1/2 + 1/2 * log1/2) = 1 

0
fahad pirzada

Энтропия имеет много значений, как правило, в области компьютерных наук. Это зависит от контекста. Термин «энтропия безопасности» означает, какую степень случайности вы помещаете, например, когда вы генерируете закрытый ключ, многие приложения просят вас переместить мышь, чтобы генерировать энтропию. Это порождает энтропию, беря «человеческий» элемент случайности и добавляет его в процесс хеширования генерации ключа.

В настоящее время существует также определение для разработки программного обеспечения энтропии. Это определение представляет устаревший код или код, который написали многие разработчики. Обычно используется в отношении того, когда наступит время для реорганизации вашего программного проекта. «Код для этого проекта обладает огромным количеством энтропии, потому что многие из тех, кто поддерживал его, в настоящее время не участвуют в проекте».

Вот третий пример использования, который я тоже запомнил. В теме смоделированного отжига (в том, что касается информатики) энтропия описывается как количество распада, произошедшего во время оценки алгоритма.

Я думаю, чтобы ответить на ваш вопрос, хотя, нет конкретного определения слова «энтропия», кроме тех, которые вы можете найти в словаре. То, как компьютерные науки склонны применять этот термин, зависит от контекста используемого термина и того, к чему он применяется.

0
jwendl

Энтропия похожа на хэш-код и для исследователей вирусов. Меньше энтропии вы получите, это будет означать, что это скорее всего зашифрованный или сжатый код, который потенциально может быть вирусом. 

Стандартный двоичный файл будет иметь более высокую энтропию, чем сжатый или зашифрованный.

0
Codingday