Press "Enter" to skip to content

Индекс Дэвиса – Боулдина – Davies–Bouldin index

Вот это центроид из C я и Т я являюсь размером кластера я . представляет собой q- й корень из q- го момента точек в кластере i относительно среднего значения. Если то – среднее расстояние между векторами признаков в кластере i и центроидом кластера. Обычно значение p равно 2, что делает расстояние функцией евклидова расстояния . Могут использоваться многие другие метрики расстояния в случае многообразий и данных более высокой размерности, где евклидово расстояние может быть не лучшей мерой для определения кластеров. Важно отметить, что эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации для получения значимых результатов. А я > S я > q знак равно 1 S я >

Dbiyyatşünaslıq problemlri dbi-nzri düşünc müstvisind

Сегодня невозможно представить современную торговую компанию, которая смогла бы эффективно работать без использования системы аналитических данных для контроля за развитием
Подробнее

КАК ПРОШЛА ВЫСТАВКА NAIS 2023?

В феврале специалисты компании DBI посетили юбилейную Х Национальную выставку и форум инфраструктуры гражданской авиации NAIS 2023 в Москве, на
Подробнее

Практикум по SQL от DBI

Начнем 2023 год с получения новых знаний! 30 января стартует четвертый поток бесплатного практикума по SQL от DBI. Курс обучения
Подробнее

DBI и группа компаний Luxms заключили партнерское соглашение

DBI и разработчик платформы бизнес-аналитики Luxms BI заключили партнерское соглашение. Синергия уникальной экспертизы в области интеграции ИТ-решений DBI и опыта
Подробнее

DBI и ELMA подписали соглашение о стратегическом партнерстве

Компания DBI и разработчик программных продуктов ELMA подписали соглашение о стратегическом партнерстве по внедрению и сопровождению ПО на базе Low-code
Подробнее

Вебинар «Как сократить расходы на доставку, не потеряв в уровне сервиса»

Доставка прочно вошла в ежедневный быт, так как экономит много времени. Покупать и получать товар можно там, где удобно, и
Подробнее

Корпоратив DBI 2022

Компания DBI завершила летний сезон 2022 крутым корпоративом! Важно не только сплоченно работать вместе, а также и уметь отдыхать! Так
Подробнее

Вебинар «Облачные технологии для бизнес-задач производства и логистики»

Автоматизация бизнес-процессов важна для многих компаний. Основные проблемы, с которыми сталкиваются заказчики: планирование доставки, нехватка ИТ-специалистов и современного оборудования, а
Подробнее

Индекс Дэвиса – Боулдина – Davies–Bouldin index

Индекс Дэвиса – Болдина (DBI) , введенный Дэвидом Л. Дэвисом и Дональдом В. Болдином в 1979 году, является показателем для оценки алгоритмов кластеризации . Это внутренняя схема оценки, при которой проверка того, насколько хорошо была выполнена кластеризация, осуществляется с использованием количеств и характеристик, присущих набору данных. У этого есть недостаток, заключающийся в том, что хорошее значение, сообщаемое этим методом, не означает наилучшего извлечения информации.

  • 1 Предварительные мероприятия
  • 2 Определение
  • 3 Объяснение
  • 4 реализации
  • 5 См. Также
  • 6 Внешние ссылки
  • 7 Примечания и ссылки

Предварительные мероприятия

Учитывая n размерных точек, пусть C i будет кластером точек данных. Пусть X j будет n -мерным вектором признаков, присвоенным кластеру C i .

S я знак равно ( 1 Т я ∑ j знак равно 1 Т я | | Икс j – А я | | п q ) 1 / q = \ left ( >> \ sum _ ^ > ) -A_ \ right | \ right | _

^ > \ right) ^ >

Вот это центроид из C я и Т я являюсь размером кластера я . представляет собой q- й корень из q- го момента точек в кластере i относительно среднего значения. Если то – среднее расстояние между векторами признаков в кластере i и центроидом кластера. Обычно значение p равно 2, что делает расстояние функцией евклидова расстояния . Могут использоваться многие другие метрики расстояния в случае многообразий и данных более высокой размерности, где евклидово расстояние может быть не лучшей мерой для определения кластеров. Важно отметить, что эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации для получения значимых результатов. А я > S я > q знак равно 1 S я >

M я , j знак равно | | А я – А j | | п знак равно ( ∑ k знак равно 1 п | а k , я – а k , j | п ) 1 п = \ left | \ left | A_ -A_ \ right | \ right | _

= \ displaystyle \ sum _ ^ \ left | a_ -a_ \ right | ^

^

>> M я , j > это мера разделения между кластером и кластером . C я > C j <\ displaystyle C_ > а k , я <\ displaystyle a_ > является k- м элементом , и в A имеется n таких элементов, поскольку он является n-мерным центроидом. А я >

Здесь k индексирует характеристики данных, и это, по сути, евклидово расстояние между центрами кластеров i и j, когда p равно 2.

Определение

Пусть R i, j – мера того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать M i, j расстояние между i- м и j- м кластерами, которое в идеале должно быть как можно большим, и S i , разброс внутри кластера для кластера i, который должен быть быть как можно ниже. Следовательно, индекс Дэвиса – Болдина определяется как отношение S i и M i, j , при котором эти свойства сохраняются:

  1. р я , j ⩾ 0 \ geqslant 0> .
  2. р я , j знак равно р j , я = R_ > .
  3. Когда и тогда . S j ⩾ S k \ geqslant S_ > M я , j знак равно M я , k = M_ > р я , j > р я , k > R_ >
  4. Когда и тогда . S j знак равно S k = S_ > M я , j ⩽ M я , k \ leqslant M_ > р я , j > р я , k > R_ >

При такой формулировке, чем ниже значение, тем лучше разделение кластеров и «герметичность» внутри кластеров.

Решение, удовлетворяющее этим свойствам:

Это используется для определения D i :

D я ≡ Максимум j ≠ я р я , j \ эквив \ макс _ R_ >

Если N – количество кластеров:

D B ≡ 1 N ∑ я знак равно 1 N D я > \ Equiv > \ displaystyle \ sum _ ^ D_ >

DB называется индексом Дэвиса – Боулдина. Это зависит как от данных, так и от алгоритма. D i выбирает наихудший сценарий, и это значение равно R i, j для кластера, наиболее похожего на кластер i . У этой формулировки может быть много вариаций, таких как выбор среднего значения кластерного сходства, средневзвешенного значения и так далее.

Объяснение

Эти условия ограничивают индекс, определенный таким образом, симметричным и неотрицательным. Из-за способа его определения как функции отношения разброса внутри кластера к расстоянию между кластерами более низкое значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим кластером, усредненное по всем кластерам, где сходство определяется как S i выше. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса – Боулдина. Этот определенный таким образом индекс представляет собой среднее значение по всем кластерам i , и, следовательно, хорошей мерой для определения того, сколько кластеров фактически существует в данных, является его построение в зависимости от количества кластеров, для которых он рассчитывается. Число i, для которого это значение является наименьшим, является хорошей мерой количества кластеров, в которые данные могут быть идеально классифицированы. Это имеет приложения при определении значения k в алгоритме kmeans , где значение k неизвестно априори.

Реализации

Набор инструментов SOM содержит реализацию MATLAB . Реализация MATLAB также доступна через MATLAB Statistics and Machine Learning Toolbox, используя команду «evalclusters».

Java реализация находится в ELKI , и может быть по сравнению со многими другими показателями качества кластеризации.

Смотрите также

  • Силуэт (кластеризация)
  • Индекс Данна

внешние ссылки

  • http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.17.2072
  • https://books.google.com/books?id=HY8gB2OIqSoC
  • http://nl.mathworks.com/help/stats/clustering.evaluation.daviesbouldinevaluation-class.html

Что такое dBi, dBm?

Для начинающих несколько слов о не понятных для многих единицах измерения принятых в антенной технике и радиотехнике высоких частот.

  • dB (дБ) — децибел. В общем случае логарифмическая единица отношений чего либо. Заменяет собой такое понятие как «разы». Т.е. это не абсолютная величина типа вольт или ватт, а относительная, как например проценты. Np(dB) = 10 lg (P1/P2) Например, если уровень сигнала возрос в 1000 раз по мощности, то это соответствует +30 dB (говорят сигнал возрос на 30 дБ). Применение такой единицы измерения отношений, позволяет заменить умножение/деление на сложение/вычитание при подсчете усиления/ослабления. Пример. В фидере сигнал был ослаблен в 4 раза, а усилитель его повысил в 220 раз. Тогда в системе фидер-усилитель сигнал усилился в 220 / 4 = 55 раз. В децибелах расчет проще 23 – 6 = 17 дБ.
  • dBm (дБм). Иногда удобно какую либо величину принять за эталон (нулевой уровень) и относительно ее измерять уровень уже в децибелах. Так, если принять за нулевой уровень — 1мВт и относительно его измерять мощность по логарифмической децибельной шкале, то появляется такая единица измерения как дБм(1мВт = 0 дБм). Она уже имеет вполне весомый физический смысл, в отличии от безличных децибелов, dBm – это мера мощности. В ней измеряют уровень слабых сигналов (в том же «палкомере» модема), чувствительность приемников, мощность передатчиков и т.п. Например уровень в 50 мкВ на 50-омном входе приемника соответствует уровню мощности 5·10 -8 мВт или -73 дБм. Измерять чувствительность в единицах мощности более удобно, чем в единицах напряжения, так так нам приходится иметь дело с сигналами разной формы, в том числе шумовыми. К тому же, мы избавляемся от необходимости каждый раз уточнять, каково входное сопротивление приемника. Например, пороговая мощность большинства “свистков”, при которой они еще коннектятся с базовой станцией около -110 dBm. Мощность передатчика тоже можно измерять в dBm. Например мощность Wi Fi роутера в 100 мВт равна +20 dBm. Можно воспользоваться нашим онлайн калькулятором для перевода мВт в дБм и обратно. Во многих устройствах вы обнаружите уровень сигнала в asu. Это еще одна единица измерения уровня сигнала, призваная вогнать в ступор анонима своей непонятностью. Расшифровывается – “Arbitrary Strength Unit” – усредненная единица уровня сигнала. Дело в том, что в разных диапазонах мы используем каналы с разной модуляцией, разной полосой частот и т.п. Поэтому равные dBm в 3G и 4G – не эквивалентны одинаковой чувствительности по отношению сигнал/шум в канале. Чтобы привести чувствительность к единому знаменателю придумали asu. Связь между asu и dBm для разных диапазонов следующая:
    • GSM : dBm = 2 × ASU – 113, ASU в диапазоне значений 0..31 и 99 (сеть не определена).
    • UMTS : dBm = ASU – 116, ASU в диапазоне значений -5..91 и 255 (сеть не определена).
    • LTE : (ASU – 141) ≤ dBm < (ASU - 140)

    В принципе за «нулевой уровень» можно принять любую величину. Так на свет появляются такие звери как “дБмкВ” (напряжение – отношение к одному микровольту), “дБВт” (мощность – отношение к одному ватту). В акустике за нулевой уровень звука принято звуковое давление 2·10 -5 Па – порог слышимости. При этом там не стали заморачиваться с довеском к «дБ», а прямо так и измеряют уровень звука в децибелах. Так сложилось исторически, потому что децибелы впервые применялись именно в области акустики. Но надо иметь ввиду – это как бы не «чистые» относительные децибелы, а «звуковые» – абсолютные. Например, шум реактивного самолета с расстояния 25 м равен 140 дБ, а 0 дБ – это порог слышимости. Часто можно встретить единицу под именем dBA. Она специально придумана для измерений интенсивности шумов. Величина дБА – уровень звукового давления, измеренный в “звуковых” децибелах при помощи шумомера, содержащего корректирующую цепочку, имитирующую чувствительность человеческого уха, что дает возможность получать отсчеты более соответствующие реальной слышимости шума.

    Вообще люди начали использовать децибелы для измерения различных вещей не просто так. Еще в XIX веке психофизиологами Эрнстом Вебером и Густавом Фехнером было установлено, что “сила ощущения p пропорциональна логарифму интенсивности раздражителя S”. Это относится к звуку, освещенности, тактильным ощущениям.
    В технике проводной связи используют другую единицу – Непер. Неперы определяются не через десятичный, а через натуральный логарифм. Возможно это и правильнее, ведь многие законы природы основаны на числе Эйлера, которое является основанием натурального логарифма. Но исторически сложилось так, что мы пользуемся децибелами. Хотя разница в принципе не существенна: 1 непер = 8,686 дБ, а 1 Белл = 10 дБ.

    При расчетах все эти dB, dBi, dBm по сути своей все являются децибелами, т.е. суммируются (если усиление) или вычитаются (если затухание), но dBm имеет приоритет как мера мощности сигнала. Например:

    Уровень на входе приемника(dBm) = Мощность передатчика(dBm) + Усиление антенн(dBi) – Ослабление сигнала(dB)

    Неискушенный аноним обычно теряется при виде такого изобилия разновидностей децибел. Но затем приходит понимание, что это приносит упрощение в расчетах. Например в расчете дальности связи Wi-Fi. Многим трудно наглядно представить себе «децибельную» шкалу, особенно в отрицательной области. На самом деле это легко сделать по аналогии с привычным всем термометром. Чем выше мощность в dBm, тем «теплее» цифра. Другими словами -75dBm больше (выше по шкале, «теплее»), чем -95dBm. Более отрицательная цифра в параметре чувствительностии означает, что приемник способен принять более слабый (холодный) сигнал.

    Вот так оно все запутано в этом децибельном царстве. И напоследок. Имейте ввиду, что децибел и имбецил совершенно разные понятия.

Comments are closed, but trackbacks and pingbacks are open.