Мера включения


Меры включения — несимметричные меры сходства отражающие степень близости одного объекта относительно другого. Использовать меры включения по отдельности не имеет смысла. Меры включения также известны как асимметричные меры, направленные меры конвергенции. Меры включения отражают отношения «целого-части». Также существует понятие мер невключения, которые определяются как дополнение мер включения до 1. Обычно меры включения представляют в виде матрицы включения

Следует особо отметить, что меры включения более информативны в общем и особенно для разновеликих по числу признаков объектов, чем меры сходства, так как последние, по сути, представляют собой усреднённые показатели и, следовательно, теряют часть информации об объектах, а несимметричные меры включения адекватно оценивают более распространённые в природе нетранзитивные отношения. Например, один список может включаться на 100 % в другой список, а другой список в свою очередь включаться только на 10 %. При этом коэффициент сходства не сможет адекватно отразить эти отношения, так как, например, 10 общих видов значительны для одного списка в 10 видов, но не столь значимы для большого списка в (к примеру) 100 видов. Мера сходства Сёренсена в данном случае будет равна около 20 %.
В общем виде меры несимметричные меры сходства можно представить так: K 0 ( A ; B ) = c o n v ( A , B ) S ( B ) {displaystyle K_{0}(A;B)={frac {conv(A,B)}{S(B)}}} ; K 0 ( B ; A ) = c o n v ( A , B ) S ( A ) {displaystyle K_{0}(B;A)={frac {conv(A,B)}{S(A)}}} . А конкретную меру включения можно рассчитать из общей формулы континуума мер сходства Сёмкина.

Меры включения для конечных множеств

Подобные меры, под названием коэффициентов «полноты» и «точности» нашли широкое применение в информационно-поисковых системах. Под названием «коэффициентов неспецифичности» одной флоры относительно другой использовались во флористике Б. А. Юрцевым. После работ Б. И. Семкина и Т. А. Комаровой меры включения стали широко использоваться в синэкологии и биогеографии.
Наиболее часто используются меры:

K ( A ; B ) = n ( A ∩ B ) n ( A ) ; K ( B ; A ) = n ( A ∩ B ) n ( B ) {displaystyle K(A;B)={frac {n(Acap B)}{n(A)}};K(B;A)={frac {n(Acap B)}{n(B)}}}

Меры включения для дескриптивных множеств

Для случая дескриптивных множеств (дескриптивная интерпретация), в экологии это выборки по обилию, меры введены Б. И. Семкиным и Т. А. Комаровой. Например:

K ( A ; B ) = m ( A ∧ B ) n ( A ) = ∑ i = 1 r m i n ( A i , B i ) ∑ i = 1 r ( A i ) ; {displaystyle K(A;B)={frac {m(Awedge B)}{n(A)}}={sum _{i=1}^{r}min(A_{i},B_{i}) over sum _{i=1}^{r}(A_{i})};} K ( B ; A ) = m ( A ∧ B ) n ( B ) = ∑ i = 1 r m i n ( A i , B i ) ∑ i = 1 r ( B i ) . {displaystyle K(B;A)={frac {m(Awedge B)}{n(B)}}={sum _{i=1}^{r}min(A_{i},B_{i}) over sum _{i=1}^{r}(B_{i})}.}

Меры включения для вероятностей

Если сравнивается встречаемость видов (вероятностная интерпретация), то есть учитываются вероятности встреч объектов, то аналогом вышеприведённым мерам будут несимметричные меры (меры включения событий) Дайса (association index), предложенные Л. Р. Дайсом в 1945 году:

K ( A ; B ) = h a = P ( A ∩ B ) P ( A ) ; K ( B ; A ) = h b = P ( A ∩ B ) P ( B ) {displaystyle K(A;B)={frac {h}{a}}={frac {P(Acap B)}{P(A)}};K(B;A)={frac {h}{b}}={frac {P(Acap B)}{P(B)}}}

Меры Дайса, как и все меры включения событий, являются вероятностными мерами и по сути являются условными вероятностями.

Меры включения для информационной интерпретации

Для информационной аналитической интерпретации используются относительные меры односторонней зависимости.

K ( A ; B ) = I ( A , B ) H ( A ) ; K ( B ; A ) = I ( A , B ) H ( B ) {displaystyle K(A;B)={frac {I(A,B)}{H(A)}};K(B;A)={frac {I(A,B)}{H(B)}}}