Цензурированная регрессия


Цензурированная регрессия (англ. Censored regression) — регрессия, с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (справа или слева) или с обеих сторон. Цензурированная регрессия отличается от усеченной регрессии (англ. truncated regression), тем что значения факторов, в отличие от зависимой переменной, наблюдаются без ограничений.

Каноническая цензурированная регрессия, цензурированная снизу нулевым значением, носит название тобит (по аналогии с пробит, логит и т. д.), названная в честь лауреата премии имени Нобеля по экономике Джеймса Тобина. Собственно исследования цензурированных моделей начались с работы Дж. Тобина в 1958 году, в которой рассматривались расходы семей на автомобили. Для оценки эластичности спроса на автомобили по доходу необходимо оценить модель зависимости логарифма расходов на логарифм доходов. Однако, как показал Тобин такая оценка будет смещенной и несостоятельной, так как для семей с низким доходом (ниже некоторого порога) величина расходов равна нулю независимо от конкретной величины дохода и других факторов. Тобин впервые и предложил подход к оценке таких моделей, который позволяет получить состоятельные оценки параметров модели.

Математическое описание

В цензурированной модели наблюдается не сама зависимая переменная, а её значения в пределах цензурирования. То есть предполагается, что есть латентная переменная y ∗ {displaystyle y^{*}} , для которой справедлива обычная регрессионная модель y ∗ = x T b + σ ε {displaystyle y^{*}=x^{T}b+sigma varepsilon } , однако фактически наблюдается другая переменная, которая определяется в общем случае следующим образом:

y = { y m i n , y ∗ ⩽ y m i n y ∗ , y m i n < y ∗ < y m a x y m a x , y ∗ ⩾ y m a x {displaystyle y={egin{cases}y_{min},y^{*}leqslant y_{min}y^{*},y_{min}<y^{*}<y_{max}y_{max},y^{*}geqslant y_{max}end{cases}}}

Если y m i n = 0 , y m a x = ∞ {displaystyle y_{min}=0,y_{max}=infty } , то имеем каноническую цензурированную модель (тобит):

y = { 0 , y ∗ ⩽ 0 y ∗ , y ∗ > 0 {displaystyle y={egin{cases}0,y^{*}leqslant 0y^{*},y^{*}>0end{cases}}}

Рассмотрим математическое ожидание наблюдаемой зависимой переменной на примере тобит-модели с нормально распределенной ошибкой:

E ( y ) = P ( y ∗ ⩽ 0 ) E ( y | y ∗ ⩽ 0 ) + P ( y ∗ > 0 ) E ( y | y ∗ > 0 ) = P ( y ∗ ⩽ 0 ) ⋅ 0 + P ( ε > − x T b / σ ) ( x T b + σ E ( ε | ε > − x T b / σ ) ) {displaystyle E(y)=P(y^{*}leqslant 0)E(y|y^{*}leqslant 0)+P(y^{*}>0)E(y|y^{*}>0)=P(y^{*}leqslant 0)cdot 0+P(varepsilon >-x^{T}b/sigma )(x^{T}b+sigma E(varepsilon |varepsilon >-x^{T}b/sigma ))}

Если ϕ {displaystyle phi } -плотность, а Φ {displaystyle Phi } -интегральная функция распределения случайной ошибки, то

P ( ε > − x T b / σ ) = Φ ( x T b / σ ) {displaystyle P(varepsilon >-x^{T}b/sigma )=Phi (x^{T}b/sigma )} E ( ε | ε > − x T b / σ ) = ϕ ( − x T b / σ ) / Φ ( x T b / σ ) {displaystyle E(varepsilon |varepsilon >-x^{T}b/sigma )=phi (-x^{T}b/sigma )/Phi (x^{T}b/sigma )}

Следовательно, окончательно имеем

E ( y ) = Φ ( x T b / σ ) ⋅ x T b + σ ⋅ ϕ ( x T b / σ ) {displaystyle E(y)=Phi (x^{T}b/sigma )cdot x^{T}b+sigma cdot phi (x^{T}b/sigma )}

Очевидно, это выражение не равно x T b {displaystyle x^{T}b} , следовательно построение обычной регрессии приведет к смещенным и несостоятельным оценкам.

Оценка параметров

Оценка параметров осуществляется методом максимального правдоподобия. Логарифмическая функция правдоподобия цензурированной модели равна:

l ( b , σ ) = ∑ y t = y m i n ln ⁡ F ( ( y m i n − x t T b ) / σ ) + ∑ y m i n < y t < y m a x ln ⁡ f ( ( y t − x t T b ) / σ ) + ∑ y t = y m a x ln ⁡ ( 1 − F ( ( y m a x − x t T b ) / σ ) ) {displaystyle l(b,sigma )=sum _{y_{t}=y_{min}}ln F((y_{min}-x_{t}^{T}b)/sigma )+sum _{y_{min}<y_{t}<y_{max}}ln f((y_{t}-x_{t}^{T}b)/sigma )+sum _{y_{t}=y_{max}}ln(1-F((y_{max}-x_{t}^{T}b)/sigma ))}

где f , F {displaystyle f,F} — плотность и интегральная функция распределения случайной ошибки ε {displaystyle varepsilon } .

Максимизация данной функции по неизвестным параметрам позволяет найти их оценки.

Модель Хекмана

Модель Тобина имеет один недостаток. Дело в том, что значение y=0 может означать выбор «не участвовать» (в расходах на отдых, например), а значения y > 0 {displaystyle y>0} , можно интерпретировать как «интенсивность участия». В тобит-модели и выбор «участвовать-не участвовать» и «интенсивность участия» определяются одними и теми же факторами и факторы действуют в одном направлении. Классический пример фактора и ситуации неоднозначного влияния — количество детей как фактор, влияющий на расходы семьи. Очевидно, что большое количество детей может негативно влиять на решение «отдыхать или нет» (из-за больших расходов), однако, если принято такое решение, то величина расходов (интенсивность участия) на отдых прямо зависит от количества детей.

Хекман предложил разделить модель на две составляющие — модель бинарного выбора для участия, и линейную модель для интенсивности участия и факторы этих двух моделей вообще говоря могут быть разными. Таким образом, в модели Хекмана имеются две латентные переменные, удовлетворяющие следующим моделям:

y ∗ = x T b + ε {displaystyle y^{*}=x^{T}b+varepsilon }

g ∗ = z T c + u {displaystyle g^{*}=z^{T}c+u}

Случайные ошибки моделей предполагаются нормально распределенными. Вторая латентная переменная определяет выбор «участвовать/не участвовать» в рамках стандартной модели бинарного выбора (например, пробит-модели). Первая модель — это модель интенсивности участия при условии выбора «участвовать». Если выбирается «не участвовать», то y {displaystyle y} не наблюдается (равна нулю).

g = { 1 , g ∗ > 0 0 , g ∗ ⩽ 0 {displaystyle g={egin{cases}1,g^{*}>0,g^{*}leqslant 0end{cases}}}

y = { y ∗ , g = 1 0 , g = 0 {displaystyle y={egin{cases}y^{*},g=1,g=0end{cases}}}

Такую модель называют тобит II (соответственно исходная тобит-модель называется тобит I), иногда по аналогии хекит (модель Хекмана). В англоязычной литературе также встречается название sample selection model.

Рассмотрим математическое ожидание наблюдаемой зависимой переменной (при условии g = 1 {displaystyle g=1} ):

E ( y | g = 1 ) = x T b + E ( ε | g = 1 ) = x T b + E ( ε | u > − z T b ) {displaystyle E(y|g=1)=x^{T}b+E(varepsilon |g=1)=x^{T}b+E(varepsilon |u>-z^{T}b)}

Предполагая, что случайные ошибки моделей латентных переменных коррелированы и связаны соотношением

ε = σ ε u u + ν {displaystyle varepsilon =sigma _{varepsilon u}u+ u }

Следовательно

E ( y | g = 1 ) = x T b + σ ε u E ( ε | u > − z T b ) = x T b + σ ε u ϕ ( z T b ) Φ ( z T b ) = x T b + σ ε u λ ( z T b ) {displaystyle E(y|g=1)=x^{T}b+sigma _{varepsilon u}E(varepsilon |u>-z^{T}b)=x^{T}b+sigma _{varepsilon u}{frac {phi (z^{T}b)}{Phi (z^{T}b)}}=x^{T}b+sigma _{varepsilon u}lambda (z^{T}b)}

где λ ( z T b ) {displaystyle lambda (z^{T}b)} — так называемая «лямбда Хекмана».

Оценка модели Хекмана производится также методом максимального правдоподобия, однако в связи с нестандартностью данной задачи часто применяют упрощенную двухшаговую процедуру оценивания, предложенную Хекманом. На первом шаге оценивается модель бинарного выбора и определяются параметры этой модели. На основе этих параметров можно определить для каждого наблюдения лямбду Хекмана. На втором шаге обычным МНК оценивается регрессия:

y t = x t T b + σ ε u λ t + η t {displaystyle y_{t}=x_{t}^{T}b+sigma _{varepsilon u}lambda _{t}+eta _{t}}

Полученные оценки являются неэффективными, но вполне могут быть использованы в качестве начальных значений в методе максимального правдоподобия.