知情交易概率的贝叶斯估计

2023-10-16 来源：钮旅网

理论研究知情交易概率的贝叶斯估计

郇钰

（中国工商银行博士后科研工作站，北京100032）

摘要：知情交易概率（PIN）是一种被广泛使用的直接度量金融市场信息不对称风险的指标。PIN模型的极大似然估计，由于似然函数形式复杂，在最优化过程中很容易出现计算溢出的问题。本文提出了一种基于Gibbs抽样和ARS抽样的贝叶斯方法来估计PIN。模拟结果表明，贝叶斯方法克服了计算问题，并且可以得到比MLE方法更准确的估计。本文利用PIN的贝叶斯估计方法对2009—2015年期间在沪深两市交易过的股票进行实证应用分析，拓宽了知情交易概率PIN的实证研究范围。

关键词：知情交易概率；贝叶斯估计估计；Gibbs抽样；ARS抽样

中图分类号：F830.9文献标识码：A文章编号：1674-2265（2019）11-0023-08DOI：10.19647/j.cnki.37-1462/f.2019.11.003

一、引言

信息不对称问题在经济金融活动中普遍存在，在信息不对称中处于有利地位的市场参与者发起的交易或行为会给其他处于不利地位的市场参与者带来损失，造成市场风险。因此研究信息不对称风险测度问题对于维护金融市场有效运行具有十分重要的意义，同时也是各个领域研究者都普遍关注和应用的问题。

在市场微观结构理论中，由Easley等（1996）提出的知情交易概率的测度有十分重要的意义。这是第一个直接对知情交易程度进行衡量的指标，也是目前最具代表性、被研究者使用最广泛的一类信息不对称测度指标。知情交易概率（ProbabilityofInformedTrading，简称PIN）是指一次交易来自拥有私人信息的知情交易者的概率，也即某资产来自知情交易者的交易占该资产全部交易的比重。可以认为，PIN值越低，知情交易概率越低，说明该资产的信息不对称程度越低。PIN理论一经提出就受到了广泛关注，常与金融实证领域的研究相结合。例如Easley等（1996）发现交易频繁的股票和交易不频繁股票之间买卖价差的差异可以用PIN来解释；Easley等（2002）把PIN

作为第四个定价因子加入Fama和French（1993）三因子模型中进行回归，发现知情交易概率与价格显著正相关，这说明知情交易概率越高，所要求的风险补偿也越高，因此他们认为PIN可以作为一种风险因子被定价。同时，也有一些学者关注PIN模型本身的估计问题。Boehmer等（2007）发现交易数据的买卖方向分类不准确会造成PIN的低估。Easley等（2010）提出一种改进的PIN参数的似然函数，用来提高最优化似然函数时的计算效率。Lin和Ke（2011）发现在数值计算PIN的极大似然估计时可能遇到非常严重的计算溢出问题（Floating-PointException），尤其是当订单数量特别大的时候，利用近几年股票市场数据，他们发现大约有44%的PIN估计结果受到计算问题的影响。Yan和Zhang（2012）认为在数值求解极大似然估计的时候，边界解会造成PIN的估计偏差，并且认为Easley等（2010）提出的估计有系统性偏误问题。

尽管有很多学者先后提出了改善上述PIN的极大似然估计计算问题的方法，但这些改进思路仍然局限在极大似然估计的框架之下，无法根本解决因似然函

收稿日期：2019-07-08

作者简介：郇钰，女，中国工商银行博士后科研工作站博士后，北京大学经济学博士，研究方向为市场微观结构与金融计量。

《金融发展研究》第11期【23】

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.理论研究数复杂性引起的问题。郇钰和赵婉迪（2018）提出广义矩估计（GMM）方法可以作为PIN极大似然估计的有效补充，尤其是在极大似然估计遇到计算困难的时候，但是广义矩估计结果并不能保证始终比极大似然估计结果更精确。为了彻底改善PIN的估计效果，本文进一步提出用贝叶斯的方法来估计PIN模型，即用Gibbs抽样和ARS（AdaptiveRejectionSampling）抽样相结合的算法来构造PIN的贝叶斯估计方法。在统计学领域中，有很多文献使用贝叶斯方法处理有限混合分布的混合模型，例如Diebolt和Robert（1994）、Viallefont（2002）等，可以说明该方法对混合模型是合适的。

本文的主要贡献是提供了一种实用的贝叶斯方法来估计PIN这种特殊结构的泊松混合模型。本文证实了PIN的贝叶斯估计具有非常显著的优势。第一，贝叶斯方法不受计算问题的限制，无论买卖订单数量有多大，使用贝叶斯方法都可以得到PIN的估计值。第二，贝叶斯方法得到的PIN估计比极大似然估计更加精确。本文分别使用了模拟生成的交易数据和中国股票市场真实交易数据对新方法进行检验。模拟研究证明了当极大似然估计在交易量很大的案例中失效时，贝叶斯方法可以得到PIN的估计，并且其结果拥有比原始的MLE估计和改进的MLE估计更小的均方根误差（RMSE）。在实证应用中，本文使用贝叶斯方法来估计沪深两市全部股票在2009—2015年期间的年度PIN值。实证结果表明，尽管对于中国股票市场中绝大多数股票来说，用改进的MLE方法来估计年度PIN值是失效的，但是贝叶斯方法却始终是合适的估计方法，无论中国市场的股票交易有多么活跃。

二、PIN模型的贝叶斯估计方法（一）处理混合模型的贝叶斯理论框架写成一个混合模型的形式：

3j=1

ε-(ε+μ)(εs+μ)

f2(Bi,Si|εb,εs,μ)=ebe

Bi!Si!-εb

BiSi

ε-εε

f3(Bi,Si|εb,εs,μ)=ebes

Bi!Si!-εb

BiSi

贝叶斯理论处理混合模型的标准框架是使用数据扩充技术，即用缺失数据的方式表达混合模型。对i=1,…,I，zi=(zi1,zi2,zi3)T为代表（Bi，Si）属于哪个

类型交易日的示性向量，即如果（Bi，Si）服从

∑

fj(Bi,Si|εb,εs,μ)，则zij=1；否则zij=0。因此有

3j=1ij

z=1。令Z={zi}iI=1表示这些示性向量的组合，这

就是贝叶斯理论框架中的缺失数据。观测数据和缺失数据组成了完整数据集（B，S，Z），其密度函数为：

i=1

æI3zöæI3zö

=ç∏pj÷ç∏fj(Bi,Si|εb,εS,μ)÷（2）∏∏i=1j=1i=1j=1èøèø

给定参数θ的一个先验分布π，可以得到缺失数据和参数的联合后验分布：

f(Z,θ|B,S)∝π(θ)f(B,S,Z|θ)（3）

使用Gibbs抽样从这个后验分布中进行模拟，也就是给定参数后抽取缺失数据，再给定缺失数据抽取参数，如此迭代抽样。

（二）先验分布

假设参数的先验分布有如下形式：π(θ)=π(α)×π(δ)×π(εb)×π(εS)×π(μ)

=U(α|0,1)×U(δ|0,1)×Γ(εb|λε,βε)×Γ(εS|λε,βε)×∝εb

Γ(μ|λμ,βμ)

λε

b-1

-βεεb

εS

λε

S-1

-βεεS

λμ

-1

-βμμ

（4）

对于每个交易日i，Bi和Si的联合分布式可以

①

这里，U(0,1)是[0，1]均匀分布，而Γ(λ,β)代表

以λ为形状参数、以β为速率参数的伽马分布。因为泊松分布的共轭先验是伽马分布，本文设定εb,εs,μ的先验为相互独立的伽马分布，其超参数分别设定为(λε,βε)、(λε,βε)和(λμ,βμ)。但是，这几个伽马先

∑

是利好消息、利空消息和没有消息发生的概率，满足

在利好消息、利空消息和没有消息发生时服从的独立泊松分布：

f1(Bi,Si|εb,εs,μ)=e

-(εb+μ)

p=1。同时，混合模型的组成分别是Bi和Sij=1j

(εb+μ)-εεs

eBi!Si!s

这里，p1=α(1-δ)、p2=αδ和p3=1-α分别

f(Bi,Si|θ)=∑pjfj(BiSi|εb,εs,μ)

（1）

验分布并不与式（2）中复杂的混合模型共轭。因此，本文需要采取更加先进的计算方法来抽样εb、εs和μ，本文下一小节将会给出详细说明。

（三）Gibbs抽样算法

将式（4）和式（2）带入式（3）可以得到Z和θ的联合后验分布。通过去掉常数项和重新排列，该

BiSi

分布函数可以写为：

《金融发展研究》第11期【24】

-I(εb+εs)

SB-μéêα(1-δ)e(εb+μ)εs

∏i=1ë

(⋅εb

λK-1-βKεb

)(zi1

αδeεb(εS+μ)-μ

⋅εs

λK-1

⋅μ

λμ-1-βμμ

)zi2

ú((1-α)εbBεSs)ù

zi3

f(εb|Z,α,δ,εs,μ,B,S)∝e(εb+μ)

∑iI=1Bizi1

ö-æçI+β÷εεb

bøè

εb

∑iI=1Bi(zi2+zi3)+λεb-1

（10）

（5）这并不是一个可以直接进行抽样的分布函数，但是，可以证明当λε>1时，式（10）的密度函数是

Gibbs抽样算法就是从完整的条件后验分布

对数凹函数，也就是说，密度函数的对数形式是凹向

下的。具体来说，令N1=∑i=1Bi(zi2+zi3)+λε-1，N2=∑i=1Bizi1，则式（10）的对数形式为：

Z的抽样：将式（5）中与Z无关的项去掉并将

其重排后，Z的完整条件后验分布可以写为：f(Z|θ,B,S)∝∏SzBSz

i=1(ε+μ))((1-α)εsbεs)]

gε(εb)=-(I+βε)εb+N1log(εb)+N2log(εb+μ)

（11）

[(α(1-δ)e(εb+μ)εs)(αδeεb

-μBiSizi1-μBi

（6）

很容易证明其二阶导为：

N1N2

g''-ε(εb)=-εb2(εb+μ)2

（12）

布中抽出，而多项分布的概率参数分别为：

因此，对i=1,…,I，zi可以被独立地从多项分

当λε>1时，式（12）一定为负。因此，可以使用ARS算法，一种可以有效地从任意单变量对数凹概率密度函数中抽样的标准算法，来抽样εb。

εs的抽样：将式（5）中与εs无关的项去掉并将

其重排后，εs的完整条件后验分布可以写为：f(εs|Z,α,δ,εb,μ,B,S)∝e

ö-æçI+β÷εεs

søè

εs

∑iI=1Si(zi1+zi3)+λεs-1

(εs+μ)

∑iI=1Sizi2

（7）

式（13）的对数形式为：

令N3=∑i=1Si(zi1+zi3)+λε-1，N4=∑i=1Sizi2。

（13）

gε(εs)=-(I+βε)εs+N3log(εs)+N4log(εs+μ)

（14）

α和δ的抽样：将式（5）中与α无关的项去掉

其二阶导为：

N3N4

g''-ε(εs)=-εs2(εs+μ)2

（15）

并将其重排后，α的完整条件后验分布可以写为：

f(α|Z,δ,εb,εs,μ,B,S)∝α

∑iI=1(zi1+zi2)

当λε>1，式（5）一定为负。所以如果λε>1，则式（13）的分布是对数凹函数，则ARS算

(1-α)

∑iI=1zi3

（8）

（∑i=1(zi1+zi2)+1，

显然，这是一个贝塔分布，参数为

的每一次抽样都不可能恰好为0或者1，这也就避免了边界解问题。

将式（5）中与δ无关的项去掉并将其重排后，δ的完整条件后验分布可以写为：

这也是一个贝塔分布，参数为（∑i=1zi2+1，

∑

法同样可以用来抽样εs。

z+1）。值得注意的是，αi=1i3

μ的抽样：将式（5）中与μ无关的项去掉并将f(μ|Z,α,δ,εb,εs,B,S)∝e

-∑i=1(zi1+zi2)+βμμ

其重排后，μ的完整条件后验分布可以写为：

()μ

λμ-1

(εb+μ)

f(δ|Z,α,εb,εs,μ,B,S)∝∝(1-δ)

∑iI=1zi1∑iI=1zi2

δ（9）为：

令N5=∑i=1(zi1+zi2)+βμ，式（16）的对数形式

∑iI=1Bizi1

(εs+μ)

∑iI=1Sizi2

（16）

∑

gμ(μ)=-N5μ+(λμ-1)log(μ)+N2log(εb+μ)+N4log(εs+μ)

（17）

i=1i1

z+1）。

εb的抽样：将式（5）中与εb无关的项去掉并将

其重排后，εb的完整条件后验分布可以写为：

很容易证明其二阶导为：

λμ-1N2N4

g''μ(μ)=---μ2(εb+μ)2(εs+μ)2

《金融发展研究》第11期（18）

【25】

假设{(α,δ,εb,εs,μ)}m=1这M组参数的后

0.231}。对于每一组参数设定，模拟生成N=1000个数据集。

表1和表2展示了α=0.3且I=21的场景下所有方法估计结果的均方根误差和偏差。为了更加清晰地展示结果，这两个表格中的所有数值都是原始数据扩大100倍后的结果。而这些表格中的“NaN”标识代表了由于FPE问题而导致相应方法得不到PIN的估计结果。原始的MLE方法只在PanelA、PanelB以及Pan-elC的前两列这些参数设定下得到了PIN的估计。改进的MLE估计扩大了可以得到PIN估计的参数设定范围，将其扩大到前四个子表以及PanelE的第一列。而贝叶斯方法对于所有的参数设定情形都是有效的。显然，贝叶斯方法可以避免交易量大的数据所带来的FPE问题。

表1显示了当α=0.3、δ=0.7、εs=εb=ε且I=21时，原始MLE（MLE1）、改进MLE（MLE2）和贝叶斯估计（后验均值Bayes-mean）的均方根误差结果比较。

当原始的MLE和改进的MLE估计结果都存在时，二者的均方根误差和偏差是类似的，只有在ε=50且μ/ε=1的情况下二者差异较大。这个结果是合理的，因为在改进的MLE方法中使用的对数似然函数其实就是原始MLE方法所使用的似然函数的等价变换形式，本质上没有区别。而在ε=50且μ/ε=1的情况下所存在的差异可能是由于这种设定达到了原始MLE方法能够被应用的参数范围边界。

仔细分析表1的均方根误差结果可以发现，当ε=0.5且μ/ε=0.5时，交易数据中几乎没有任何知情

(m)(m)(m)(m)(m)

验抽样是通过收敛后的Gibbs抽样算法取得的。对于任意一组抽样参数值，可以计算出相应的PIN值：

PIN=

(m)

αμ

(m)(m)

αμ+εb+εs

(m)

(m)(m)

（19）

本文考虑使用基于后验抽样的贝叶斯后验均值估

计，即{PIN}m=1的后验均值。

三、数值模拟研究

本文通过数值模拟研究来比较PIN的贝叶斯估计方法、原始的极大似然估计方法（MLE1）以及改进的极大似然估计方法（MLE2）的表现。模拟数据的生成机制便是式（1）联合而成的混合二维泊松模型f(B,S|θ)=∏f(Bi,Si|θ)。对于一天之内信息事件发生

Ii=1

的概率α，考虑真值设定：α=0.3（信息事件发生概单数量，因为I=21天是平均一个月的交易日数量。平

率适中），生成的数据集包含I=21个交易日的买卖订均而言，每一组数据集中大约有6.3个交易日是存在知情交易的。

参数δ的真值设定为0.7。εb和εs的真值设定反映了真实股票数据的情况。根据Duarte和Young（2009）中的实证结果，基于ISSM高频数据库（1983—1992年）和纽约证券交易所TAQ数据库（1993—2005年）的数据进行计算，发现交易最不频繁的股票的εb和εs估计值平均小于1，然而交易最活跃的股票的εb被估计到将近300，εs大约200。如今，股票日均被交易上千次是很寻常的事情。为简单起见，设定εs=εb=ε，而为了涵盖各种实际可能存在的情况，ε的真值被设定为ε∈{0.5，10，50，200，800，1600}。同时，为了研究知情交易速率和非知情交易速率的比值对于结果有何影响，对ε的每一种取值，μ都有四种可能的取值设定，即为μ/ε∈{0.5，1，1.5，2}$。给定α的取值，PIN可以被写为：

æμöαç÷èεø

PIN=

æμöαç÷+2èεø

这时的PIN只取决于μ/ε的值而不是ε值。在本文的模拟设定中，α=0.3时，对应μ/ε不同取值的PIN真值分别为PIN∈{0.070，0.130，0.184，

《金融发展研究》第11期【26】

交易的信息。此时，所有方法都没有得到令人满意的估计结果，因为所有方法的均方根误差都要比PIN的真实值（0.070）大。而在其他所有参数设定场景中，贝叶斯估计的均方根误差都要比改进的MLE的小（当改进的MLE方法的结果可以得到时）。对于不同的ε（≥50）真值设定，贝叶斯估计的均方根误差表现都是相对稳定的。当μ/ε真实比值或者说是真实PIN值增大时，均方根误差增加，但是均方根误差与真实PIN的比值在不断减小（大致为0.30、0.27、0.25和0.23），这说明贝叶斯估计的相对精度在增加。

表2是当α=0.3、δ=0.7、εs=εb=ε且I=21时，原始MLE（MLE1）、改进MLE（MLE2）和贝叶斯估计（后验均值Bayes-mean）的偏差结果比较。

表2所展示的各方法估计偏差的表现形式并不如其均方根误差所展示的情况清晰。在PanelA中，当ε

μ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-mean表2：偏差结果比较

230.38130.3326.54726.7316.7316.0222NaN6.0665.4382NaN6.1515.4692NaNNaN5.2732NaNNaN5.319μ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanμ/εMLE1MLE2Bayes-meanPanelA:ε=0.50.5136.47433.05236.47433.06716.12410.712PanelB:ε=100.5113.9417.09713.9467.0974.2474.707PanelC:ε=500.512.8034.0672.8034.0582.3613.687PanelD:ε=2000.51NaNNaN2.2643.7982.0843.419PanelE:ε=8000.51NaNNaN2.196NaN2.0343.384PanelF:ε=16000.51NaNNaNNaNNaN1.9333.4481.531.58531.5938.181.55.8425.8425.0291.5NaN4.9974.5241.5NaN4.9164.4131.5NaNNaN4.4751.5NaNNaN4.54PanelA:ε=0.50.5123.05418.19623.03118.16415.4039.388PanelB:ε=100.518.5362.3548.5292.3542.7281.603PanelC:ε=500.510.447-0.6250.447-0.2550.7310.305PanelD:ε=2000.51NaNNaN-0.038-0.4550.3060.139PanelE:ε=8000.51NaNNaN0.086NaN0.4120.424PanelF:ε=16000.51NaNNaNNaNNaN0.2650.3551.516.41716.3535.2391.50.0510.0510.6311.5NaN-0.0160.6261.5NaN-0.4160.2371.5NaNNaN0.3721.5NaNNaN0.162215.81315.6731.3752-0.312-0.3120.4072NaN-0.4490.2662NaN-0.3610.3652NaNNaN0.2552NaNNaN0.477注：表格中的数据均已扩大100倍。注：表格中的数据均已扩大100倍。

非常小时，交易数据中几乎没有知情交易的信息，此时的偏差要远远大于其他情况下的估计偏差。在一些参数设定场景中，贝叶斯方法的估计结果偏差要小于改进的MLE估计的偏差，而在另外一些参数设定场景中，改进的MLE估计偏差比贝叶斯估计的偏差要小。在PanelB-F中，大部分情况下贝叶斯估计在所有贝叶斯估计结果中具有最小的偏差。

四、实证数据分析（一）数据选取

本文使用了2009年1月1日至2015年12月31日期间在上海证券交易所和深圳证券交易所交易的全部股票的每日高频逐笔交易数据，数据来自锐思高频数据库系统（RESSET/HF）。2009年上海证券交易所和深圳证券交易所共有1777只股票挂牌交易，而随着中国金融市场蓬勃发展，这一数字在2015年已达到2892只。

对于每只股票，高频数据的每条记录包括交易的时间（精确到秒）、成交价格、成交量（以股为单位）、5个最优卖价与相应卖量、5个最优买价与相应买量、交易方向等信息，以及相应的市场买卖指标。

RESSET/HF数据库采用的是Lee和Ready（1991）提出的方法来判断每一笔交易的方向（买方发起或卖方发起）。其判断原则为：如果当前该笔交易的交易价格大于此前买卖报价的中点，则认为这笔交易是买方发起的，反之则是卖方发起的，如果恰好等于买卖报价中点，则判定这笔交易的方向与上一笔交易方向相同。

为了保证使用的数据是正确且合理的记录，本文首先用如下标准对原始高频数据进行筛选：只保留发生在交易所开盘时间内的交易记录，即上午9：30至11：30和下午1：00至3：00；只保留报价和交易量均不为零的交易记录。

在去掉了不符合上述条件的交易记录之后，将每一只股票在每一个交易日内的买卖订单数量分别求和。如果一只股票因为停牌或者退市等原因导致其在某一年内没有交易记录或者一年内累计交易日没有超过20天，那么就不计算其在该年的PIN值。

（二）改进的MLE方法的实证结果

表3展示了在每一年用来估计PIN的股票个数，以及由于FPE问题导致使用改进的MLE估计无法得

《金融发展研究》第11期【27】

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.理论研究到年度PIN值的股票所占比例。在2009年，1751只股票中有837只股票无法用改进的MLE方法估计，大约占市场总市值的19.31%，而占市场流通市值的20.97%。在接下来的六年中，这几个比值急剧增长。截至2015年底，2875只股票中有2644只股票不能使用改进的MLE方法，占市场总市值的75.56%而占市场流通市值72.93%。由此而见，对于近几年的中国市场来说，用改进的MLE方法来估计股票年度PIN值并不合适。

表3：每一年计算PIN值的股票总数及使用改进MLE方法

无法得到年度PIN的股票所占比例

年份股票总数个数占比（%）市值占比（%）流通市值占比（%）2009175147.8019.3120.972010208470.8743.1137.692011238892.6373.4269.122012255993.8686.7084.302013257193.7881.1180.202014266593.7780.8179.882015287591.9775.5672.93

注：（a）“Result”代表改进的MLE可以计算出PIN值结果的股票—年案例；（b）“NaN”代表改进的MLE无法估计PIN值的股票—年案例。

图1：每日买方提交订单数最大值和每日卖方提交订单数

最大值的对比散点图

已有文献将极大似然估计方法计算不出PIN值的问题归因于买卖订单数量过大，这可能引发似然函数中的指数函数部分的数值超出计算机软件程序可以处理的实数域范围（Easley等，2010；Lin和Ke，2011）。图1画出的max（B）和max（S）的散点图，是针对2411个改进的MLE可以计算出PIN值结果的股票—年案例和14482个改进的MLE方法失败了的股票—年案例，分别计算它们日度买方发起订单量的最大值和日度卖方发起订单量的最大值。由图1（a）可以看出，能够用改进的MLE估计出PIN的案例通常每日买卖订单数量的最大值都不会超过2000。而图1（b）中，改进的MLE估计失败的案例其最大值大都远离原点。在本文使用的实际数据中，年度max（B）和max（S）都小于329的股票一定可以用改进的MLE方法来估计PIN。

图2分别给出了改进的MLE可以计算出PIN值结果的股票—年案例和得不到PIN值结果的股票—年案例的每日买方提交订单数和每日卖方提交订单数的标准差σB和σS的散点图。能够用改进的MLE估计出会导致改进的MLE方法失败。

图3提供了另外一种探究改进的MLE方法在何种情况下容易失效的思路。对于每只股票每年的日度买卖订单量数据，计算买单数和卖单数的相关系数，并将所有股票—年案例按照买卖订单量相关系数的大小

《金融发展研究》第11期【28】

注：（a）“Result”代表改进的MLE可以计算出PIN值结果的股票—年案例；（b）“NaN”代表改进的MLE无法估计PIN值的股票—年案例。

图2：每日买方提交订单数标准差和每日卖方提交订单数

标准差的对比散点图

划分为10组：相关系数在0和0.1之间的，在0.1和0.2之间的，⋯，在0.9和1之间的。图3展示了在每一组中，可以使用改进的MLE的案例和不能使用的案例分别所占的比例。随着相关系数的增加，可以使用改进的MLE的案例占比在减小。对于相关系数小于0.1的组，有近40%的股票—年案例可以使用改进的MLE方法估计PIN值；而在相关系数大于0.9的组，这个占比小于5%。因此，每日买卖订单数量之间的高相关性也可能会导致改进的MLE方法出现计算错误。

（三）贝叶斯方法的实证结果

本文使用贝叶斯方法来估计所有股票在七年间每年的PIN值和θ=(α,δ,εb,εs,μ)参数值。与数值模拟结果类似，使用贝叶斯方法可以得到全部股票在每一年的PIN估计值。图4展示了PIN和参数的估计值在横截面上第5百分位数（5th），第一四分位数（25th），中位数（50th），第三四分位数（75th）和第95百分位数（95th）的时间序列图。PIN估计值的分位数在2009—2010年期间是相对比较低的，其在这两年的中位数分别为0.108和0.117。这与μ（知情交易订单的

PIN的案例，其买卖订单数量的标准差均不会超过300。也就是说，买卖订单数量如果波动较大也可能

速率）在这两年期间呈现了相对较低水平是有关联的，μ在这两年的中位数分别只有287.19和310.06。在接下来的三年期间（2011—2013年），PIN估计值的分位数与2009—2010年相比达到了更高的水平，中位数分别有0.150、0.165和0.140。尽管2011—2013年期

间α（信息事件发生的概率）的水平不如2009—2010图4：年度PIN和参数的估计值在股票横截面上不同分位数的年期间的高，但是2011—2013年的μ变得更高了，μ时间序列图在这三年的中位数分别为359.61、381.37和378.11，并且εb（非知情交易者提交买单的速率）和εs（非知情交易者提交卖单的速率）也比2009—2010年期间的低，所以PIN的整体水平是提高的。

在2014年，α的水平相较之前三年提高了，μ同样也在增加，其中位数提高到了433.80，但是εb和εS也比2011—2013年期间的水平高了。因此只有PIN

五、总结

本文展示了估计PIN模型的贝叶斯框架，并且提出了三种PIN的贝叶斯点估计方法。基于大量的模拟研究和实证分析，本文证明了使用贝叶斯后验均值或者后验中位数得到的PIN估计值的表现要优于原始的或者改进的极大似然估计方法的表现。在模拟研究中，极大似然估计方法在有着较大每日交易速率的参数场景设定下会出现计算问题，从而得不到PIN的估计，而在实证分析中，极大似然估计也会因为同样的问题无法计算出大部分股票的PIN值。与此相反，PIN的贝叶斯估计总是可以得到的。此外，模拟研究发现，当极大似然估计结果可得时，PIN的贝叶斯估计的均方根误差总是比极大似然估计的更小。贝叶斯方法使得PIN的计算不再受限制，未来可以进一步拓宽与PIN相关的实证研究。注：

①受篇幅限制，PIN的理论基础和模型分布函数请参考郇钰和赵婉迪（2018），本文不再赘述。参考文献：

[1]BoehmerE，GrammigJ，TheissenE.2007.Estimat-ingtheProbabilityofInformedTrading—DoesTradeMis-classificationMatter?[J].JournalofFinancialMarkets，10（1）.

[2]DuarteJ，YoungL.2009.WhyisPINpriced?[J].

《金融发展研究》第11期估计值的第95百分位数相较于之前三年的显著增大了，从2013年的0.218增加到2014年的0.260，但是其他分位数与2011—2013年的水平相似。

2015年的情况是七年中的一个例外。相比于2014年的水平，α中位数扩大了55.04%，而μ的中位数也增加到了502.12。因此，2015年的PIN值也达到了七年期间的最高值，其中位数高达0.195。另外，δ（信息事件是利空消息的概率）除了第95百分位数之外的其他分位数在2015年都非常低。也就是说，2015年发生的信息事件绝大多数都是利好消息，而知情交易者大部分情况下发起的是买方订单。因为知情交易者是从非知情交易者手中购买股票的，因此在2015年εs也大幅提高了，增幅约为2014年的49.68%。

这种特殊的结果可能与中国股票市场在2015年中所经历的股灾及流动性枯竭有关系，在未来的研究中需要对2015年的交易情况进行更加细致的分析。

【29】

[3]EasleyD，HvidkjaerS，O'HaraM.2002.IsInforma-tionRiskaDeterminantofAssetReturns?[J].TheJournalofFinance，57（5）.

[4]EasleyD，HvidkjaerS，O’HaraM.2010.FactoringInformationintoReturns[J].JournalofFinancialandQuanti-tativeAnalysis，45（2）.

[5]EasleyD，KieferNM，O'HaraMetal.1996.Li-quidity，Information，andInfrequentlyTradedStocks[J].TheJournalofFinance，51（4）.

[6]EasleyD，O'HaraM，PapermanJ.1998.FinancialAnalystsandInformation-BasedTrade[J].JournalofFinan-cialMarkets，1（2）.

[7]EfronB，GongG.1983.ALeisurelyLookattheBootstrap，theJackknife，andCross-Validation[J].TheAmeri-canStatistician，37（1）.

[8]FamaEF，FrenchKR.1993.CommonRiskFactorsintheReturnsonStocksandBonds[J].JournalofFinancialEconomics，33（1）.

[9]GlostenLR，MilgromPR.1985.Bid，AskandTransactionPricesinaSpecialistMarketwithHeteroge-neouslyInformedTraders[J].JournalofFinancialEconom-ics，14（1）.

[10]NeweyWK，WestKD.1987.ASimple，PositiveSemi-Definite，HeteroskedasticityandAutocorrelationCon-sistentCovarianceMatrix[J].Econometrica，55（3）.

[11]RamalhoJJS.2006.BootstrapBias-Adjusted

GMMEstimators[J].EconomicsLetters，92（1）.

[12]WilliamLinH-W，KeW-C.2011.AComputingBi-asinEstimatingtheProbabilityofInformedTrading[J].JournalofFinancialMarkets，14（4）.

[13]YanY，ZhangS.2012.AnImprovedEstimationMethodandEmpiricalPropertiesoftheProbabilityofIn-formedTrading[J].JournalofBanking&Finance，36（2）.

[14]Diebolt，Robert，C.P.1994.EstimationofFiniteMixtureDistributionsThroughBayesianSampling[J].Jour-naloftheRoyalStatisticalSociety，56（2）.

[15]ViallefontV，RichardsonS，GreenPJ.2002.BayesianAnalysisofPoissonMixtures[J].JournalofNon-parametricStatistics，14（1-2）.

[16]MartinA.Tanner，WongWH.1987.TheCalcula-tionofPosteriorDistributionsbyDataAugmentation[J].JournaloftheAmericanstatisticalAssociation，82（398）.

[17]GilksWR，WildP.1992.AdaptiveRejectionSam-plingforGibbsSampling[J].JournaloftheRoyalStatisticalSociety，41（2）.

[18]GelmanA，RubinDB.1992.InferencefromItera-tiveSimulationUsingMultipleSequences[J].StatisticalSci-ence，7（4）.

[19]CharlesM.C.LeeandMarkJ.Ready.1991.Infer-ringTradeDirectionfromIntraDayData[J].JournalofFi-nancial，46（2）.

[20]郇钰，赵琬迪.知情交易概率的估计方法比较[J].金融发展研究，2018，（4）.

BayesianEstimationofPINModel

HuanYu

（PostdoctoralScientificResearchStation，ICBC，Beijing100032）

Abstract：Theprobabilityofinformedtrading（PIN）iswidelyusedandit'sanindextodirectlymeasurethemar-ketinformationasymmetryrisk.DuetothecomplexformofLikelihoodEstimationFunction，MaximumLikelihoodEstimation（MLE）ofthePINmodeloftenencountersnumericaloverflowingproblemsintheprocessofoptimization.BasedonGibbssamplingcombinedwithadaptiverejectionsampling，aBayesianmethodisproposedfortheestima-tionofPIN.SimulationstudiesrevealthattheBayesianmethodovercomesnumericalproblemsanditalsocangetmoreaccurateestimationthantheMLEmethods.ThispaperusesBayesianEstimationtoconductanempiricalanalysisofthestocksbetweenShanghaiandShenzhenfrom2009to2015andthescopeoftheempiricalstudyoftheprobabilityofin-formedtradingPINisexpendedaccordingly.

KeyWords：probabilityofinformedtrading，bayesianestimation，gibbssampling，ARSsampling

（责任编辑耿欣；校对FF，GX）

《金融发展研究》第11期【30】

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

知情交易概率的贝叶斯估计