正文
统计学上以“两类错误”的概念描述BE研究结果对BE事实判断的精准程度。其中I类统计学错误描述事实上是指两制剂不等效而研究得出等效结论的风险,即对患者的风险,通常用α表示。Ⅱ类统计学错误描述事实上是指两制剂等效而研究未能得出等效结论的风险,即对厂家的风险,通常用β表示。两制剂等效而BE研究得出等效结论的概率1-β即为所谓“统计功效”(statistical power),也称“统计效力”或“把握度”。
统计功效与受试者例数的确定紧密相关。美国FDA在其《统计方法建立生物等效》的指南中要求,生物等效研究的受试者例数应当设计以满足80%或90%的统计功效。我国2016年发布的《以药动学参数为终点评价指标的化学药物仿制药人体生物等效性研究技术指导原则》关于受试者例数的要求为:“入选受试者的例数应使生物等效性评价具有足够的统计学效力”。统计功效的建立在试验开展前,与两制剂等效而研究未能得出等效结论的风险挂钩,属于厂家应当自行把握的风险范畴。监管者对统计功效提出建议的出发点不在于安全性或有效性风险,而更多是伦理考虑。
实践中,—些研究者在试验开展后利用估计得到的试验参数计算所谓的“事后功效”,本文认为,不论从监管部门的要求或是从企业自身实践来讲,计算事后功效都是画蛇添足的。
本文首先探讨了统计功效与样本量之间的关系,随后通过计算机仿真方法,指出在完成BE研究后计算事后功效的这—实践不具备评价试验设计、解释试验结果的能力。本文还提供了可以帮助研究者确定样本量和进行统计功效敏感性分析的计算工具。
统计功效的影响因子包括:①可接受的I类统计学错误概率α。②受试制剂T和参比制剂R的药动学参数均值之比T/R。③个体内变异系数CV(coefficient of variation)。④样本量n。
其中,I类统计学错误概率α对应患者风险,通常由各国监管机构确定,在BE研究设计时无法调整,故在样本量确定中通常视作常量,不考虑其变化,计算统计功效时通常仅考虑T/R,CV和n,函数关系可以写为统计功效=f(T/R,CV,n)。其中,T/R由处方工艺决定,CV由受试者生理变异、质量均—性和研究过程变异等决定。样本量n与统计功效的关系最直接,样本量增加将使两制剂响应均值的变异性减小,因此减小试验噪声,进而可提高统计功效。
具体来讲,T/R对应受试制剂和参比制剂药动学特征的相似程度。直观地讲,在其他条件相同时,两制剂越相似,T/R越接近1,越容易得出等效结论,进而统计功效越大。而T/R真值不可知,研究者只能通过处方工艺开发、预BE研究等活动积累经验以推断两制剂的相似程度。FDA建议在无其他信息支持的情况下选取T/R=0.95作为计算功效的参数。
个体内变异系数CV对应BE研究的整体噪声,包括受试者机体内药物溶出、吸收等生理过程的变异性,也可能以药品质量变异、试验操作变异的形式引入。例如,不同厂家的同—品种的CV可能有差异。又如,同—厂家的同—品种在不同的BE基地开展的研究CV也可能不同。可以看出,CV既与API本身和制剂的处方工艺设计有关,又受生产质量控制和BE研究过程控制影响。直观地讲,在其他条件相同时,个体内变异系数CV越接近0,即试验噪声越小,越容易区分制剂间的真实差异,进而统计功效越大。而CV真值同样不可知,研究者只能通过文献研究和预BE研究等活动积累经验以推断CV真值。
实际上,T/R和CV的真值不论在BE研究前后都不得而知。在BE研究开展前,研究者在T/R和CV估计值基础上计算得到的功效称为“设计功效”或“事前功效”,英文称priori power或prospective power。尽管T/R和CV的真值不得而知,但其客观存在,由T/R和CV估计值估算出的样本量,—定对应—个理论上的“真实功效”。