Our Evidence Framework

概述

PeptideInsight 使用结构化的证据分级系统，帮助读者快速评估每种肽及其声称效果背后的科学研究的质量和数量。该系统以循证医学 (EBM) 的原则为基础，并专门针对肽研究领域进行了调整，因为该领域的大部分可用数据都是临床前数据。

证据等级是按肽分配的，并在适用时按特定的声称效果分配。一种肽可能对一种应用有强有力的证据支持，对另一种应用有中等证据支持，而对第三种应用只有临床前数据。这种细致性很重要，因为营销材料和在线讨论经常将肽最受支持的用途推广到其所有声称的益处。

证据层级

在解释我们具体的评分系统之前，了解支撑它的更广泛的科学证据层级非常重要。从最强到最弱排列：

1级：系统评价和荟萃分析

系统评价使用预定义的、可重复的搜索策略来识别关于某个问题的相关研究，然后对其进行批判性评估并综合其结果。荟萃分析更进一步，通过统计学方法将多个研究的定量结果结合起来，从而获得比任何单一研究更精确的汇总效应估计。

为什么这 ranks highest： 通过汇总多项试验的数据，荟萃分析增加了统计功效，可以检测到微小但真实的影响，并有助于识别不同人群和环境下的结果一致性（或不一致性）。

注意事项： 荟萃分析的好坏取决于其纳入的研究。汇总有缺陷的研究会产生有缺陷的综合分析——“垃圾进，垃圾出”。研究之间的异质性（不同的人群、剂量、终点）可能使汇总不适用。

2级：随机对照试验 (RCT)

参与者被随机分配接受治疗或对照（安慰剂或活性比较剂）。随机化最大限度地减少了选择偏倚，并平衡了组间已知和未知的混杂因素。双盲（参与者和研究者都不知道分组情况）进一步减少了测量和报告偏倚。

为什么这 ranks highly： 随机化是建立因果关系最可靠的方法。如果组间唯一的系统性差异是治疗，那么结果的差异就可以归因于治疗。

关键质量因素：

样本量和统计功效
随机化和分配隐藏的充分性
盲法（单盲、双盲或开放标签）
意向性治疗分析
预定义的初级终点
退出率和缺失数据处理
随访时间

3级：队列研究

随访人群随时间推移的观察性研究，比较暴露于某种因素（或治疗）的人群与未暴露的人群。前瞻性队列研究随访参与者；回顾性队列研究回顾历史数据。

优点： 可以研究长期结果、罕见暴露和多个结果。在 RCT 不道德或不切实际时很有用。

缺点： 由于混杂变量，无法建立因果关系。选择服用肽的人群可能与未服用的人群存在系统性差异。

4级：病例对照研究

研究人员识别有某种结果的人（病例）和没有该结果的人（对照），然后回顾性地比较暴露情况。对研究罕见疾病很有用。

缺点： 极易发生回忆偏倚和选择偏倚。无法建立因果关系。

5级：病例系列和病例报告

对个别患者或小群体患者的描述。它们可以产生假设并识别罕见的副作用，但无法建立疗效或因果关系。

6级：动物研究（体内）

在活体动物（最常见的是小鼠和大鼠）中进行的研究。这些研究提供了关于完整生物系统中的机制、毒性和药代动力学的重要信息，但结果经常无法转化为人类。大约 90% 的在动物研究中成功的药物在人体临床试验中失败。

7级：体外研究

在细胞培养、组织制备或分离的生化系统中进行的实验。对于理解分子机制很有价值，但与临床相关性最远。

8级：专家意见和机制推理

基于已知生物学或专家共识的理论论证，没有直接的经验测试。证据形式最弱，尽管有时是新化合物唯一可用的形式。

我们的四种证据等级

基于上述层级，PeptideInsight 为每个肽-适应症对分配以下四种证据等级之一（外加“数据不足”类别）。

强有力证据

标准 — 必须满足以下所有条件：

至少有两项设计良好的针对人体的 RCT，结果一致且积极
最好有至少一项系统评价或荟萃分析支持
由独立研究小组（非同一实验室）重复的结果
发表在具有既定影响因子的同行评审期刊上
具有临床意义的效应大小（不仅仅是统计学显著性）
通常至少获得 FDA、EMA 或其他主要监管机构的批准

这对读者意味着什么： 证据支持该肽对人类的特定适应症有效，并具有已知的安全参数。这并不意味着该肽没有风险或适合所有患者。

示例：

司美格鲁肽用于 2 型糖尿病和体重管理（数十项 III 期 RCT，多项荟萃分析）
替尔泊肽用于 2 型糖尿病和肥胖（SURPASS 和 SURMOUNT 试验项目）
布美兰诺泰用于绝经前女性的性欲低下障碍（RECONNECT III 期试验）
奥曲肽用于肢端肥大症和类癌综合征

中等证据

标准 — 至少满足以下条件中的两项：

一项或多项针对人体的 RCT 结果积极，但数量、样本量或范围有限
多项设计良好的针对人体的观察性研究结果一致
大量且一致的临床前数据支持合理的机制
已完成或正在进行至少 II 期临床试验
来自一个以上独立研究小组的数据

这对读者意味着什么： 有有意义的证据表明该肽可能对该适应症有效，但证据尚不确凿。需要进一步的人体试验。

示例：

BPC-157 用于组织修复（来自多个模型的广泛动物数据，非常有限的正规人体试验数据，但机制合理）
胸腺素 β-4 用于角膜伤口愈合（已完成 II 期试验）
GHK-Cu 用于皮肤再生（多项体内研究和一些人体研究）

初步证据

标准 — 至少满足以下条件中的一项：

人体早期研究（I 期、试点研究或小型病例系列）
来自多个独立研究小组的动物研究结果一致且积极
体外数据支持的强有力的机制原理，但体内验证有限
研究主要来自单一地理区域或研究小组，但方法学合理

这对读者意味着什么： 有迹象表明该肽可能具有声称的效果，但证据远非定论。动物研究结果可能无法转化为人类，早期人体数据不足以令人信服。

示例：

Semax 用于认知增强（俄罗斯临床研究，西方国家重复验证有限）
LL-37 用于伤口愈合（I/II 期数据，广泛的体外研究）
Ipamorelin 用于 GH 分泌（II 期数据，III 期数据有限）

仅临床前

标准：

证据仅限于动物研究（体内）和/或实验室研究（体外）
没有针对特定适应症已发表的人体临床试验数据
基于实验室发现推测机制，但人体转化不确定
可能只有来自一个研究小组或一种动物模型的数据

这对读者意味着什么： 该肽在实验室中显示出希望，但没有直接证据表明它对人类的特定适应症有效。从细胞培养或啮齿动物模型到人类治疗的飞跃是巨大的，在这个阶段看起来有希望的化合物大多数从未成为成功的药物。

示例：

Epithalon 用于端粒酶激活和抗衰老（主要来自 Khavinson 实验室数据）
DSIP 用于睡眠调节（动物模型，人体数据有限且不一致）
许多新颖或最近发现的肽

数据不足

已发表的研究太少，无法做出任何有意义的评估。该肽可能非常新，或者现有研究可能过于稀疏、设计不佳或相互矛盾，无法得出任何结论。

我们评估的研究设计类型

在审查肽的文献时，我们会考虑以下研究设计并相应地权衡它们：

干预性研究（实验）：

随机对照试验（平行组、交叉、析因设计）
非随机对照试验
单臂干预研究（无对照组）

观察性研究：

前瞻性队列研究
回顾性队列研究
病例对照研究
横断面研究
生态学研究

描述性研究：

病例系列
病例报告

二级研究：

系统评价（含或不含荟萃分析）
叙述性综述
伞形综述（系统评价的综述）

临床前研究：

体内动物研究（啮齿动物、灵长类动物等）
离体组织研究
体外细胞培养研究
计算机模拟研究

我们考虑的统计概念

P 值

P 值代表在假设零假设（无效应）为真的情况下，观察到结果至少与获得结果一样极端的概率。P 值为 0.05 意味着如果治疗确实没有效果，有 5% 的机会看到这样的结果。

P 值不告诉您什么：

假设为真或假的概率
效应的大小或临床重要性
结果是否会重复

我们标记那些依赖于临界 P 值（0.04–0.05）且样本量不足的研究，以及那些测试了许多结果但未对多重比较进行调整的研究。

置信区间 (CI)

95% 置信区间提供了一个真实效应可能落入的范围。较窄的区间表示更精确的估计。我们更喜欢报告置信区间的研究，而不是只报告 P 值的研究，因为 CI 同时传达了效应的大小和精确度。

关键解释规则：

如果差异的 95% CI 跨越零（或比率跨越 1.0），则结果在 0.05 水平上不具有统计学意义
宽 CI 表示估计不精确，通常是由于样本量小
两项研究都可以是“显著的”，但效应大小非常不同

治疗所需人数 (NNT)

需要治疗的患者人数，才能使一个额外患者受益。较低的 NNT 表示更有效的治疗。NNT 为 1 表示所有患者都受益；NNT 为 100 表示需要治疗 100 名患者才能使一名患者受益。我们使用 NNT 来在可用时将临床意义情境化。

Hazard Ratios (HR)

主要用于生存分析和时间-到事件研究。Hazard Ratio 为 0.5 意味着治疗组在任何给定时间点发生事件（例如，死亡、疾病进展）的速率是对照组的一半。HR 为 1.0 表示没有差异。

绝对风险降低与相对风险降低

我们密切关注研究是报告绝对风险降低还是相对风险降低，因为相对度量可能具有误导性。如果一种治疗将风险从 2% 降低到 1%，则相对风险降低为 50%（听起来令人印象深刻），但绝对风险降低仅为 1%（不太令人印象深刻）。这两个数字在技术上都是正确的，但绝对降低更好地传达了实际影响。

我们评估的偏倚类型

选择偏倚

正在比较的组之间的系统性差异。在 RCT 中，这通过适当的随机化和分配隐藏来最小化。在观察性研究中，这是一个主要问题。

发表偏倚

具有积极结果的研究比消极结果更有可能发表。这造成了一个扭曲的文献，其中治疗似乎比实际更有效。我们寻找发表偏倚的迹象，包括荟萃分析中的漏斗图不对称以及从未发表结果的已注册试验。

资助偏倚

行业资助的研究倾向于比独立资助的研究更频繁地报告有利结果。我们注意到资助来源，并评估研究设计是否可能受到商业利益的影响。

观察者/检测偏倚

组间评估结果方式的差异。通过对评估者进行分组分配的盲法来最小化。

流失偏倚

组间退出率的系统性差异。如果更多的患者退出治疗组（例如，由于副作用），则剩余的参与者可能不具代表性。

报告偏倚

选择性报告结果。一项研究可能测量了 15 个终点，但只报告了显示显著结果的 3 个。我们检查研究注册（ClinicalTrials.gov）与已发表结果的对比，以识别潜在的报告偏倚。

特殊考虑：Khavinson 肽

PeptideInsight 上讨论的几种肽——包括 Epithalon、Vilon、Thymalin 和其他短肽——主要源自圣彼得堡生物调节与老年病学研究所的 Vladimir Khavinson 教授的实验室。我们对这些化合物进行了额外的审查，因为：

大部分已发表的研究来自一个研究小组
许多研究发表在俄语期刊上，国际同行评审有限
一些声称的机制（例如，四肽直接与 DNA 相互作用）并未得到独立生物化学研究的充分支持
这些肽在俄罗斯进行商业销售，存在潜在的利益冲突
西方研究小组的独立重复验证非常有限

这并不意味着这些肽无效，而是意味着应更加谨慎地解释证据。我们在证据评估中明确指出了这种单一来源的局限性。

监管状态类别

我们还跟踪每种肽的监管状态：

FDA 批准： 该肽已获得美国食品药品监督管理局批准至少一项特定适应症
EMA 批准： 获得欧洲药品管理局批准
在其他司法管辖区获得批准： 在特定国家（例如，俄罗斯、日本、澳大利亚）获得批准，但未获得 FDA/EMA 批准
临床试验中： 目前正在注册的人体临床试验（I、II 或 III 期）中进行测试
研究性： 正在积极研究但尚未进入正式临床试验
研究化合物： 可用于实验室研究；未批准用于人体使用
已停产： 由于安全问题、缺乏疗效或商业原因而停止开发

我们如何分配和更新等级

我们的评分过程遵循以下步骤：

文献检索： 我们搜索 PubMed、Google Scholar、ClinicalTrials.gov、Cochrane Library 和 EMBASE，查找关于每个肽-适应症对的所有已发表研究
研究编目： 我们按设计、样本量、质量和资助来源编目每项相关研究
质量评估： 我们使用既定框架（RCT 的 Cochrane Risk of Bias 工具，观察性研究的 Newcastle-Ottawa Scale）评估研究质量
重复验证： 我们评估研究结果是否已被不同环境下的独立研究小组重复
一致性评估： 我们评估证据的整体是否指向同一方向或相互矛盾
等级分配： 我们根据可用证据的整体情况分配等级，对更高质量的证据给予更高的权重
同行评审： 等级在发布前由至少另一名团队成员进行审查
定期更新： 我们在重要的、新的研究发表时审查和更新等级，上次审查的日期显示在每个肽页面上

我们系统的局限性

证据等级反映了已发表研究的当前状态，并可能随着新研究的出现而变化
低证据等级并不意味着肽无效——而是意味着缺乏足够的研究来得出确切结论
对一种应用的高证据等级不适用于同一肽的其他声称用途
我们的系统无法完全考虑未发表的数据、尚未报告的正在进行的试验或我们无法访问的语言的研究
我们力求客观，但所有评分系统都包含一定程度的判断
我们的评分不能替代合格医疗保健提供者的临床决策