权威评测显示:智慧芽AIAgent查新检索能力远超通用大模型

经济频道 昨天19:53

8月21日,AI驱动的科技创新和知识产权信息服务商智慧芽发表最新研究成果《一项研究:AI工具的查新检索基准测试》。该研究针对真实专利工作场景下的查新检索任务设计“PatentBench-查新检索”评测基准,并对智慧芽“查新检索AI Agent”、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具开展了查新检索能力的基准测试

评测结果显示,智慧芽"查新检索AI Agent"在核心评估指标上显著优于ChatGPT-o3、DeepSeek-R1(两者皆为联网搜索版)为代表的通用AI工具,X检出率和X召回率分别达到76%和32%,是通用AI工具的2-3倍。

“过去一段时间里,智慧芽在专利和研发场景推出了几十款AI Agents工具,但大家都会问:如何验证评估不同工具在专利查新检索中的效率和能力?”智慧芽创始人兼CEO张济徽表示,今天公布的测试结果给出了关于AI工具专业能力的科学答案。我们期待让大家更加客观、直观地看到专业AI工具如何帮助企业在知识产权工作中实现降本增效。

此次评测基于跨受理局并行审查的国际同族专利构建了高质量评测数据集。通过自研的权利要求一致性比对模型进行语义对齐与技术相似度评估,消除语言表述差异带来的影响,确保测试的客观性和准确性。评测以各受理局审查员在判断新颖性与创造性时实际引用的关键X、Y类对比文献作为评测的“基准答案”,经过去重与标引规范化整合,形成一致且可复用的参考标准。本次评测精选了89个满足严格要求的测试样本,其中38.2%为中文文本,61.8%为英文文本,在IPC分类号上实现均匀分布,真实模拟现实中的查新检索场景。

图:89个测试样本的专利文本语言、IPC分类号分布情况

在评估指标方面,本次评测采用“X检出率”和“X查全率”两大核心指标。“X检出率”用以衡量AI工具能否检索到X文献的能力,其在专利审查阶段尤为关键,审查员只需要找到少量X文献即可快速判定某件专利申请是否缺乏“新创性”。在针对每个样本的测试中,在TopK返回结果中,命中了“X文献全集”中的任一X文献,则记为“1”,未命中记为“0”,命中了X文献的测试样本数量的比例即为“X检出率”。

图:“PatentBench-查新检索”的“X检出率”计算公式

“X查全率”旨在衡量AI工具能否检索到尽可能多的X文献的能力,其在研发立项阶段和专利申请前阶段至关重要,无论是企业研发人员、专利人员还是外部专利代理师,都需要尽可能全面地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。在整个测试数据集中,Top100返回结果中命中的X文献数量占所有测试样本中的X文献总数量的比例,即为“X查全率”。

图:“PatentBench-查新检索”的“X查全率”计算公式

研究显示,智慧芽查新检索AI Agent的“X检出率”高达76%,是另外两款通用AI工具的2倍以上,ChatGPT-o3(联网搜索版)为32%、DeepSeek-R1(联网搜索版)为9%。这意味着,所有89个测试样本中,智慧芽在其中四分之三的测试样本中都找到了至少1个X文献。

基于上述优势,对于在企业或专利代理机构从事专利申请相关工作的知识产权专业人士来说,智慧芽查新检索AI Agent是一款能在保持准确性的同时成倍提高新颖性检索效率的工具。通过在几分钟内完成传统需要数小时的搜索、筛选和排序工作,专业人士可以将精力集中在更高价值的分析和决策上,实现从“3天重复性检索工作”到“3小时高质量分析工作”的效率跃升。

此外,对于正在进行项目预研立项的企业研发团队而言,“查新检索AI Agent”可能是一个革命性的解决方案,通过在早期阶段进行高效的查新检索,从而显著降低缺乏新颖性的风险,并最大限度地减少研发资源的潜在浪费,为研发工作流带来巨大的转变。

责任编辑:任磊磊

AI小壹

我是齐鲁晚报的AI机器人小壹,快来向我报料新闻线索吧~

微信扫码进入小程序 微信扫码
进入小程序
我要报料

热门评论 我要评论 微信扫码
移动端评论

暂无评论

微信扫码
移动端评论