您的位置:首页 > 数据 >
【前沿重器】句子相似度和匹配心法利器 短讯
来源:CSDN 2023-01-13 10:51:02

【前沿重器】

本栏目主要和大家一起讨论近期自己学习的心得和体会,与大家一起成长。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。

往期回顾


(相关资料图)

心法利器[13] | 任务方案思考:句子相似度和匹配

心法利器[14] | 任务方案思考:人工特征机器学习

心法利器[15] | 准招分治效果调优方案

心法利器[16] | 向量表征和向量召回

心法利器[17] | 算法服务及其相关配件

应一些朋友之邀,想我谈谈这两个东西,那我就展开谈谈吧,和大家分享分享。

背景

搜索也好,检索式对话也好,文本是一个很难绕开的话题,虽然语义是一个重要因素,用语义相似度直接梭,但是用户的感知可不是如此,很多用户的感知更多是文本层面的相似要高于语义相似,或者说,遇到语义相似和文本相似的时候会更优先接受文本相似,毕竟文本使用户能直接看到的,当然语义相似度虽好,但是对于没有什么标注数据的情况,也是束手无策吧。

所以,即使语义相似度如火如荼地发展着,文本层面的匹配依旧是项目实践中不可避免的关注点。

cqr&ctr概念

cqr和ctr的概念还是比较清晰明确的。

给定query 和title ,现在计算cqr和ctr。

讲完了,就是这么简单,其实就是看两者交集占query的占比和占title的占比,就是对应的cqr和ctr。

当然,由于这种计算会把所有词的重要性考虑进去,例如“怎么做作业”分别和“怎样做作业”、“怎么做手机”,两个的相似度就一样了,此时就要考虑到给每个词加点权重,这样能更好地描述,这就是一个优化的实用版本,加权

给定query ,有对应的权重 和title ,以及对应权重 ,现在计算cqr和ctr:

想到可能会有人问到权重怎么来,这里我就要把我的历史文章放出来了,之前是专门讲过词权重的问题的:NLP.TM[20] | 词权重问题

这个应该就是我自己平时用的版本了,而且屡试不爽。

而如果是要分析两个句子综合、无偏的相似度,只要相乘就好了:

细品

可以看到,这个东西很简单,就是一个基于统计计算的工具,但是我依然想仔细讨论一下这个东西。

首先,有关相似度,其实我们很容易想到这个计算方法:

就是比较著名的jaccard相似度,当然还有一个更加出名的方法,那就是BM25(更为常见,此处就不赘述了)。但是我并没有选择,为什么呢,其实核心就是1个点:

jaccard距离虽然能比较综合、无偏向性地计算两者的相似度,但问题是,当query和title长度计算差距很大的时候,计算准确性就会受到影响,而分成两个指标,则能够充分表现两者的相似性,当然具体用哪种其实还是要看具体场景的,有的时候这种无偏向性对效果优化还是有用的,但是有的时候其实会影响最终效果。

来看个例子,query是“我昨天新买的手机,今天怎么就不能开机了”,title是“手机不能开机”,这里可以,ctr无疑就是1,当然cqr就比较低了,但是我们可以用ctr作为后续的排序特征或者过滤条件。

优缺点

感觉有些东西想说但是没说出来,直接总结一下这个方案的优缺点吧,以便大家进行方案选择吧,这个优点,是相对于常见的语义相似度模型而言的。

首先说优点:

能够体现文本层面的相似度,在一些领域下体验比较好。

性能比语义相似度模型好很,所以是一个简单轻快的模型。

无监督,词权重的话用语料就可以训练了。

效果稳定可追踪。

当然,还是有缺点的。

文本层面的匹配无法体现语义,同义词、说法之类的无法体现。

对切词敏感,类似“充不进去电”和“充电”就完全匹配不上。

应用

有这些有缺点,其实我们就可以考虑这个相似度该怎么用了:

用于过滤一些肯定不对的答案。

无标注数据下,这个指标可以作为排序的指标,对启动项目挺重要的。

作为排序特征,保证结果在文本层面还是比较接近的。

当然,在一个比较完整的搜索或者是检索式对话的系统里,其实这种文本相似度类的特征还是非常有收益的,结合语义相似度还是会有一些比较稳定的收益。

小结

东西其实不难,却是非常实用的技能,但是在应用的过程中能够想到的人其实很少,但有用的东西我们学起来也挺好。

关键词:
相关文章
2022年榆林市原煤产量为5.82亿吨 增长5.4%_当前热议

2022年榆林市原煤产量为5.82亿吨 增长5.4%_当前热议

  新年伊始,位于陕西省榆林市的煤炭生产企业开足马力、加紧生产,释放煤炭产能,多措并举保障煤炭运输,持续做好能源稳定保供工作。  作更多

2023-01-13 10:04:22
12月第五周云南省煤炭价格环比小幅上涨_世界快资讯

12月第五周云南省煤炭价格环比小幅上涨_世界快资讯

  据商务部重要生产资料市场监测系统显示,上周(2022年12月26日-2023年1月1日),云南省煤炭均价为15219元吨,环比上涨19%。其中,炼焦煤均更多

2023-01-13 10:05:35
12月第五周福建省煤炭市场价格稳中上涨 环球聚看点

12月第五周福建省煤炭市场价格稳中上涨 环球聚看点

  根据商务部重要生产资料监测系统监测数据显示,上周(2022年12月26日-2023年1月1日)福建省监测样本企业的煤炭市场价格平均为163856元吨,更多

2023-01-13 10:03:07
1月份第一周天津市煤炭价格环比持平|世界视点

1月份第一周天津市煤炭价格环比持平|世界视点

  据天津市市场运行监测数据显示,1月份第一周(1月2日-1月8日),天津市煤炭均价为734元吨,环比持平。上周煤炭核心驱动来自于国内疫情对生更多

2023-01-13 10:13:05
当前速看:焦煤:春节期间暂稳 后期压力渐增

当前速看:焦煤:春节期间暂稳 后期压力渐增

  临近春节,随着部分煤矿放假逐渐增多,钢厂和焦化厂焦煤补库接近尾声,叠加焦炭市场两轮降价,焦煤市场略显疲弱。因部分需求仍在,春节期更多

2023-01-13 10:17:03
山西焦化通过环保B级企业认定

山西焦化通过环保B级企业认定

  2022年以来,山西焦化多措并举推动环保工作落实落细。日前,该公司通过山西省环保厅的B级企业认定。  山西焦化成立环境监控中心,通过提更多

2023-01-13 09:07:14
平煤股份发行可转债获证监会审核通过_每日头条

平煤股份发行可转债获证监会审核通过_每日头条

  1月10日,平煤股份公告称,1月9日中国证监会第十八届发审委2023年第4次工作会议对公司公开发行可转换公司债券的申请进行了审核。根据会议更多

2023-01-13 09:01:14
12月中煤能源商品煤产量同比下降13.6% 销量下降19.2%

12月中煤能源商品煤产量同比下降13.6% 销量下降19.2%

  中煤能源1月11日发布的公告显示,2022年12月份,中煤能源商品煤产量为885万吨,同比下降136%,而上月为下降9%;环比减少33万吨,下降36%。更多

2023-01-13 09:12:54
环球快看点丨2023年山西力争煤炭产量达到13.65亿吨

环球快看点丨2023年山西力争煤炭产量达到13.65亿吨

  1月12日,山西省第十四届人民代表大会第一次会议开幕,山西省人民政府代省长金湘军作政府工作报告时讲到,2023年,山西将以制造业振兴为重更多

2023-01-13 08:57:13
解读:2022年12月份CPI同比涨幅略有扩大 PPI同比降幅有所收窄

解读:2022年12月份CPI同比涨幅略有扩大 PPI同比

  国家统计局今天发布了2022年12月份全国CPI(居民消费价格指数)和PPI(工业生产者出厂价格指数)数据。对此,国家统计局城市司首席统计师更多

2023-01-12 15:08:24