- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

情感分析之文本句内的“机械压缩”去重！

数据分析与统计学之美发表于 2021/09/29 10:43:46 2021/09/29

【摘要】在做情感分析的时候，有时候需要对文本进行分词，做词频统计。上图是某个店铺的留言数据，对于第26条，只是为了说明“东西很好，很好用!”，但是为了凑字数留言，就写成了如图所示。但是我们在进行词频统计的时候，只统计“东西很好，很好用!”一次就够了，因此，就需要用到“数据的句内去重”。

1、原理说明

1）为什么要进行数据的句内去重？

在做情感分析的时候，有时候需要对文本进行分词，做词频统计。上图是某个店铺的留言数据，对于第26条，只是为了说明“东西很好，很好用!”，但是为了凑字数留言，就写成了如图所示。但是我们在进行词频统计的时候，只统计“东西很好，很好用!”一次就够了，因此，就需要用到“数据的句内去重”。

2）以“单字词”为例，进行原理说明

3）原理说明

通过上图可以发现，进行词语句内去重，首先判断位置j到j+1位置的元素是否相等，如果相等，再判断j+1处的元素和j+2处的元素是否相等，这样依次进行下去。
由于原理不好用语言，进行详细叙述，因此你可以好好琢磨一下下面的代码。对于不懂的地方，可以在博客中留言说明。

2、“单字词”句内去重

st = "我很是好好好好好好呀"

for j in range(len(st)):
    if st[j:j+1] == st[j+1:j+2]:
        k = j + 1
        while st[k:k+1] == st[k+1:k+2] and k<len(st):  # k<len(st)是为了退出这个while循环，否则一直循环 
            k = k + 1
        st = st[:j] + st[k:]
        
st

结果如下：

3、“双字词”句内去重

st = "今天天气天气天气天气好哦"

for j in range(len(st)):
    if st[j:j+2] == st[j+2:j+4]:
        k = j + 2
        while st[k:k+2] == st[k+2:k+4] and k<len(st):   
            k = k + 2
        st = st[:j] + st[k:]
        
st

结果如下：

4、“三字词”句内去重

st = "我天气好天气好天气好哈"

for j in range(len(st)):
    if st[j:j+3] == st[j+3:j+6]:
        k = j + 3
        while st[k:k+3] == st[k+3:k+6] and k<len(st):   
            k = k + 3
        st = st[:j] + st[k:]
        
st

结果如下：

5、将上述情况，封装成函数

def func(st):
    for i in range(1,int(len(st)/2)+1):
        for j in range(len(st)):
            if st[j:j+i] == st[j+i:j+2*i]:
                k = j + i
                while st[k:k+i] == st[k+i:k+2*i] and k<len(st):   
                    k = k + i
                st = st[:j] + st[k:]    
    return st
    
st = "我爱你我爱你我爱你好你好你好哈哈哈哈哈"
func(st)

结果如下：

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

情感分析之文本句内的“机械压缩”去重！

目录

1、原理说明

1）为什么要进行数据的句内去重？

2）以“单字词”为例，进行原理说明

3）原理说明

2、“单字词”句内去重

3、“双字词”句内去重

4、“三字词”句内去重

5、将上述情况，封装成函数

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

情感分析之文本句内的“机械压缩”去重！

目录

1、原理说明

1）为什么要进行数据的句内去重？

2）以“单字词”为例，进行原理说明

3）原理说明

2、“单字词”句内去重

3、“双字词”句内去重

4、“三字词”句内去重

5、将上述情况，封装成函数

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品