物以类聚人以群分,通过GensimLda文本聚类构建人工智能个性化推荐系统(Python3.10)

众所周知，个性化推荐系统能够根据用户的兴趣、偏好等信息向用户推荐相关内容，使得用户更感兴趣，从而提升用户体验，提高用户粘度，之前我们曾经使用协同过滤算法构建过个性化推荐系统，但基于显式反馈的算法就会有一定的局限性，本次我们使用无监督的Lda文本聚类方式来构建文本的个性化推荐系统。

推荐算法:协同过滤/Lda聚类

我们知道，协同过滤算法是一种基于用户的历史行为来推荐物品的算法。协同过滤算法利用用户之间的相似性来推荐物品，如果两个用户对某些物品的评分相似，则协同过滤算法会将这两个用户视为相似的，并向其中一个用户推荐另一个用户喜欢的物品。

说白了，它基于用户的显式反馈，什么是显式反馈？举个例子，本如本篇文章，用户看了之后，可能会点赞，也可能会疯狂点踩，或者写一些关于文本的评论，当然评论内容可能是负面、正面或者中性，所有这些用户给出的行为，都是显式反馈，但如果用户没有反馈出这些行为，就只是看了看，协同过滤算法的效果就会变差。

LDA聚类是一种文本聚类算法，它通过对文本进行主题建模来聚类文本。LDA聚类算法在聚类文本时，不考虑用户的历史行为，而是根据文本的内容和主题来聚类。

说得通俗一点，协同过滤是一种主动推荐，系统根据用户历史行为来进行内容推荐，而LDA聚类则是一种被动推荐，在用户还没有产生用户行为时，就已经开始推荐动作。

LDA聚类的主要目的是将文本分为几类，使得每类文本的主题尽可能相似。

LDA聚类算法的工作流程大致如下：

1.对文本进行预处理，去除停用词等。

2.使用LDA模型对文本进行主题建模，得到文本的主题分布。

3.将文本按照主题分布相似性进行聚类。

4.将聚类结果作为类标签，对文本进行分类。

大体上，LDA聚类算法是一种自动将文本分类的算法，它通过对文本进行主题建模，将文本按照主题相似性进行聚类，最终实现文本的分类。

Python3.10实现

实际应用层面，我们需要做的是让主题模型能够识别在文本里的主题，并且挖掘文本信息中隐式信息，并且在主题聚合、从非结构化文本中提取信息。

首先安装分词以及聚类模型库：

pip3 install jieba

pip3 install gensim

随后进行分词操作，这里以笔者的几篇文章为例子：

import jieba

import pandas as pd

import numpy as np

title1="乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。"

title2="Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现"

title3="周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)"

title4="彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07"

content = [title1,title2, title3,title4]  

#分词

content_S = []

all_words = []

for line in content:

    current_segment = [w for w in jieba.cut(line) if len(w)>1]

    for x in current_segment:

        all_words.append(x)

    if len(current_segment) > 1 and current_segment != '\r\t':

        content_S.append(current_segment)

#分词结果转为DataFrame

df_content = pd.DataFrame({'content_S':content_S})  

print(all_words)

可以看到，这里通过四篇文章标题构建分词列表，最后打印分词结果：

['乾坤', '挪移', '如何', '同步', '阻塞', 'sync', '三方', '库包', '转换', '异步', '阻塞', 'async', '模式', 'Python3.10', '实现', 'Generator', '生成器', '入门', '初基', 'Coroutine', '原生', '协程', '登峰造极', 'Python3.10', '并发', '异步', '编程', 'async', '底层', '实现', '周而复始', '往复', '循环', '递归', '递归', '算法', '无限极', '层级', '结构', '探究', '使用', 'Golang1.18', '彩虹', '女神', '长空', 'Go', '语言', '进阶', 'Go', '语言', '高性能', 'Web', '框架', 'Iris', '项目', '实战', 'JWT', '中间件', 'Middleware', '使用', 'EP07']

接着就可以针对这些词进行聚类操作，我们可以先让ChatGPT帮我们进行聚类看看结果：

可以看到，ChatGPT已经帮我们将分词结果进行聚类操作，分为两大类：Python和Golang。

严谨起见，我们可以针对分词结果进行过滤操作，过滤内容是停用词，停用词是在文本分析、自然语言处理等应用中，用来过滤掉不需要的词的。通常来说，停用词是指在英文中的介词、代词、连接词等常用词，在中文中的助词、介词、连词等常用词：

———

》），

）÷（１－

”，

）、

＝（

:

→

℃

&

*

一一

~~~~

’

.

『

.一

./

--

』

＝″

【

［＊］

｝＞

［⑤］］

［①Ｄ］

ｃ］

ｎｇ昉

＊

//

［

］

［②ｅ］

［②ｇ］

＝｛

}

，也

‘

Ａ

［①⑥］

［②Ｂ］

［①ａ］

［④ａ］

［①③］

［③ｈ］

③］

１．

－－

［②ｂ］

’‘

×××

［①⑧］

０：２

＝［

［⑤ｂ］

［②ｃ］

［④ｂ］

［②③］

［③ａ］

［④ｃ］

［①⑤］

［①⑦］

［①ｇ］

∈［

［①⑨］

［①④］

［①ｃ］

［②ｆ］

［②⑧］

［②①］

［①Ｃ］

［③ｃ］

［③ｇ］

［②⑤］

［②②］

一.

［①ｈ］

.数

［］

［①Ｂ］

数/

［①ｉ］

［③ｅ］

［①①］

［④ｄ］

［④ｅ］

［③ｂ］

［⑤ａ］

［①Ａ］

［②⑧］

［②⑦］

［①ｄ］

［②ｊ］

〕〔

］［

://

′∈

［②④

［⑤ｅ］

１２％

ｂ］

...

...................

…………………………………………………③

ＺＸＦＩＴＬ

［③Ｆ］

」

［①ｏ］

］∧′＝［

∪φ∈

′｜

｛－

②ｃ

｝

［③①］

Ｒ．Ｌ．

［①Ｅ］

Ψ

－［＊］－

↑

.日

［②ｄ］

［②

［②⑦］

［②②］

［③ｅ］

［①ｉ］

［①Ｂ］

［①ｈ］

［①ｄ］

［①ｇ］

［①②］

［②ａ］

ｆ］

［⑩］

ａ］

［①ｅ］

［②ｈ］

［②⑥］

［③ｄ］

［②⑩］

ｅ］

〉

】

元／吨

［②⑩］

２．３％

５：０

［①］

::

［②］

［③］

［④］

［⑤］

［⑥］

［⑦］

［⑧］

［⑨］

……

——

?

、

。

“

”

《

》

！

，

：

；

？

．

,

．

'

?

·

———

──

?

—

<

>

（

）

〔

〕

[

]

(

)

-

+

～

×

／

/

①

②

③

④

⑤

⑥

⑦

⑧

⑨

⑩

Ⅲ

В

"

;

#

@

γ

μ

φ

φ．

×

Δ

■

▲

sub

exp

sup

sub

Lex

＃

％

＆

＇

＋

＋ξ

＋＋

－

－β

＜

＜±

＜Δ

＜λ

＜φ

＜＜

=

＝

＝☆

＝－

＞

＞λ

＿

～±

～＋

［⑤ｆ］

［⑤ｄ］

［②ｉ］

≈

［②Ｇ］

［①ｆ］

ＬＩ

㈧

［－

......

〉

［③⑩］

第二

一番

一直

一个

一些

许多

种

有的是

也就是说

末##末

啊

阿

哎

哎呀

哎哟

唉

俺

俺们

按

按照

吧

吧哒

把

罢了

被

本

本着

比

比方

比如

鄙人

彼

彼此

边

别

别的

别说

并

并且

不比

不成

不单

不但

不独

不管

不光

不过

不仅

不拘

不论

不怕

不然

不如

不特

不惟

不问

不只

朝

朝着

趁

趁着

乘

冲

除

除此之外

除非

除了

此

此间

此外

从

从而

打

待

但

但是

当

当着

到

得

的

的话

等

等等

地

第

叮咚

对

对于

多

多少

而

而况

而且

而是

而外

而言

而已

尔后

反过来

反过来说

反之

非但

非徒

否则

嘎

嘎登

该

赶

个

各

各个

各位

各种

各自

给

根据

跟

故

故此

固然

关于

管

归

果然

果真

过

哈

哈哈

呵

和

何

何处

何况

何时

嘿

哼

哼唷

呼哧

乎

哗

还是

还有

换句话说

换言之

或

或是

或者

极了

及

及其

及至

即

即便

即或

即令

即若

即使

几

几时

己

既

既然

既是

继而

加之

假如

假若

假使

鉴于

将

较

较之

叫

接着

结果

借

紧接着

进而

尽

尽管

经

经过

就

就是

就是说

据

具体地说

具体说来

开始

开外

靠

咳

可

可见

可是

可以

况且

啦

来

来着

离

例如

哩

连

连同

两者

了

临

另

另外

另一方面

论

嘛

吗

慢说

漫说

冒

么

每

每当

们

莫若

某

某个

某些

拿

哪

哪边

哪儿

哪个

哪里

哪年

哪怕

哪天

哪些

哪样

那

那边

那儿

那个

那会儿

那里

那么

那么些

那么样

那时

那些

那样

乃

乃至

呢

能

你

你们

您

宁

宁可

宁肯

宁愿

哦

呕

啪达

旁人

呸

凭

凭借

其

其次

其二

其他

其它

其一

其余

其中

起

起见

起见

岂但

恰恰相反

前后

前者

且

然而

然后

然则

让

人家

任

任何

任凭

如

如此

如果

如何

如其

如若

如上所述

若

若非

若是

啥

上下

尚且

设若

设使

甚而

甚么

甚至

省得

时候

什么

什么样

使得

是

是的

首先

谁

谁知

顺

顺着

似的

虽

虽然

虽说

虽则

随

随着

所

所以

他

他们

他人

它

它们

她

她们

倘

倘或

倘然

倘若

倘使

腾

替

通过

同

同时

哇

万一

往

望

为

为何

为了

为什么

为着

喂

嗡嗡

我

我们

呜

呜呼

乌乎

无论

无宁

毋宁

嘻

吓

相对而言

像

向

向着

嘘

呀

焉

沿

沿着

要

要不

要不然

要不是

要么

要是

也

也罢

也好

一

一般

一旦

一方面

一来

一切

一样

一则

依

依照

矣

以

以便

以及

以免

以至

以至于

以致

抑或

因

因此

因而

因为

哟

用

由

由此可见

由于

有

有的

有关

有些

又

于

于是

于是乎

与

与此同时

与否

与其

越是

云云

哉

再说

再者

在

在下

咱

咱们

则

怎

怎么

怎么办

怎么样

怎样

咋

照

照着

者

这

这边

这儿

这个

这会儿

这就是说

这里

这么

这么点儿

这么些

这么样

这时

这些

这样

正如

吱

之

之类

之所以

之一

只是

只限

只要

只有

至

至于

诸位

着

着呢

自

自从

自个儿

自各儿

自己

自家

自身

综上所述

总的来看

总的来说

总的说来

总而言之

总之

纵

纵令

纵然

纵使

遵照

作为

兮

呃

呗

咚

咦

喏

啐

喔唷

嗬

嗯

嗳

这里使用哈工大的停用词列表。

首先加载停用词列表，然后进行过滤操作：

#去除停用词

def drop_stopwords(contents,stopwords):

    contents_clean = []

    all_words = []

    for line in contents:

        line_clean = []

        for word in line:

            if word in stopwords:

                continue

            line_clean.append(word)

            all_words.append(word)

        contents_clean.append(line_clean)

    return contents_clean,all_words  

#停用词加载

stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)

contents = df_content.content_S.values.tolist()  

contents_clean,all_words = drop_stopwords(contents,stopwords)

接着交给Gensim进行聚类操作：



from gensim import corpora,models,similarities

import gensim

dictionary = corpora.Dictionary(contents_clean)

corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=2,random_state=3)  

#print(lda.print_topics(num_topics=2, num_words=4))  

for e, values in enumerate(lda.inference(corpus)[0]):

    print(content[e])

    for ee, value in enumerate(values):

        print('\t分类%d推断值%.2f' % (ee, value))

这里使用LdaModel模型进行训练，分类设置(num_topics)为2种，随机种子(random_state)为3，在训练机器学习模型时，很多模型的训练过程都会涉及到随机数的生成，例如随机梯度下降法（SGD）就是一种随机梯度下降的优化算法。在训练过程中，如果不设置random_state参数，则每次训练结果可能都不同。而设置random_state参数后，每次训练结果都会相同，这就方便了我们在调参时对比模型的效果。如果想要让每次训练的结果都随机，可以将random_state参数设置为None。

程序返回：

[['乾坤', '挪移', '同步', '阻塞', 'sync', '三方', '库包', '转换', '异步', '阻塞', 'async', '模式', 'Python3.10', '实现'], ['Generator', '生成器', '入门', '初基', 'Coroutine', '原生', '协程', '登峰造极', 'Python3.10', '并发', '异步', '编程', 'async', '底层', '实现'], ['周而复始', '往复', '循环', '递归', '递归', '算法', '无限极', '层级', '结构', '探究', '使用', 'Golang1.18'], ['彩虹', '女神', '长空', 'Go', '语言', '进阶', 'Go', '语言', '高性能', 'Web', '框架', 'Iris', '项目', '实战', 'JWT', '中间件', 'Middleware', '使用', 'EP07']]

乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。

        分类0推断值0.57

        分类1推断值14.43

Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现

        分类0推断值0.58

        分类1推断值15.42

周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)

        分类0推断值12.38

        分类1推断值0.62

彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07

        分类0推断值19.19

        分类1推断值0.81

可以看到，结果和ChatGPT聚类结果一致，前两篇为一种分类，后两篇为另外一种分类。

随后可以将聚类结果保存为模型文件：

lda.save('mymodel.model')

以后有新的文章发布，直接对新的文章进行分类推测即可：

from gensim.models import  ldamodel

import pandas as pd

import jieba

from gensim import corpora  

doc0="巧如范金,精比琢玉,一分钟高效打造精美详实的Go语言技术简历(Golang1.18)"

# 加载模型

lda = ldamodel.LdaModel.load('mymodel.model')  

content = [doc0]  

#分词

content_S = []

for line in content:

    current_segment = [w for w in jieba.cut(line) if len(w)>1]

    if len(current_segment) > 1 and current_segment != '\r\t':

        content_S.append(current_segment)

#分词结果转为DataFrame

df_content = pd.DataFrame({'content_S':content_S})  

#去除停用词

def drop_stopwords(contents,stopwords):

    contents_clean = []

    all_words = []

    for line in contents:

        line_clean = []

        for word in line:

            if word in stopwords:

                continue

            line_clean.append(word)

            all_words.append(word)

        contents_clean.append(line_clean)

    return contents_clean,all_words  

#停用词加载

stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)

contents = df_content.content_S.values.tolist()  

contents_clean,all_words = drop_stopwords(contents,stopwords)  

dictionary = corpora.Dictionary(contents_clean)  

word = [w for w in jieba.cut(doc0)]  

bow = dictionary.doc2bow(word)

print(lda.get_document_topics(bow))

程序返回：

➜  nlp_chinese /opt/homebrew/bin/python3.10 "/Users/liuyue/wodfan/work/nlp_chinese/new_text.py"

Building prefix dict from the default dictionary ...

Loading model from cache /var/folders/5x/gpftd0654bv7zvzyv39449rc0000gp/T/jieba.cache

Loading model cost 0.264 seconds.

Prefix dict has been built successfully.

[(0, 0.038379338), (1, 0.9616206)]

这里显示文章推断结果为分类2，也就是Golang类型的文章。

完整调用逻辑：

import jieba

import pandas as pd

import numpy as np

from gensim.models import  ldamodel

from gensim import corpora,models,similarities

import gensim  

class LdaRec:  

    def __init__(self,cotent:list) -> None:  

        self.content = content

        self.contents_clean = []

        self.lda = None  

    def test_text(self,content:str):  

        self.lda = ldamodel.LdaModel.load('mymodel.model')

        self.content = [content]  

        #分词

        content_S = []

        for line in self.content:

            current_segment = [w for w in jieba.cut(line) if len(w)>1]

            if len(current_segment) > 1 and current_segment != '\r\t':

                content_S.append(current_segment)

        #分词结果转为DataFrame

        df_content = pd.DataFrame({'content_S':content_S})  

        contents = df_content.content_S.values.tolist()  

        dictionary = corpora.Dictionary(contents)  

        word = [w for w in jieba.cut(content)]  

        bow = dictionary.doc2bow(word)

        print(self.lda.get_document_topics(bow))  

    # 训练

    def train(self,num_topics=2,random_state=3):  

        dictionary = corpora.Dictionary(self.contents_clean)

        corpus = [dictionary.doc2bow(sentence) for sentence in self.contents_clean]

        self.lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=num_topics,random_state=random_state)  

        for e, values in enumerate(self.lda.inference(corpus)[0]):

            print(self.content[e])

            for ee, value in enumerate(values):

                print('\t分类%d推断值%.2f' % (ee, value))  

    # 过滤停用词

    def drop_stopwords(self,contents,stopwords):

        contents_clean = []

        for line in contents:

            line_clean = []

            for word in line:

                if word in stopwords:

                    continue

                line_clean.append(word)

            contents_clean.append(line_clean)

        return contents_clean  

    def cut_word(self) -> list:

        #分词

        content_S = []

        for line in self.content:

            current_segment = [w for w in jieba.cut(line) if len(w)>1]

            if len(current_segment) > 1 and current_segment != '\r\t':

                content_S.append(current_segment)  

        #分词结果转为DataFrame

        df_content = pd.DataFrame({'content_S':content_S})  

        # 停用词列表

        stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)  

        contents = df_content.content_S.values.tolist()

        stopwords = stopwords.stopword.values.tolist()  

        self.contents_clean = self.drop_stopwords(contents,stopwords)  

if __name__ == '__main__':  

    title1="乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。"

    title2="Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现"

    title3="周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)"

    title4="彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07"

    content = [title1,title2, title3,title4]  

    lr = LdaRec(content)  

    lr.cut_word()  

    lr.train()  

    lr.lda.save('mymodel.model')  

    lr.test_text("巧如范金,精比琢玉,一分钟高效打造精美详实的Go语言技术简历(Golang1.18)")

至此，基于聚类的推荐系统构建完毕，每一篇文章只需要通过既有分类模型进行训练，推断分类之后，给用户推送同一分类下的文章即可，截止本文发布，该分类模型已经在本站进行落地实践：

结语

金无足赤，LDA聚类算法也不是万能的，LDA聚类算法有许多超参数，包括主题个数、学习率、迭代次数等，这些参数的设置对结果有很大影响，但是很难确定最优参数，同时聚类算法的时间复杂度是O(n^2)级别的，在处理大规模文本数据时，计算速度较慢，反之，在样本数据较少的情况下，模型的泛化能力较差。最后，奉上项目地址，与君共觞：https://github.com/zcxey2911/Lda-Gensim-Recommended-System-Python310