因为论文关系要用到pyspark,具体情形如下: 有一个list=['aaa','bbb','ccc','ddd'],然后有一个rdd内数据类型是str,eg:'abcdefg',正常如果是需要筛选数组包含的rdd数据可以定义一个broadcast,然后写成: broadcastvalue = sc.broadcast(list) rdd.filter(lambda x:x in broadcastvalue.value).collect() 我的需求是要筛选str中包含有list中任意一个数据…