- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

SparkNLP简单样例(MRS-offline)

举报

剑指南天发表于 2021/09/11 16:20:50 2021/09/11

【摘要】一个基于pySpark的简单nlp离线运行样例

前期准备:

创建MRS2.1.0非安全集群
样例代码
在提交任务的节点（比如master1）,代码文件路径为/opt/Bigdata/program
spark_nlp_demo.py代码如下:
from pyspark.sql import SparkSession
from pyspark.sql import Row
conf=SparkConf().setAppName(“Bird”)
sc = SparkContext.getOrCreate(conf)
spark = SparkSession(sc)
sparknlp.start()
finisher = Finisher().setInputCols([“token”, “lemmas”, “pos”])
loadedDocumentPipeline = PipelineModel.load(‘hdfs:///sparknlp/explain_document_ml_en_2.4.0_2.4_1580252705962/’)
pipeline = Pipeline()
.setStages([
loadedDocumentPipeline,
finisher
])
sentences = [
[‘Hello, this is an example sentence’],
[‘And this is a second sentence.’]
]
data = spark.createDataFrame(sentences).toDF(“text”)
model = pipeline.fit(data)
annotations_finished_df = model.transform(data)
annotations_finished_df.select(‘finished_token’).show(truncate=False)
a=np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])
da=sc.parallelize(a)
rep=da.repartition(3)
reduce=rep.reduce(lambda a,b : a+b)
print(reduce)
sc.stop()
将模型文件上传到"hdfs://sparknlp/"目录下

方案:

依赖包上传
1.1 将sparknlp.zip上传到”hdfs://sparknlp/”目录下,sparknlp.zip使用下面链接中的 sparknlp.zip
https://bbs.huaweicloud.com/blogs/300155
1.2 从上面文件下载spark-nlp-spark23-assembly-3.0.3.jar,放置在/opt/Bigdata/program路径下
使用cluster模式运行测试
/opt/client/Spark/spark/bin/spark-submit --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=./sparknlp.zip/sparknlp/bin/python --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./sparknlp.zip/sparknlp/bin/python --master yarn-cluster --archives hdfs:///sparknlp/sparknlp.zip --jars /opt/Bigdata/program/spark-nlp-spark23-assembly-3.0.3.jar /opt/Bigdata/program/spark_nlp_demo.py

【版权声明】本文为华为云社区用户原创内容，未经允许不得转载，如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

评论（0）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长