SparkNLP简单样例(MRS-offline)

举报
剑指南天 发表于 2021/09/11 16:20:50 2021/09/11
【摘要】 一个基于pySpark的简单nlp离线运行样例

前期准备:

  1. 创建MRS2.1.0非安全集群

  2. 样例代码
    在提交任务的节点(比如master1),代码文件路径为/opt/Bigdata/program
    spark_nlp_demo.py代码如下:
    from pyspark.sql import SparkSession
    from pyspark.sql import Row
    conf=SparkConf().setAppName(“Bird”)
    sc = SparkContext.getOrCreate(conf)
    spark = SparkSession(sc)
    sparknlp.start()
    finisher = Finisher().setInputCols([“token”, “lemmas”, “pos”])
    loadedDocumentPipeline = PipelineModel.load(‘hdfs:///sparknlp/explain_document_ml_en_2.4.0_2.4_1580252705962/’)
    pipeline = Pipeline()
    .setStages([
    loadedDocumentPipeline,
    finisher
    ])
    sentences = [
    [‘Hello, this is an example sentence’],
    [‘And this is a second sentence.’]
    ]
    data = spark.createDataFrame(sentences).toDF(“text”)
    model = pipeline.fit(data)
    annotations_finished_df = model.transform(data)
    annotations_finished_df.select(‘finished_token’).show(truncate=False)
    a=np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])
    da=sc.parallelize(a)
    rep=da.repartition(3)
    reduce=rep.reduce(lambda a,b : a+b)
    print(reduce)
    sc.stop()

  3. 将模型文件上传到"hdfs://sparknlp/"目录下

方案:

  1. 依赖包上传
    1.1 将sparknlp.zip上传到”hdfs://sparknlp/”目录下,sparknlp.zip使用下面链接中的 sparknlp.zip
    https://bbs.huaweicloud.com/blogs/300155
    1.2 从上面文件下载spark-nlp-spark23-assembly-3.0.3.jar,放置在/opt/Bigdata/program路径下
  2. 使用cluster模式运行测试
    /opt/client/Spark/spark/bin/spark-submit --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=./sparknlp.zip/sparknlp/bin/python --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./sparknlp.zip/sparknlp/bin/python --master yarn-cluster --archives hdfs:///sparknlp/sparknlp.zip --jars /opt/Bigdata/program/spark-nlp-spark23-assembly-3.0.3.jar /opt/Bigdata/program/spark_nlp_demo.py
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200