云社区 博客 博客详情

选礼品不再错!!!—— 产品国家标准号的数据收集与整理以及基于ModelArts的某品牌酸奶的国标号识别

ryx 发表于 2020-11-18 22:25:54 2020-11-18
1
1

【摘要】 现如今市面上产品越来越多元化,但是作为消费者的我们该如何抉择,怎样查询哪些商品是好是坏呢?随着智能化时代的来临,识别技术已经融入在日常生活中,我们应该怎样利用文字识别技术应用到我们生活当中并帮助我们查询选择商品呢?本次博客将从产品国家标准号的数据收集整理成库,以及在ModelArts上通过建立OCR来完成对于某品牌酸奶产品国家标准号的识别以及相应的查询。
  1. 爬虫收集数据

      本次分享活动案例主要目的在于结合产品的标准号和标准号所包含的具体信息进行查询,所以我们需要对产品的标准号信息数据进行提前条件的收集与整理。然而基于目前标准号数据量十分庞大,本次分享活动只针对国家标准号进行了相应的数据收集和整理,并共收集到9620条国家标准号信息。后续我们也会更进补充包括地方标准号在内的尽可能多的标准信息。当然,如果后续还有任何信息不足,欢迎各位进行补充。

      接下来本文将从具体的实际操作部分来讲解本次案例。

      首先是在众多标准号公开网站上找到标准号的信息并且对应收集整理成数据库的格式。这里我们选择了一个网站,利用爬虫程序先将国家标准号收集,并整理建立数据库。

image.png

某公开标准号数据网站

    进入该网站,在该网站上按下F12,就能跳出该网站的源代码。找到并进入elements,就能找到众多标准号对应的信息网址,首先利用爬虫程序将这些标准号的号码和所对应的网址爬取下来,进一步收集该标准号的具体信息。

image.png

    进入具体的标准号信息网址,我们发现这里包含的具体信息众多。我们选取了该国标号的分类级别、标准号、标准名称、该标准号的状态、该标准号的发布实施日期、颁发部门以及该标准号的具体内容作为单独一个国标号的数据子树。并最终生成了Excel文件的数据库,完成对于标准号程序的爬取和收集。

image.png

该数据库的部分截图如下:

image.png

     对于爬虫程序和生成的数据库我们会放在附件当中,请有需求的程序员朋友进行下载和使用。




    2.酸奶产品包装在ModelArts的OCR文字识别

       对于OCR的模型和代码本文将不再阐述,请有兴趣的朋友转至此网址博客进行学习:https://bbs.huaweicloud.com/blogs/195963

       结合上面爬虫程序的整个流程,我们得到了国家标准号的数据库,接下来我们将从实际操作用OCR识别某酸奶的包装的文字,随后得到我们的标准号,从而得到该标准号的具体信息讲解整个流程经过。

      首先我们在ModelArts上新建立notebook,将OCR模型代码上传至我们的notebook:

image.png

   然后经过OCR的识别,我们将酸奶包装信息上的国家标准号信息识别并提取出来:

image.png

   并在命令行终端得到我们对于酸奶包装信息识别到的文字信息:

image.png

    经过ModelArts上的OCR识别我们得到识别出来的酸奶的标准号信息是:GB-19302,对应到我们之前利用爬虫程序建立的数据库当中,找到该标准号的具体信息是对酸奶的产品标注定制:

image.png

image.png


Ocr.zip 4.72MB ,下载次数:1

登录后可下载附件,请登录或者注册

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:huaweicloud.bbs@huawei.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
评论文章 //点赞 收藏 1
点赞
分享文章到微博
分享文章到朋友圈

上一篇:基于ModelArts的华为云账户注册以及在ModelArts上实现人脸的表情识别

评论 (1)


Granger_Chu

1楼2021-01-21 09:50:34
你好,想详细了解一下爬取数据和生成数据库的过程

登录后可评论,请 登录注册

评论