NLP相关知识点学习

举报
AI Medicine 发表于 2022/03/31 11:20:19 2022/03/31
【摘要】 总结NLP学习及应用过程中遇到的一些问题

Bert原理

  • Bert的两个预训练任务
  • 遮掩机制,优缺点,MLM,
    • WordPiece; Bpe-英文
    • Wwm - 中文
  • 做mask的时候为什么有不同的mask形式?目的是什么?
  • 10%做的改变,目的是什么?xlnet论文等
  • NSP的优缺点,一些改进。为什么做,优缺点,以及改进,怎么做的。
    • 做法:需要确保isNext与notNext的数据条目分别占50%;NSP使用的是[CLS] 作为输入的2个句子的代表,输入到前馈网络与softmax中,对结果进行预测。
    • 优点:能够理解两个句子之间的关系,学习到全句信息;辅助下游任务。
  • Bert的位置编码,具体怎么操作的,怎么坐的位置编码?计算流程?
    • embedding在整个训练过程中是否会进行微调?
    • 与transfer位置编码的异同,transformer用了三角函数等sin/cos
  • bert的token embedding怎么做到的,那些词为什么要拆开?
    • 找到一个最小的语义单元,这个是比较高频的,
    • 用到的子词算法是什么?


预训练模型

  • 基于语料的预训练,自己预训练的时候的改进和创新点?
  • 如何把实体东西放进去?
  • 与bert做过性能上的对比吗?
  • 你们有自己做预训练吗?怎么做tokennizer的?
  • 怎么做token embedding的。
  • Sequence to sequence的
  • CNN, RNN,lstm transformer之间的区别。
  • 各自的原理及他们的优缺点。
  • 从不同维度去对比。(信息传递的角度,时间复杂度,空间复杂度)
  • Transformer的公式。
  • 公式的意义及符号的意义。

方法对比

  • Bert和transformer的区别。
  • (一个是一训练任务,一个是模型框架。等)
  • transformer解释
  • xlnet论文等
  • berttextCNN等,LAATRNN
  • 预训练的bert(原理等)
  • bert cnn等的区别
  • BERT,GPT-2,RoBERTa,XLM,DistilBert,XLNet

知识图谱EE/IE

  • casrel还不能达到落地的程度
  • deepkg怎么做的?
  • 评估指标是什么?
  • 实体对齐怎么做的?实体相似性计算?
  • 如何和知识图谱结合的?提升多少?
  • 如何构建的图谱?用的方法有哪些?
  • 图谱的应用有哪些?
  • 图谱框架有哪些?
  • 遇到了什么问题?
  • 文本抽取怎么做的?用了哪些方法?具体的方法(bert+crfcasreljoint model, pipeline model)
  • 实体抽取的方法?
  • 文本生成怎么做的?
  • 远程监督


Bert和图谱

  • bert如何和知识图谱embedding结合
  • 如何解决两个向量空间?
  • 知识图谱的embedding如何学习的?
  • transe和transh,这种基于平移的方法,
  • 向量空间的语义向量。


一些实际应用问题

  • 疾病诊断的模型怎么做的?(输入输出,数据量多少?多少类疾病?)
  • 电子病历的,数据特点等,分析方法?
  • 如何构建的图谱,怎么标的数据?实体识别相关?是否做了关系预测?关系分类等。
  • 数据是什么样的,几种?学习目标是什么?graph是什么概念?图怎么定义的?实际案例是什么样子?是否和常规方法对比?
  • 案例中具体的样本数量是多少?实际的病历数据?
  • 电子病历
    1. 如何建立病历图?节点是什么?(变量或者病人)
    2. 缺失的attribute,如何处理?
    3. 临床数据很乱,表述不同,抽提出的实体比较乱,如何处理?
    4. 抽取出来以后,干什么?
  • 研究中遇到什么样的问题?
  • 准确率多少?如何评估的?
  • 为什么不同医院之间有指标的区别?

 

文献知识图谱

  • 设计的方案?schema?
  • 三元组抽提用的什么模型?
  • 评估指标是什么?
  • 实体对齐怎么做的?实体相似性计算?、
  • 如何和知识图谱结合的?提升多少?
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。