NLP相关知识点学习
【摘要】 总结NLP学习及应用过程中遇到的一些问题
Bert原理
- Bert的两个预训练任务
- 遮掩机制,优缺点,MLM,
- WordPiece; Bpe?-英文
- Wwm - 中文
- 做mask的时候为什么有不同的mask形式?目的是什么?
- 10%做的改变,目的是什么?xlnet论文等
- NSP的优缺点,一些改进。为什么做,优缺点,以及改进,怎么做的。
- 做法:需要确保isNext与notNext的数据条目分别占50%;NSP使用的是[CLS] 作为输入的2个句子的代表,输入到前馈网络与softmax中,对结果进行预测。
- 优点:能够理解两个句子之间的关系,学习到全句信息;辅助下游任务。
- Bert的位置编码,具体怎么操作的,怎么坐的位置编码?计算流程?
- embedding在整个训练过程中是否会进行微调?
- 与transfer位置编码的异同,transformer用了三角函数等sin/cos
- bert的token embedding怎么做到的,那些词为什么要拆开?
- 找到一个最小的语义单元,这个是比较高频的,
- 用到的子词算法是什么?
预训练模型
- 基于语料的预训练,自己预训练的时候的改进和创新点?
- 如何把实体东西放进去?
- 与bert做过性能上的对比吗?
- 你们有自己做预训练吗?怎么做tokennizer的?
- 怎么做token embedding的。
- Sequence to sequence的
- CNN, RNN,lstm transformer之间的区别。
- 各自的原理及他们的优缺点。
- 从不同维度去对比。(信息传递的角度,时间复杂度,空间复杂度)
- Transformer的公式。
- 公式的意义及符号的意义。
方法对比
- Bert和transformer的区别。
- (一个是一训练任务,一个是模型框架。等)
- transformer解释
- xlnet论文等
- bert,textCNN等,LAAT,RNN
- 预训练的bert(原理等)
- bert与 cnn等的区别
- BERT,GPT-2,RoBERTa,XLM,DistilBert,XLNet
知识图谱EE/IE
- casrel还不能达到落地的程度
- deepkg怎么做的?
- 评估指标是什么?
- 实体对齐怎么做的?实体相似性计算?
- 如何和知识图谱结合的?提升多少?
- 如何构建的图谱?用的方法有哪些?
- 图谱的应用有哪些?
- 图谱框架有哪些?
- 遇到了什么问题?
- 文本抽取怎么做的?用了哪些方法?具体的方法(bert+crf,casrel;joint model, pipeline model)
- 实体抽取的方法?
- 文本生成怎么做的?
- 远程监督
Bert和图谱
- bert如何和知识图谱embedding结合
- 如何解决两个向量空间?
- 知识图谱的embedding如何学习的?
- transe和transh,这种基于平移的方法,
- 向量空间的语义向量。
一些实际应用问题
- 疾病诊断的模型怎么做的?(输入输出,数据量多少?多少类疾病?)
- 电子病历的,数据特点等,分析方法?
- 如何构建的图谱,怎么标的数据?实体识别相关?是否做了关系预测?关系分类等。
- 数据是什么样的,几种?学习目标是什么?graph是什么概念?图怎么定义的?实际案例是什么样子?是否和常规方法对比?
- 案例中具体的样本数量是多少?实际的病历数据?
- 电子病历
- 如何建立病历图?节点是什么?(变量或者病人)
- 缺失的attribute,如何处理?
- 临床数据很乱,表述不同,抽提出的实体比较乱,如何处理?
- 抽取出来以后,干什么?
- 研究中遇到什么样的问题?
- 准确率多少?如何评估的?
- 为什么不同医院之间有指标的区别?
文献知识图谱
- 设计的方案?schema?
- 三元组抽提用的什么模型?
- 评估指标是什么?
- 实体对齐怎么做的?实体相似性计算?、
- 如何和知识图谱结合的?提升多少?
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)