- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

杂

xql 发表于 2021/08/24 14:30:48 2021/08/24

【摘要】任务1、原始wenet代码2、修改nbpe=500；跑一下，对比结果3、仅用encoder+ctcloss去掉decoder的attention模块和对应的loss，对比结果修改：配置文件中的ctc_weight（wenet/transformer/asrmodel.py的98行）4、focal loss（修改了transformer文件夹下的label_smoothing_loss和asr...

任务

1、原始wenet代码

2、修改nbpe=500；跑一下，对比结果

3、仅用encoder+ctcloss去掉decoder的attention模块和对应的loss，对比结果

修改：配置文件中的ctc_weight（wenet/transformer/asrmodel.py的98行）

4、focal loss（修改了transformer文件夹下的label_smoothing_loss和asr_model文件）

5、去掉ctc模块，对比效果

6、听音频，标TP

7、找工具，将m4a转（解码）为pcm

8、focal loss调参

9、训练dice loss（已经训练起来了）

10、8月18号标数据。提交：他们标的（名字_日期_predict.txt），我标的(名字_日期_label.txt)。

11、看论文

12、下载数据集voxpopuli

下载好的数据放在了：/asr/common/16k-data/train/open-source/voxpopuli/

“10k”和“asr”已下载完毕。

注：Torchaudio自带的download_ulr函数会报网络错误，不能下载。需要使用命令“wget 下载地址”下载。

13、focal loss sigmoid and label smooth

14、训练1w小时的数据集（已经训练起来了）

数据路径：/asr/common/16k-data/train/open-source/GigaSpeech/GigaSpeechData

注意：stage0中原本的stage1通过：python3 local/extract_meta.py /asr/common/16k-data/train/open-source/GigaSpeech/GigaSpeechData/GigaSpeech.json data/gigaspeech_corpus/ 来运行

LOSS出现nan：8-22 12:48:41 WARNING NaN or Inf found in input tensor. 第14个epoch中期，损失上升

15、wenet代码，流式解码

杂

Ø Pycharm远程服务器访问

填写ip、用户名、密码，设置根目录

设置目录映射

配置python解释器

Ø 本地访问服务器端的tensorboard

tensorboard --logdir=wangyao --port=6005

ssh -L 16005:127.0.0.1:6005 ubuntu@192.168.98.174

http://127.0.0.1:16005

Ø 批量删除GPU上的进程

nvidia-smi |grep python | grep 11 | awk '{print $3}' | xargs kill -9

Ø 解决Window运行docker容器无法进行端口映射的问题

https://blog.csdn.net/weixin_37760377/article/details/89913124

Ø tmux

tmux new -s wy1

tmux ls

tmux a -t wy1

ctrl+b d

ctrl+b pageUp/pageDown

ctrl+b % 竖直拆分屏幕(两个 Shell 分别位于左右)

ctrl+b " 水平拆分屏幕(两个 Shell 分别位于上下)

ctrl+b o 切换到另一个 Shell

ctrl+b z：当前窗格全屏显示，再使用一次会变回原来大小。

ctrl+b x：关闭一个终端

tmux kill-session -t <session name >

Ø torch.nn.embedding

可以理解为查表，键是onehot对应的索引，值是对应的我们embedding。

默认随机赋值（均值为0，标准差为1的正态分布）。可以被训练（权重是由torch.tensor创建的，并且用Parameter封装），也可以手动加载权重。

Ø Python并发编程

l 基本概念

操作系统

程序员无法把所有的硬件操作细节都了解到，管理这些硬件并且加以优化使用是非常繁琐的工作，这个繁琐的工作就是操作系统来干的，有了他，程序员就从这些繁琐的工作中解脱了出来，只需要考虑自己的应用软件的编写就可以了，应用软件直接使用操作系统提供的功能来间接使用硬件。

作用：

1、隐藏了丑陋的硬件调用接口，为应用程序员提供调用硬件资源的更好，更简单，更清晰的模型（系统调用接口）。应用程序员有了这些接口后，就不用再考虑操作硬件的细节，专心开发自己的应用程序即可。

例如：操作系统提供了文件这个抽象概念，对文件的操作就是对磁盘的操作，有了文件我们无需再去考虑关于磁盘的读写控制（比如控制磁盘转动，移动磁头读写数据等细节），

2、将应用程序对硬件资源的竞态请求变得有序化

例如：很多应用软件其实是共享一套计算机硬件，比方说有可能有三个应用程序同时需要申请打印机来输出内容，那么a程序竞争到了打印机资源就打印，然后可能是b竞争到打印机资源，也可能是c，这就导致了无序，打印机可能打印一段a的内容然后又去打印c...,操作系统的一个功能就是将这种无序变得有序。

现代计算机或者网络都是多用户的，多个用户不仅共享硬件，而且共享文件，数据库等信息，共享意味着冲突和无序。

具体：

1.记录哪个程序使用什么资源

2.对资源请求进行分配

3.为不同的程序和用户调解互相冲突的资源请求。

我们可将上述操作系统的功能总结为：处理来自多个程序发起的多个（多个即多路）共享（共享即复用）资源的请求，简称多路复用。多路复用有两种实现方式：

1.时间上的复用

当一个资源在时间上复用时，不同的程序或用户轮流使用它，第一个程序获取该资源使用结束后，在轮到第二个。。。第三个。。。

例如：只有一个cpu，多个程序需要在该cpu上运行，操作系统先把cpu分给第一个程序，在这个程序运行的足够长的时间（时间长短由操作系统的算法说了算）或者遇到了I/O阻塞，操作系统则把cpu分配给下一个程序，以此类推，直到第一个程序重新被分配到了cpu然后再次运行，由于cpu的切换速度很快，给用户的感觉就是这些程序是同时运行的，或者说是并发的，或者说是伪并行的。至于资源如何实现时间复用，或者说谁应该是下一个要运行的程序，以及一个任务需要运行多长时间，这些都是操作系统的工作。

2.空间上的复用

每个客户都获取了一个大的资源中的一小部分资源，从而减少了排队等待资源的时间。

例如：多个运行的程序同时进入内存，硬件层面提供保护机制来确保各自的内存是分割开的，且由操作系统控制，这比一个程序独占内存一个一个排队进入内存效率要高的多。

有关空间复用的其他资源还有磁盘，在许多系统中，一个磁盘同时为许多用户保存文件。分配磁盘空间并且记录谁正在使用哪个磁盘块是操作系统资源管理的典型任务。

这两种方式合起来便是多道技术

并发与并行：

进程、线程

进程是操作系统分配资源的最小单元, 线程是操作系统调度的最小单元。

一个应用程序至少包括1个进程，而1个进程包括1个或多个线程，线程的尺度更小。

每个进程在执行过程中拥有独立的内存单元，而一个线程的多个线程在执行过程中共享内存。

举例：

计算机的核心是CPU，它承担了所有的计算任务。它就像一座工厂，时刻在运行。

假定工厂的电力有限，一次只能供给一个车间使用。也就是说，一个车间开工的时候，其他车间都必须停工。背后的含义就是，单个CPU一次只能运行一个任务。编者注: 多核的CPU就像有了多个发电厂，使多工厂(多进程)实现可能。

进程就好比工厂的车间，它代表CPU所能处理的单个任务。任一时刻，CPU总是运行一个进程，其他进程处于非运行状态。

一个车间里，可以有很多工人。他们协同完成一个任务。

线程就好比车间里的工人。一个进程可以包括多个线程。

车间的空间是工人们共享的，比如许多房间是每个工人都可以进出的。这象征一个进程的内存空间是共享的，每个线程都可以使用这些共享内存。

可是，每间房间的大小不同，有些房间最多只能容纳一个人，比如厕所。里面有人的时候，其他人就不能进去了。这代表一个线程使用某些共享内存时，其他线程必须等它结束，才能使用这一块内存。

一个防止他人进入的简单方法，就是门口加一把锁。先到的人锁上门，后到的人看到上锁，就在门口排队，等锁打开再进去。这就叫"互斥锁"（Mutual exclusion，缩写 Mutex），防止多个线程同时读写某一块内存区域。

还有些房间，可以同时容纳n个人，比如厨房。也就是说，如果人数大于n，多出来的人只能在外面等着。这好比某些内存区域，只能供给固定数目的线程使用。

这时的解决方法，就是在门口挂n把钥匙。进去的人就取一把钥匙，出来时再把钥匙挂回原处。后到的人发现钥匙架空了，就知道必须在门口排队等着了。这种做法叫做"信号量"（Semaphore），用来保证多个线程不会互相冲突。

不难看出，mutex是semaphore的一种特殊情况（n=1时）。也就是说，完全可以用后者替代前者。但是，因为mutex较为简单，且效率高，所以在必须保证资源独占的情况下，还是采用这种设计。

l Python中的多进程

Python的多进程编程与multiprocessing模块

python的多进程编程主要依靠multiprocess模块。我们利用multiprocess模块的Process方法创建了两个新的进程p1和p2来进行并行计算。Process方法接收两个参数, 第一个是target，一般指向函数名，第二个时args，需要向函数传递的参数。对于创建的新进程，调用start()方法即可让其开始。

尽管只创建了两个进程，可实际运行中却包含里1个母进程和2个子进程。之所以使用join()方法就是为了让母进程阻塞，等待子进程都完成后才打印出总共耗时，否则输出时间只是母进程执行的时间。

新创建的进程与进程的切换都是要耗资源的，所以平时工作中进程数不能开太大。
同时可以运行的进程数一般受制于CPU的核数。
除了使用Process方法，我们还可以使用Pool类创建多进程。

利用multiprocessing模块的Pool类创建多进程

Pool类可以提供指定数量的进程供用户调用，当有新的请求提交到Pool中时，如果进程池还没有满，就会创建一个新的进程来执行请求。如果池满，请求就会告知先等待，直到池中有进程结束，才会创建新的进程来执行这些请求。

对Pool对象调用join()方法会等待所有子进程执行完毕，调用join()之前必须先调用close()或terminate()方法，让其不再接受新的Process了。

多进程也支持继承式调用，重写run方法

多进程间的数据共享与通信

通常，进程之间是相互独立的，每个进程都有独立的内存。通过共享内存(nmap模块)，进程之间可以共享对象，使多个进程可以访问同一个变量(地址相同，变量名可能不同)。多进程共享资源必然会导致进程间相互竞争，所以应该尽最大可能防止使用共享状态。还有一种方式就是使用队列queue来实现不同进程间的通信或数据共享，这一点和多线程编程类似。

l Python中的多线程

python中的多进程编程主要依靠threading模块。创建新线程与创建新进程的方法非常类似。threading.Thread方法可以接收两个参数, 第一个是target，一般指向函数名，第二个时args，需要向函数传递的参数。对于创建的新线程，调用start()方法即可让其开始。我们还可以使用current_thread().name打印出当前线程的名字。如果要实现主线程和子线程的同步，我们必需使用join方法

当我们设置多线程时，主线程会创建多个子线程，在python中，默认情况下主线程和子线程独立运行互不干涉。如果希望让主线程等待子线程实现线程的同步（在子线程完成运行之前，这个子线程的父线程将一直被阻塞），我们需要使用join()方法。如果我们希望一个主线程结束时不再执行子线程，我们应该怎么办呢? 我们可以使用t.setDaemon(True)。t.setDaemon(True)将线程声明为守护线程，必须在start()方法调用之前设置，如果不设置为守护线程程序会被无限挂起。这个方法基本和join是相反的。当我们在程序运行中，执行一个主线程，如果主线程又创建一个子线程，主线程和子线程就分兵两路，分别运行，那么当主线程完成想退出时，会检验子线程是否完成。如果子线程未完成，则主线程会等待子线程完成后再退出。但是有时候我们需要的是只要主线程完成了，不管子线程是否完成，都要和主线程一起退出，这时就可以用setDaemon方法啦。

通过继承Thread类重写run方法创建新进程

除了使用Thread()方法创建新的线程外，我们还可以通过继承Thread类重写run方法创建新的线程，这种方法更灵活

不同线程间的数据共享

一个进程所含的不同线程间共享内存，这就意味着任何一个变量都可以被任何一个线程修改，因此线程之间共享数据最大的危险在于多个线程同时改一个变量，把内容给改乱了。如果不同线程间有共享的变量，其中一个方法就是在修改前给其上一把锁lock，确保一次只有一个线程能修改它。threading.lock()方法可以轻易实现对一个共享变量的锁定，修改完后release供其它线程使用。比如下例中账户余额balance是一个共享变量，使用lock可以使其不被改乱。

Python多线程鸡肋

Python虽然支持多线程应用程序的创建，但是Python解释器使用了内部的全局解释器锁定（Global Interpreter Lock，GIL），在任意指定的时刻只允许单个线程执行，意思就是每个CPU在同一时间只能执行一个线程。在单核CPU下的多线程其实都只是并发，不是并行，并发和并行从宏观上来讲都是同时处理多路请求的概念。但并发和并行又有区别，并行是指两个或者多个事件在同一时刻发生；而并发是指两个或多个事件在同一时间间隔内发生。

那么是不是python的多线程就完全没用了呢？

分类讨论：

CPU密集型代码(各种循环处理、计数等等)，在这种情况下，由于计算工作多，ticks计数很快就会达到阈值，然后触发GIL的释放与再竞争（多个线程来回切换当然是需要消耗资源的），所以python下的多线程对CPU密集型代码并不友好.
IO密集型代码(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行效率)。所以python的多线程对IO密集型代码比较友好。

Python多进程和多线程哪个快?

对CPU密集型代码(比如循环计算) - 多进程效率更高

对IO密集型代码(比如文件操作，网络爬虫) - 多线程效率更高。

对于IO密集型操作，大部分消耗时间其实是等待时间，在等待时间中CPU是不需要工作的，那你在此期间提供双CPU资源也是利用不上的，相反对于CPU密集型代码，2个CPU干活肯定比一个CPU快很多。那么为什么多线程会对IO密集型代码有用呢？这时因为python碰到等待会释放GIL供新的线程使用，最终结果是某个线程等待IO的时候其他线程可以继续执行。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

杂

任务

杂