ShaderJoy的博客_云社区-华为云

Lv.1

ShaderJoy

更多个人资料

13 成长值

0 关注

5 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
暂无专栏分类

NEON 指令集【基础备忘】

转自 http://blog.sina.com.cn/s/blog_602f87700102wj5w.html 作者：Sam (甄峰)   sam_code@hotmail.com 其他优秀链接：https://blog.csdn.net/hemmingway/article/details/44832...

单片机汇编语言

ShaderJoy 2022-01-01 01:09:53

1706

2022-01-01 01:09:53

999+

NEON 指令集并行技术优化矩阵转置【Android】

  核心代码如下：转置一个 4*4的矩阵，更大的矩阵（不能被4整除的需要特殊处理边界）都可以通过分块来进行转置 void transpose32x4x4(float32x4_t *q0, float32x4_t *q1, float32x4_t *q2, float32x4_t *q3) { // ---------...

Android

ShaderJoy 2022-01-01 01:09:51

1347

2022-01-01 01:09:51

999+

NEON 指令集并行技术优化矩阵旋转【Android】

参考链接： 利用neon技术对矩阵旋转进行加速目标：将输入矩阵顺时针旋转90度，如下图所示：    输入矩阵                           &nbsp...

Android

ShaderJoy 2022-01-01 01:09:41

944

2022-01-01 01:09:41

944

OpenCV 的 Contrast Preserving Decolorization 源码解析

运行效果为：  出乎我意料的是，不仅仅保留了对比度，居然还增强了图像的对比度（去雾，不过只适用于比较均匀的雾），不过运行的速度堪忧，500*500的图像都需要 1s 多！经过 OpenMP 优化，执行时间减少了一半左右   该代码是源于 香港中文大学 计算机科学与工...

OpenCV 机器学习

ShaderJoy 2022-01-01 01:09:20

1161

2022-01-01 01:09:20

999+

【基于Android的ARM汇编语言系列】之五：ARM指令集与Thumb指令集

作者：郭嘉  邮箱：allenwells@163.com  博客：http://blog.csdn.net/allenwells  github：https://github.com/AllenWell 【基于Android的ARM汇编语言系列】章节列表【基于Android的ARM汇编语言系列】之一：AR...

Android ARM 汇编语言

ShaderJoy 2022-01-01 01:09:13

1473

2022-01-01 01:09:13

999+

OpenCV 的 Non Local Means（CUDA 版）源码解析

效果如图：   非局部均值滤波（Non Local Means）算法其出发点是——在同一幅图像中对具有相同性质的区域进行分类并加权平均得到的图片，应该降噪效果也会越好。意味着它使用的是图像中的所有像素（实际上是在一个搜索窗口内的所有像素），这些像素根据某种相似度进行加权平均。与双线性滤波、中值滤波等利用图像局部信息来滤...

OpenCV

ShaderJoy 2022-01-01 01:09:05

1103

2022-01-01 01:09:05

999+

CUDA 专业小贴士：编写灵活的内核与网格-跨步循环

CUDA 编程中最常见的任务之一是使用内核并行化循环。让我们用我们的老朋友 SAXPY () 来举个栗子。下面是基本的顺序实现，它使用 for 循环。为了有效地并行化，我们需要启动足够的线程来充分利用 GPU 。 void saxpy(int n, float a, float *x, float *y)...

任务调度

ShaderJoy 2022-01-01 01:08:41

1071

2022-01-01 01:08:41

999+

CUDA 的块间同步方法

CUDA 块间同步方法有以下三种 ① Lock-Based Synchronization ② Lock-Free Synchronization ③ __threadfence(）   基于锁的块间同步 CUDA 基于锁的同步的基本思想是使用一个全局互斥量变量来计算到达同步点的线程块的数量。如下代码所示，在 ba...

任务调度

ShaderJoy 2022-01-01 01:08:33

1989

2022-01-01 01:08:33

999+

CUDA专业小贴士：通过 Warp-聚合的原子操作来优化过滤

注：这篇文章已经（于 2017年11月）更新为 CUDA 9 和最新的 GPU。NVCC编译器现在可以在许多情况下自动为原子操作执行 warp-聚合，因此无需额外的工作就可以获得更高的性能。事实上，编译器生成的代码比手工编写的 warp 聚合代码更快。这篇文章主要是为那些想了解它是如何工作的，并将类似的技术应用于其他问题的人准备的...

任务调度数据结构

ShaderJoy 2022-01-01 01:08:31

1644

2022-01-01 01:08:31

999+

非局部均值（Non Local Mean）【GLSL】

原理介绍：请参考这篇博文——https://blog.csdn.net/panda1234lee/article/details/88016834 代码及详细注释： //#version 120 uniform sampler2D iChannel0;const vec2 iResolution = vec2(512., 512...

ShaderJoy 2022-01-01 01:08:21

598

2022-01-01 01:08:21

598

总条数：565

100

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注私信