Lv.1
ShaderJoy
更多个人资料
13
成长值
0
关注
5
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
个人勋章
TA还没获得勋章~
成长雷达
10
3
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
全部时间
全部时间
最近三天
最近一周
最近一月
全部
暂无专栏分类
NEON 指令集【基础备忘】
转自 http://blog.sina.com.cn/s/blog_602f87700102wj5w.html 作者:Sam (甄峰) sam_code@hotmail.com 其他优秀链接:https://blog.csdn.net/hemmingway/article/details/44832...
单片机
汇编语言
ShaderJoy
2022-01-01 01:09:53
1706
0
0
2022-01-01 01:09:53
999+
0
0
NEON 指令集并行技术优化矩阵转置【Android】
核心代码如下:转置一个 4*4的矩阵,更大的矩阵(不能被4整除的需要特殊处理边界)都可以通过分块来进行转置 void transpose32x4x4(float32x4_t *q0, float32x4_t *q1, float32x4_t *q2, float32x4_t *q3) { // ---------...
Android
ShaderJoy
2022-01-01 01:09:51
1347
0
0
2022-01-01 01:09:51
999+
0
0
NEON 指令集并行技术优化矩阵旋转【Android】
参考链接: 利用neon技术对矩阵旋转进行加速 目标:将输入矩阵顺时针旋转90度,如下图所示: 输入矩阵  ...
Android
ShaderJoy
2022-01-01 01:09:41
944
0
0
2022-01-01 01:09:41
944
0
0
OpenCV 的 Contrast Preserving Decolorization 源码解析
运行效果为: 出乎我意料的是,不仅仅保留了对比度,居然还增强了图像的对比度(去雾,不过只适用于比较均匀的雾),不过运行的速度堪忧,500*500的图像都需要 1s 多! 经过 OpenMP 优化,执行时间减少了一半左右 该代码是源于 香港中文大学 计算机科学与工...
OpenCV
机器学习
ShaderJoy
2022-01-01 01:09:20
1161
0
0
2022-01-01 01:09:20
999+
0
0
【基于Android的ARM汇编语言系列】之五:ARM指令集与Thumb指令集
作者:郭嘉 邮箱:allenwells@163.com 博客:http://blog.csdn.net/allenwells github:https://github.com/AllenWell 【基于Android的ARM汇编语言系列】章节列表【基于Android的ARM汇编语言系列】之一:AR...
Android
ARM
汇编语言
ShaderJoy
2022-01-01 01:09:13
1473
0
0
2022-01-01 01:09:13
999+
0
0
OpenCV 的 Non Local Means(CUDA 版) 源码解析
效果如图: 非局部均值滤波(Non Local Means)算法其出发点是——在同一幅图像中对具有相同性质的区域进行分类并加权平均得到的图片,应该降噪效果也会越好。意味着它使用的是图像中的所有像素(实际上是在一个搜索窗口内的所有像素),这些像素根据某种相似度进行加权平均。与双线性滤波、中值滤波等利用图像局部信息来滤...
OpenCV
ShaderJoy
2022-01-01 01:09:05
1103
0
0
2022-01-01 01:09:05
999+
0
0
CUDA 专业小贴士:编写灵活的内核与网格-跨步循环
CUDA 编程中最常见的任务之一是使用内核并行化循环。让我们用我们的老朋友 SAXPY () 来举个栗子。下面是基本的顺序实现,它使用 for 循环。为了有效地并行化,我们需要启动足够的线程来充分利用 GPU 。 void saxpy(int n, float a, float *x, float *y)...
任务调度
ShaderJoy
2022-01-01 01:08:41
1071
0
0
2022-01-01 01:08:41
999+
0
0
CUDA 的块间同步方法
CUDA 块间同步方法有以下三种 ① Lock-Based Synchronization ② Lock-Free Synchronization ③ __threadfence() 基于锁的块间同步 CUDA 基于锁的同步的基本思想是使用一个全局互斥量变量来计算到达同步点的线程块的数量。如下代码所示,在 ba...
任务调度
ShaderJoy
2022-01-01 01:08:33
1989
0
0
2022-01-01 01:08:33
999+
0
0
CUDA专业小贴士:通过 Warp-聚合的原子操作来优化过滤
注:这篇文章已经(于 2017年11月)更新为 CUDA 9 和最新的 GPU。NVCC编译器现在可以在许多情况下自动为原子操作执行 warp-聚合,因此无需额外的工作就可以获得更高的性能。事实上,编译器生成的代码比手工编写的 warp 聚合代码更快。这篇文章主要是为那些想了解它是如何工作的,并将类似的技术应用于其他问题的人准备的...
任务调度
数据结构
ShaderJoy
2022-01-01 01:08:31
1644
0
0
2022-01-01 01:08:31
999+
0
0
非局部均值(Non Local Mean)【GLSL】
原理介绍: 请参考这篇博文——https://blog.csdn.net/panda1234lee/article/details/88016834 代码及详细注释: //#version 120 uniform sampler2D iChannel0;const vec2 iResolution = vec2(512., 512...
ShaderJoy
2022-01-01 01:08:21
598
0
0
2022-01-01 01:08:21
598
0
0
总条数:565
10
10
20
50
100
1
2
3
4
5
6
...
57
上滑加载中
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
+ 关注
私信