Snowdream

posts - 403, comments - 310, trackbacks - 0, articles - 7

GP-GPU 阅读笔记 (1)

Posted on 2008-02-07 16:31 ZelluX 阅读(805) 评论(1) 编辑收藏所属分类: Laboratory

实验室的寒假任务 =_=
No.1
A Survey of General-Purpose Computation on Graphics Hardware
on EUROGRAPHICS 2005

1. Why GP-GPU?
1.1 Powerful and Inexpensive
高内存带宽：Nvidia GeForce 6800 Ultra - 35.2GB/sec
强大的计算能力：ATI X800 XT - 63GFLOPS, Intel Pentium4 SSE unit(3.7GHz) - 14.8GFLOPS
尖端处理科技的应用：最新公布(指该survey发布的时间)的GPU包含三亿个晶体管，由0.011微米技术制作
快速发展：GeForce 6800的throughput为5900的两倍。通常GPU的计算能力平均每年增长速度为1.7x(pixels/second)和2.3x(vertices/second)，而根据摩尔定律，CPU的对应数值大概为每年1.4x。粗略的说，GPU性能每六个月增长一倍。

1.2 Flexible and Programmable

1.3 Limitations and Difficulties
GPU的强大计算性能是建立在它高度针对的架构上的，因此很多应用都不适合放到GPU上做。比如文字处理，主要包括内存通信，而且很难并行化。
如今的GPU也缺少一些基本的计算功能，比如整数运算。而且很多只支持32位浮点数（貌似最近的R670指令集可以处理double类型了），这样导致很多科学计算都没法在GPU上做。
另外即使对于适合GPU这些特性的问题，真正使用GPU做时也有不少问题。GPU的编程模型很不一样，高效的GPU编程不仅仅是说多学一门高级语言。如今要借助GPU的计算能力，需要编程人员同时掌握相应的科学计算知识和计算机图形学知识。尽管如此，GPU对性能提升的帮助还是很诱人的。

1.4 GPGPU Today
http://gpgpu.org
一些GPGPU的应用包括
Dense and sparse matrix multiplication 计算领域
Multigrid and conjugate-gradient solves for systems partial differential equations   计算领域
Ray tracing   图像处理
Photon mapping   图像处理
Fluid mechanics solvers   物理模拟
Datamining operations   数据库/数据挖掘

2. Overview of Programmable Graphics Hardware
2.1 Overview of the Graphics Pipeline
当今的GPU都采用了称为graphics pipeline的架构。pipeline被分成不同的stage，硬件上每个stage都被放到task-parallel machine organization上实现。

2.2 Programmable Hardware
显卡商们把固定功能的pipeline转化成了一个更灵活的可编程的pipeliine。主要在geometry stage和fragment stage。原来的固定的操作被用户定义的vertex program和fragment program代替
通常来说，这些可编程阶段读入一组含有限数量的有4个32位浮点的向量数组并输出一组含有限数量的4*32浮点向量的数组。每个可编程阶段都可以访问常数寄存器，也可以读写对应的寄存器。

2.3 Introduction to the GPU Programming Model
典型的GPGPU程序都使用了fragment processor作为计算引擎。通常的结构为：
a. 程序员确定该应用的并行部分。应用程序被分成几个独立的可并行段，每段都被看成是一个kernel，被当成fragment program实现。每个kernel的输入输出都是一个或多个数据数组，以texture形式保存在GPU内存中。用流相关的术语表述的话，这些在texture中的数据组成了stream，每个stream上的元素都要被kernel分别处理。
b. 调用kernel前要先确定计算范围，程序员可以传递点的数据给GPU。注意GPU在处理一维数组时性能有所局限。
c. rasterizer为每个像素生成一个fragment。
d. 每个fragment被同一个活动的kernel程序处理。fragment程序可以读入任意的全局内存，但只能写到rasterizer决定的frame buffer中。这块还没怎么搞懂
e. 每个fragment的输出是一个值或者向量值，可以作为作中的程序结果，也可以保存为一个texture，用于后面的计算，复杂的应用通常需要多个pipeline之间的传递(multipass)

# re: GP-GPU 阅读笔记 (1) 回复 更多评论

2008-02-07 23:52 by sherry

估计你能想象我看这个文章的表情，只看了看篇幅而已，不懂

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Most Influential PLDI Paper Award [zz]Zotero与Endnote的互相导入 Erlang的Hello World: 一个计数程序 Xen Notes [1] 几个并行计算、内核相关的链接 MaNGOS阅读笔记 (1) 精读paper - Application-Level Isolation and Recovery with Solitude 最近读的两篇paper 阅读笔记 - SubVirt: Implementing malware with virtual machines (2) 阅读笔记 - SubVirt: Implementing malware with virtual machines (1)

Snowdream

GP-GPU 阅读笔记 (1)

评论

# re: GP-GPU 阅读笔记 (1) 回复 更多评论

日历

常用链接

留言簿(21)

随笔分类(390)

随笔档案(389)

文章档案(7)

相册

15ers

友情链接

收藏夹

搜索

积分与排名

最新随笔

最新评论

阅读排行榜

评论排行榜

Snowdream

GP-GPU 阅读笔记 (1)

评论

# re: GP-GPU 阅读笔记 (1) 回复 更多评论

日历

常用链接

留言簿(21)

随笔分类(390)

随笔档案(389)

文章档案(7)

相册

15ers

友情链接

收藏夹

搜索

积分与排名

最新随笔

最新评论

阅读排行榜

评论排行榜

# re: GP-GPU 阅读笔记 (1) 回复更多评论