原子函数的合理使用

cuda 中，一个线程的原子操作可以在不受其他线程的任何操作的影响下完成对某个（全局内存或共享内存）
数据的一套“读-改-写”操作。

完全在 GPU 中进行归约

有两种方法能够在GPU中得到最终结果：

在代码实现中：

原子函数对其第一个参数指向的数据进行一次“读-写-改”的原子操作，是不可分割的操作。
第一个参数可以指向全局内存，也可以指向共享内存。

对所有参与的线程来说，原子操作是一个线程一个线程轮流进行的，没有明确的次序。
原子函数没有同步功能。

原子函数的返回值为所指地址的旧值。

两个粒子互为邻居的判断：他们的距离不大于一个给定的截断距离 rc。
基本算法：对每一个给定的粒子，通过比较它与所有其他粒子的距离来判断相应粒子对是否互为邻居。