ひびろぐ ver.2

Google検索したときの見た目を考慮してブログ名を変更してみた。馬鹿かと阿呆かと。

Archive for 7月 20th, 2007


Twitter Updates for 2007-07-20

  • ??????????? #
  • ?????? #
  • wordpress????????????????????? #

Powered by Twitter Tools.

実はAdvanced/W-Zero3[es]が欲しいかもしれない

とりあえずスマートフォンが欲しいのですよ。

で、一応Softbankからも出てるし、来月にはX01Tが出るわけなんだが。

どうもサイトを見ると料金プランがわからん。パケットし放題に「月額1,029円~4,410円で、国内はメールもウェブもし放題!(PCサイトブラウザ除く)」とか書いてあるし。


っつーわけで、圏外率最強クラスの3Gを980円プランに変更して(変更しても家族間通話とかは安いはずだし)、アドエス買っちゃうのが一番幸せになれるかなあとか考えているわけだ。

どうせプリンタとかレコーダとかいじるために週末に秋葉ヨドバシあたりへ行ってこようと思っているので、ついでに料金のこととかも聞いてくるか。

ほとんど通話をしないから料金なんて対してかからないぜふふーんとか思っていると、たまにサポセンだのなんだのにかけた後に料金表示を見て3桁の数字が出てくるのが納得いかないんだよなあ。

CUDAでN-QUEENやってみた

主に、CUDAでプログラムを組むとこんな感じだよーってのをチェックするため。こんなもの高速化しても論文になりませ……ならないと思います。多分。


とりあえず問題サイズと同じだけの並列化*もやってちょうど200行くらい。少なくともシェーダを叩くよりはやりやすいと思う。メモリの扱いだけ気をつければ、単純なCで書ける。まあそのメモリの扱いがめんどいんだけどさ。

(* : N=8の時は8並列。要するに、IDがnの人は1列目のクイーンをn行目に置くと仮定してネ、っていう並列化。)


問題サイズを12より大きくするとこけるのはなんだろう。とりあえずでっちあげただけなのでちゃんと調査してません。もしかしたらスレッド(CUDAの実行モデルで言うところの一番小さい単位。スレッドを束にしたブロックとかいう単位もある。まぁいわゆるスレッド並列化のスレッドと考えていいよ。)の何らかの制限を突破してるかもね。メモリ量とか時間とか。シェーダみたいにループの回数制限とかあったっけかなぁ?

ちなみに実行時間を測定したところ、CPUの非並列非再帰版より明らかに遅かった。更に細かく並列化して高速化する余地というかアイディアはありまくりなので、この後もうちょっと頑張って高速化するかもね。しないかもね。


一応フルソース載せておきます。参考になるかは知らない。とっとと帰ってゼミ資料でも捏造して寝ます。CUDAたんと戯れていたら東急ストアの特売日逃したよチクショウ!

CUDA:

  1. #include <stdlib.h>
  2. #include <stdio.h>
  3. #include <string.h>
  4. #include <math.h>
  5. #include <unistd.h>
  6.  
  7. #include <cutil.h>
  8.  
  9. #define N 12
  10.  
  11. __global__ void test(
  12.   int size,
  13.   int* numAnswers,
  14.   int* E,
  15.   int* SE,
  16.   int* NW,
  17.   int* answer,
  18.   int* etc
  19. )
  20. {
  21.   int id = threadIdx.x;
  22.   if(id>size){
  23.     if(id<size*2){
  24.       etc[id] = -1;
  25.     }
  26.     return;
  27.   }
  28.   etc[id] = 1;
  29.   if(threadIdx.y>0){
  30.     return;
  31.   }
  32.   int offset1 = id*size;
  33.   int offset2 = id*(size*2-1);
  34.   int x, y;
  35.   x=0;
  36.   y=id;
  37.   answer[offset1+x] = y;
  38.   E[offset1+y] = 1;
  39.   SE[offset2+(size-1)-x+y] = 1;
  40.   NW[offset2+x+y] = 1;
  41.   x++;
  42.   y=0;
  43.  
  44.   while(1){
  45.     if(x==size){
  46.       // all OK
  47.       //printAnswer(d);
  48.       numAnswers[id]++;
  49.       x--;
  50.       y = answer[offset1+x];
  51.       //removeQueen(d,x,y);
  52.       E[offset1+y] = 0;
  53.       SE[offset2+(size-1)-x+y] = 0;
  54.       NW[offset2+x+y] = 0;
  55.       y++;
  56.     }else if(y==size){
  57.       x--;
  58.       if(x<1){
  59.     break;
  60.       }
  61.       y = answer[offset1+x];
  62.       //removeQueen(d,x,y);
  63.       E[offset1+y] = 0;
  64.       SE[offset2+(size-1)-x+y] = 0;
  65.       NW[offset2+x+y] = 0;
  66.       y++;
  67.     }else{
  68.  
  69.       int test=0;
  70.       if(E[offset1+y] || SE[offset2+(size-1)-x+y] || NW[offset2+x+y]){
  71.     test=0;
  72.       }else{
  73.     answer[offset1+x] = y;
  74.     E[offset1+y] = 1;
  75.     SE[offset2+(size-1)-x+y] = 1;
  76.     NW[offset2+x+y] = 1;
  77.     test=1;
  78.       }
  79.  
  80.       if(test==1){
  81.     x++;
  82.     y=0;
  83.       }else{
  84.     y++;
  85.       }
  86.     }
  87.   }
  88.   //etc[id] = offset;
  89. }
  90.  
  91. void
  92. runTest(int argc, char** argv)
  93. {
  94.   CUT_DEVICE_INIT();
  95.  
  96.   printf("%d Byte\n", (1+N+N*N+(N*(N*2-1))+(N*(N*2-1))+N*N)*4);
  97.  
  98.   // CPU側のデータを準備
  99.   int size;
  100.   int numAnswers[N];
  101.   int E[N*N];
  102.   int SE[N*(N*2-1)];
  103.   int NW[N*(N*2-1)];
  104.   int answer[N*N];
  105.   int etc[N*2];
  106.  
  107.   int i;
  108.   size = N;
  109.   for(i=0; i<N; i++){
  110.     numAnswers[i] = 0;
  111.   }
  112.   for(i=0; i<N*2; i++){
  113.     etc[i] = 0;
  114.   }
  115.   for(i=0; i<N*N; i++){
  116.     E[i] = 0;
  117.     answer[i] = 0;
  118.   }
  119.   for(i=0; i<N*(N*2-1); i++){
  120.     SE[i] = 0;
  121.     NW[i] = 0;
  122.   }
  123.  
  124.   // GPU側のメモリを準備
  125.   int* d_numAnswers;
  126.   int* d_E;
  127.   int* d_SE;
  128.   int* d_NW;
  129.   int* d_answer;
  130.   int* d_etc;
  131.  
  132.   CUDA_SAFE_CALL(cudaMalloc((void**)&d_numAnswers, sizeof(int)*N));
  133.   CUDA_SAFE_CALL(cudaMalloc((void**)&d_E, sizeof(int)*N*N));
  134.   CUDA_SAFE_CALL(cudaMalloc((void**)&d_SE, sizeof(int)*(N*2-1)*N));
  135.   CUDA_SAFE_CALL(cudaMalloc((void**)&d_NW, sizeof(int)*(N*2-1)*N));
  136.   CUDA_SAFE_CALL(cudaMalloc((void**)&d_answer, sizeof(int)*N*N));
  137.   CUDA_SAFE_CALL(cudaMalloc((void**)&d_etc, sizeof(int)*N*2));
  138.  
  139.   CUDA_SAFE_CALL(cudaMemcpy(d_numAnswers, &numAnswers, sizeof(int)*N, cudaMemcpyHostToDevice) );
  140.   CUDA_SAFE_CALL(cudaMemcpy(d_E, E, sizeof(int)*N*N, cudaMemcpyHostToDevice) );
  141.   CUDA_SAFE_CALL(cudaMemcpy(d_SE, SE, sizeof(int)*(N*2-1)*N, cudaMemcpyHostToDevice) );
  142.   CUDA_SAFE_CALL(cudaMemcpy(d_NW, NW, sizeof(int)*(N*2-1)*N, cudaMemcpyHostToDevice) );
  143.   CUDA_SAFE_CALL(cudaMemcpy(d_answer, &answer, sizeof(int)*N*N, cudaMemcpyHostToDevice) );
  144.   CUDA_SAFE_CALL(cudaMemcpy(d_etc, &etc, sizeof(int)*N*2, cudaMemcpyHostToDevice) );
  145.  
  146.   // 実行のためのパラメタを準備
  147.   dim3 threads(N, 1, 1);
  148.   dim3 grid(1,1,1);
  149.  
  150.   // 実行
  151.   unsigned int hTimer;
  152.   CUT_SAFE_CALL( cutCreateTimer(&hTimer) );
  153.   CUT_SAFE_CALL( cutResetTimer(hTimer) );
  154.   CUT_SAFE_CALL( cutStartTimer(hTimer) );
  155.   test<<<grid, threads>>>(size, d_numAnswers, d_E, d_SE, d_NW, d_answer, d_etc);
  156.   CUDA_SAFE_CALL( cudaThreadSynchronize() );
  157.   CUT_SAFE_CALL( cutStopTimer(hTimer) );
  158.   double gpuTime = cutGetTimerValue(hTimer);
  159.   printf("Time: %f ms\n", gpuTime);
  160.  
  161.   // GPUの処理に問題が起きていないかの確認 
  162.   CUT_CHECK_ERROR("Kernel execution failed");
  163.  
  164.   // 演算結果の取得
  165.   CUDA_SAFE_CALL(cudaMemcpy(&numAnswers, d_numAnswers, sizeof(int)*N, cudaMemcpyDeviceToHost) );
  166.   CUDA_SAFE_CALL(cudaMemcpy(&etc, d_etc, sizeof(int)*N, cudaMemcpyDeviceToHost) );
  167.  
  168.   // 演算結果の確認
  169.   int nAll=0;
  170.   for(i=0; i<N*2; i++){
  171.     printf(" %d", etc[i]);
  172.   }
  173.   printf("\n");
  174.   for(i=0; i<N; i++){
  175.     nAll += numAnswers[i];
  176.     printf(" %d\n", numAnswers[i]);
  177.   }
  178.   printf("sum %d\n", nAll);
  179.  
  180.   // クリーンアップ
  181.   //free();
  182.   CUDA_SAFE_CALL(cudaFree(d_numAnswers));
  183.   CUDA_SAFE_CALL(cudaFree(d_E));
  184.   CUDA_SAFE_CALL(cudaFree(d_SE));
  185.   CUDA_SAFE_CALL(cudaFree(d_NW));
  186.   CUDA_SAFE_CALL(cudaFree(d_answer));
  187.   CUDA_SAFE_CALL(cudaFree(d_etc));
  188. }
  189.  
  190.  
  191. int
  192. main(int argc, char** argv)
  193. {
  194.   runTest(argc, argv);
  195.  
  196.   CUT_EXIT(argc, argv);
  197. }