Mar 29, 1999 frc7v-cl1: Server Solaris 2.6、cc ドライバのテスト --- クライアントシステム上での cc ドライバのデバッグ#01(その13) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ (http://www-online.kek.jp/~inoue/CAMAC/onl8v1-sol2.6-serv/ Cli1-CAMAC/debug-step13.txt) 高エネルギー加速器研究機構 素粒子原子核研究所 物理、オンライングループ 井上 栄二 (1). 現状確認 (A). 株式会社ロジックハウスの白田様より SPARC CPU-8VT と、VMEドライバ v2.3.1 を借用した。 (B). 株式会社ロジックハウスの白田様より Server Solaris 2.6 のシステム がインストールされているハードディスクを借用した。 (C). 借用したハードディスクのサーバ側のシステム設定を変更して、KEK の FP クラスタ上で立ち上げた。 (D). ファイルを直接修正する方法で、クライアント(その1)側のシステム 設定を変更したがクライアントは立ち上がれなかった。 (E). Solsticeを起動してホストマネージャを使って、frc7v-cl1ディスクレス クライアントの設定をやり直した。 (F). ディスクレス・クライアントのシステム、frc7v-cl1 が起動できること を確認した。 (G). frc7v-cl1 のシステムにVMEドライバ、FRCvme-2.3.1 をインストールし、 その後、frc7v-cl1 のシステム設定をやり直した。 (H). Solsticeを起動してホストマネージャを使って、frc7v-cl2ディスクレス クライアントの設定をやり直した。 (I). ディスクレス・クライアントのシステム、frc7v-cl2 が起動できること を確認した。 (J). frc7v-cl1、クライアントのシステムに ccドライバをインストールした。 (K). frc7v-cl1、クライアントのシステム上でサンプル・プログラムを実行 シングルアクションの 24ビットread/write は ok. LAM割り込み処理は、ok. ブロック転送 read/write は NG. (L). CPU-7Vのボードで FRCvme2.3.1 が正しく動作できることを確認した。 (M). frc8vt、サーバ・システムに ccドライバをインストールした。 (N). frc8vt、サーバ・システム上でンプル・プログラムを実行 シングルアクションの 24ビットread/write は ok. LAM割り込み処理は、ok. ブロック転送 read/write は 16 および 24ビットとも、ok. (O). 株式会社ロジックハウスの高橋様の修正された ccドライバを実行したが 状況に変化はなかった。 (P). 株式会社ロジックハウスの白田様の提案より、デスクレス・クライアント のシステムにローカル・ディスクをつなぎ、マウントした後で ccドライバ を実行したが状況に変化はなかった。 (Q). cam2 プログラムを実行すると、 cc.cプログラム中のどの命令を実行 した時にパニックを起こすのか調べた。 (R). 株式会社ロジックハウスの高橋様の提案より、savecore について調べる。 savecoreコマンドにより、vmcore.x および unix.x ファイルを入手した。 (S). ドライバ・プログラムが DMA完了の待ち状態のままになっているのを 確認 (T). cam2プログラムを frc8vt、frc7v-cl1上で実行して結果を調べた。    frc8vt上での実行: (1). cv_wait_sig()コールが入っていると、そこで待ち状態が続く。 (2). cv_wait_sig()コールが入っていないと、正常終了する。    frc7v-cl1上での実行: (1). cv_wait_sig()コールが入っていると、そこで待ち状態が続く。 (U). cv_wait_sig() を while文でループさせることで、シグナルを受け取れた (V). DMA 開始前に以前の割り込み信号が残って影響を与えていないことを 確認した。 (W). バーチャル・アドレス・スペースの割り当てを追加して動作させてみたが 症状は変わらない。 (X). cc->bp へのアクセスを camac_b()ルーチンでやらないようにしてみたが 症状は変わらない。 (Y). Soft State Managementルーチンを使ってみたが症状は変わらない。 (2). ここでやるべきこと minphys のバッファサイズを大きくして試してみる。 (3). minphys のバッファサイズを大きくして実行してみる 高橋さんからのメール >minphysにて設定されるバッファサイズを大きくしたところ >panicが発生しなくなりました。 >ただし、弊社で発生しているpanicの内容は以下のようになっており >全く同じではないです。 > : > : >minphysのバッファサイズを大きくして >試して貰えませんか? >ソースをみると、cc.hのCC_MINPHYS_SIZE 0x10000 (64KB)となっているよ >うなので >これを大きくしてみてください。 >sun4mのアーキテクチャでは、0xc0000(768KB)までなら設定出来 >そうです。 (4). minphys について minphys は bp->b_bcount(転送バイト数を示す)によって決められるデータ 転送サイズを、デバイスに依存した値に収まるように小さく分割するルーチン を指すポインタである。 o minphys() xxminphysは、physio(9F)やaphysio(9F)によってコールされるファンクショ ンのポインタである。 ここで、physio(9F)あるいはaphysio(9F)は、 リクエストされた転送のサイズが、ドライバに課せられた限度を越えないこ とを保証するための、カーネル・サポート・ルーチンである。 もしユーザが 限度を越えた転送をリクエストすると、strategy(9E)は、一回で課せられた 限度を越えないようなリクエストで、繰り返し何度もコールされることにな る。 これは、DMAリソースが制限されるという理由で、重要である。 プリ ンタのような遅いデバイスは、長い時間に渡ってリソースとタイアップしな いように注意すべきである。 普通、ドライバは、カーネル・ファンクションminphys(9F)のアドレスを渡す が、ドライバは、それに代えて独自のxxminphys()ルーチンを定義することが できる。 xxminphys()の仕事は、buf(9S)構造体のb_bcountフィールドをドラ イバ・リミット以下に保持することである。 ドライバが関知できるような 付加的なシステム・リミットがあってもよい。 ドライバのxxminphys() ルーチンは、b_bcountフィールドをセットした後、リターンする前に システム・コールminphys(9F)ルーチンをコールすべきである。 minphys(9F)ルーチンの書き方 #define XXMINVAL (124 << 10) static void xxminphys(struct buf *bp) { if(bp->b_bcount > XXMINVAL) bp->b_bcount = XXMINVAL; minphys(bp); } (5). ccドライバ・プログラムの minphys について 現在の、ccドライバ・プログラムでは、 static void cc_minphys(struct buf *bp) { if (bp->b_bcount > CC_MINPHYS_SIZE) bp->b_bcount = CC_MINPHYS_SIZE; return; } となっており、cc_minphys()の中でminphys(bp)がコールされていない。 これではまずいのではないのかな。 チェック事項。 (5). minphys のバッファサイズを修正してから実行してみる cc_minphys()ルーチンに minphys()コール文を追加。 frc7v-cl1[40]% pwd /export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5 frc7v-cl1[41]% vi cc.c : static void cc_minphys(struct buf *bp) { if (bp->b_bcount > CC_MINPHYS_SIZE) bp->b_bcount = CC_MINPHYS_SIZE; /* E.Inoue: begin */ minphys(bp); /* E.Inoue: end */ return; } : frc7v-cl1[42]% grep CC_MINPHYS_SIZE *.h cc.h:#define CC_MINPHYS_SIZE 0x10000 /* max word count = 64k */ frc7v-cl1[43]% cc.hファイルを修正。 CC_MINPHYS_SIZE を 0xc0000 にする。 frc7v-cl1[43]% pwd /export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5 frc7v-cl1[44]% mv cc.h cc.h-org frc7v-cl1[45]% cp cc.h-org cc.h frc7v-cl1[46]% ls -l cc.h* -rw-r--r-- 1 inoue staff 2748 Mar 29 1999 cc.h -rw-r--r-- 1 inoue staff 2748 May 13 1997 cc.h-org frc7v-cl1[47]% vi cc.h : /* E.Inoue: begin */ /* #define CC_MINPHYS_SIZE 0x10000 */ /* max word count = 64k */ #define CC_MINPHYS_SIZE 0xc0000 /* max word count = 768k */ /* E.Inoue: end */ : "cc.h" 77 lines, 2861 characters frc7v-cl1[48]% cc.cファイルをコンパイルする。 frc7v-cl1[53]% pwd /export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5 frc7v-cl1[54]% make ./script/cc_build.sh [Building for sun4m] rm -f cc.o frc7v-cl1[55]% cc および cc.confファイルをコピーし直す。 frc8vt# pwd /usr/kernel/drv frc8vt# ls -l cc* -rwxr-xr-x 1 root sys 59880 Mar 29 13:40 cc* -rwxr-xr-x 1 root sys 288 Mar 29 13:40 cc.conf* frc8vt# rcp frc7v-cl1:/export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5/cc . frc8vt# rcp frc7v-cl1:/export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5/cc.conf . frc8vt# ls -l cc* -rwxr-xr-x 1 root sys 59880 Mar 29 14:01 cc* -rwxr-xr-x 1 root sys 288 Mar 29 14:02 cc.conf* frc8vt# ccドライバをロードし直す。 frc7v-cl1# pwd /export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5 frc7v-cl1# make unload ./script/cc_unload.sh [Removing CAMAC device driver] [Removing CAMAC device driver from system] [Deleting CAMAC device files] frc7v-cl1# make load ./script/cc_load.sh [Installing CAMAC device driver] cp: cannot create /usr/kernel/drv/cc: Read-only file system cp: cannot create /usr/kernel/drv/cc.conf: Read-only file system [Adding CAMAC device driver to system] [Configuring CAMAC device driver] [Making CAMAC device files] frc7v-cl1# cam2プログラムを実行する。 frc7v-cl1[42]% cam2 Input transfer mode (1:word 2:long word) >1 Input loop >5 Input mode (0:QSTOP 1:QIGNORE 2:QREPEAT 3:QSCAN) >1 Input data counts >5 Input n a f >3 0 0 cam2プログラムはここでフリーズした。 システムはパニックを起こしてリブートしてしまった。 NOTICE: camacrp: de=ugfstepc0. --8 call phbs8od)tep01.T--- enter camRcAP() NOcICE ac_stdatdry:=dfbug 6te1332 ---fenter5cc_strate ym) : cc_: ucc_strategy: debfg srep04= 32-6fo nd the ramw= read cam2: Data fault kernel read fault at addr=0xf6132f5c, pme=0x0 MMU sfsr=326: Invalid Address on supv data fetch at level 3 pte addr = 0xf6058dc8, level = 3 wrong ctx/as ctx 0, as 0xf5914510 wrong ctx/as 2 ctx 0, as 0x11 pid=426, pc=0xf606ad08, sp=0xfc08b928, psr=0x44010c7, context=0 g1-g7: f026de48, 6391, f602e7f8, c00, 200, 1, f5f184a0 trBtege: dgbug stip04-1. -n- dm _tddr = 0x3r0 NOTICE:acountcin 3ebit=1ba NOTIcE: cckstrateg.: d..u step05sp--- ta= fMc0 N8Tb CE: cc_9ntr: debug step28. - enteCacc_intr()l NleICE: cc_indr fdebur omep 6f6 --0 cc6>3nter0upt=0xe ccT,CE: ccfpn=r:fdebug scep06b. --- cc->execut8ng_dba9flag 9= 8 ,OT Ca: cc_inrr:gdebug ssep=6d0 --- ac e2a i6terr0pt:0r 5urn cc_intr )fcN0TI8E: return DMtegy:8d fu0 st0p07.0-0- C NaTICE: calac_l: debugestep07. --- redur fpryoio() m f00bd3ac, fp=fc08ba70, args=f00000 5 600 2a fc08bb08 f5bf1bb8 Called from f0068900, fp=fc08bb80, args=f593bbf8 f5c8d8c4 22 3 22 3 Called from 11f30, fp=effff8c0, args=1 600 3f53c0 5 24a70 24a80 End traceback... panic: Data fault syncing file systems... 2 done 2775 static and sysmap kernel pages 102 dynamic kernel data pages 490 kernel-pageable pages 0 segkmap kernel pages 0 segvn kernel pages 287 current user process pages 3654 total pages (3654 chunks) dumping to vp f59444dc, offset 138744 3654 total pages, dump succeeded rebooting... Resetting ... screen not found. Can't open input device. Keyboard not present. Using tty for input and output. SPARC CPU-7V, No Keyboard ROM Rev. 2.15.1, 64 MB memory installed, Serial #9157050. Ethernet address 0:80:42:b:49:ba, Host ID: 808bb9ba. apply failed. Initializing Memory | Type help for more information ok ok boot net -r Boot device: /iommu/sbus/ledma@5,8400010/le@5,8c00000 File and args: -r 2dc00 hostname: frc7v-cl1 domainname: kek.jp root server: frc8vt root directory: /export/root/frc7v-cl1 SunOS Release 5.6 Version Generic_105181-05 [UNIX(R) System V Release 4.0] Copyright (c) 1983-1997, Sun Microsystems, Inc. configuring network interfaces: le0. Hostname: frc7v-cl1 Configuring the /devices directory FRCvme V2.3.1 VME Nexus (FGA-5000 FGA-5100) NOTICE: VME: slavewin at vme=0x0, size=0x100000 space=0x2d020617 CAMAC device driver V1.3x, 1991-1993 by Y.TAKEUCHI (T.I.T.) cc0 at VME0: vme16d16 0xff00 VME level 4 vector 0xff sparc ipl 7 vmemem0 at VME0: vme32d16 0x0 vmemem1 at VME0: vme16d16 0x0 vmemem2 at VME0: vme24d16 0x0 vmemem3 at VME0: vme32d32 0x0 vmemem4 at VME0: vme16d32 0x0 vmemem5 at VME0: vme24d32 0x0 vmeplus0 at VME0: vme16d16 0x0 and vme24d16 0x0 and vme32d16 0x0 and vme16d32 0x 0 and vme24d32 0x0 and vme32d32 0x0 and space 0x2f offset 0x0 and space 0x6f offset 0x0 and space 0x10 offset 0x0 and space 0x11 offset 0x0 and space 0x50 offset 0x0 and space 0x51 offset 0x0 vmedma0 at VME0 vmefdma0 at VME0 vmedvma0 at VME0 vmectl0 at VME0 Configuring the /dev directory Configuring the /dev directory (compatibility devices) The system is coming up. Please wait. checking for crash dump...System went down at Mon Mar 29 14:00:35 1999 Saving 3654 pages of image in vmcore.35 3654 pages saved. Processing modules: Done. Constructing Namelist file: /var/crash/frc7v-cl1/unix.35 Namelist file complete. default ICCFP1.kek.jp done add net default: gateway ICCFP1 NIS domainname is kek.jp starting rpc services: rpcbind keyserv done. Setting netmask of le0 to 255.255.252.0 Setting default interface for multicast: add net 224.0.0.0: gateway frc7v-cl1 "/dev/swap" is not valid for swapping. It must be a block device or a regular file with the "save user text on execution" bit set. syslog service starting. syslogd: line 24: unexpected getnetconfig failure Print services started. volume management starting. Wnn6: Key License Server started.... Nihongo Multi Client Server (Wnn6 R2.30) Finished Reading Files The system is ready. frc7v-cl1 console login: システム起動、ok. ホームディレクトリをマウントする。 onlsun1[41]% !! rlogin frc7v-cl1 Password: No directory! Logging in with home=/ Last login: Mon Mar 29 13:41:20 from onlsun1.kek.jp Sun Microsystems Inc. SunOS 5.6 Generic August 1997 frc7v-cl1% su Password: # mount frc8vt:/export/home/frc8vt /export/home/frc7v-cl1 # frc7v-cl1% logout Connection closed. onlsun1[42]% !! rlogin frc7v-cl1 Last login: Mon Mar 29 14:07:28 from onlsun1.kek.jp Sun Microsystems Inc. SunOS 5.6 Generic August 1997 frc7v-cl1[33]% ls -l total 8 drwxr-xr-x 3 inoue staff 512 Feb 9 15:34 CAMAC/ drwxr-xr-x 3 inoue staff 512 Nov 6 11:07 FORCE/ drwxr-xr-x 2 inoue staff 512 Feb 18 10:29 Ktaka/ -rw------- 1 inoue staff 592 Feb 26 16:49 mbox frc7v-cl1[34]% システム・クラッシュ・ダンプ・ファイルをチェック。 frc7v-cl1[37]% adb -k unix.35 vmcore.35 physmem 3e2d $c complete_panic(0x0,0x4401ce2,0x0,0x44010e2,0x0,0xf00) + 5c do_panic(0x1,0xfc08b78c,0x0,0x48010e2,0x1,0xf5bd2000) + a8 vcmn_err(0x3,0xf0269878,0xfc08b78c,0x3,0xffeec000,0x0) + 180 cmn_err(0x3,0xf0269878,0xfc08c,0x53,0x53,0xf025e400) + 1c die(0x9,0xfc08b8dc,0xf6132f5c,0x326,0x1,0xf0269878) + bc trap(0x0,0xfc08b8dc,0xf0000000,0x0,0x6,0x1) + 930 fault(?) + 84 cmn_err(0x1,0xf606b870,0xa,0x40,0xf5914510,0xfc08bad8) camac_b(0x0,0x2a,0x600,0x5,0xfc08bad8,0xf00000) + 1f8 cc_write(0xf00000,0x5,0x600,0x2a,0xfc08bb08,0xf5bf1bb8) + 424 writev(0xf593bbf8) + 2b0 $ dump on /dev/dsk/c0t3d0s1 size 83988K pem: no event handler FRCvme V2.3.1 VME Nexus (FGA-5000 FGA-5100) NOTICE: VME: slavewin at vme=0x0, size=0x100000 space=0x2d020617 VME0 at sbus0: SBus slot 5 0xffffe00 sparc ipl 15, SBus level 1 sparc ipl 2, SBus level 2 sparc ipl 3, SBus level 3 sparc ipl 5, SBus level 4 sparc ipl 7, SBus level 5 sparc ipl 9, SBus level 6 sparc ipl 11, SBus level 7 sparc ipl 13 CAMAC device driver V1.3x, 1991-1993 by Y.TAKEUCHI (T.I.T.) cc0 at VME0: vme16d16 0xff00 VME level 4 vector 0xff sparc ipl 7 cc0 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/cc@2d,ff0 0 vmemem0 at VME0: vme32d16 0x0 vmemem0 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmeme m@d,0 vmemem1 at VME0: vme16d16 0x0 vmemem1 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmeme m@2d,0 vmemem2 at VME0: vme24d16 0x0 vmemem2 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmeme m@3d,0 vmemem3 at VME0: vme32d32 0x0 vmemem3 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmeme m@4d,0 vmemem4 at VME0: vme16d32 0x0 vmemem4 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmeme m@6d,0 vmemem5 at VME0: vme24d32 0x0 vmemem5 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmeme m@7d,0 sbusmem0 at sbus0: SBus slot 0 0x0 sbusmem0 is /iommu@0,10000000/sbus@0,10001000/sbusmem@0,0 sbusmem1 at sbus0: SBus slot 1 0x0 sbusmem1 is /iommu@0,10000000/sbus@0,10001000/sbusmem@1,0 sbusmem2 at sbus0: SBus slot 2 0x0 sbusmem2 is /iommu@0,10000000/sbus@0,10001000/sbusmem@2,0 sbusmem3 at sbus0: SBus slot 3 0x0 sbusmem3 is /iommu@0,10000000/sbus@0,10001000/sbusmem@3,0 sbusmem4 at sbus0: SBus slot 4 0x0 sbusmem4 is /iommu@0,10000000/sbus@0,10001000/sbusmem@4,0 sbusmem5 at sbus0: SBus slot 5 0x0 sbusmem5 is /iommu@0,10000000/sbus@0,10001000/sbusmem@5,0 SUNW,bpp0 at sbus0: SBus slot 5 0xc800000 SBus level 2 sparc ipl 3 SUNW,bpp0 is /iommu@0,10000000/sbus@0,10001000/SUNW,bpp@5,c80000 0 pseudo-device: winlock0 winlock0 is /pseudo/winlock@0 pseudo-device: lockstat0 lockstat0 is /pseudo/lockstat@0 pseudo-device: vol0 vol0 is /pseudo/vol@0 pseudo-device: llc10 llc10 is /pseudo/llc1@0 vmeplus0 at VME0: vme16d16 0x0 and vme24d16 0x0 and vme32d16 0x0 and vme16d32 0x0 and vme24d32 0x0 and vme32d32 0x0 and space 0x 2f offset 0x0 and space 0x6f offset 0x0 and space 0x10 offset 0x0 and space 0x11 offset 0x0 and space 0x50 offset 0x0 and space 0x51 offset 0x0 vmeplus0 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmep lus@2d,0 pseudo-device: pm0 pm0 is /pseudo/pm@0 vmedma0 at VME0 vmedma0 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmedm a vmefdma0 at VME0 vmefdma0 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmef dma vmedvma0 at VME0 vmedvma0 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmed vma vmectl0 at VME0 vmectl0 is /iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/vmect l sysconfig0: LCA is XC4003 compatible sysconfig0 at root: obio 0x71380000 sysconfig0 is /sysconfig@0,71380000 BAD TRAP: type=9 rp=fc08b8dc addr=f6132f5c mmu_fsr=326 rw=1 cam2: Data fault kernel read fault at addr=0xf6132f5c, pme=0x0 MMU sfsr=326: Invalid Address on supv data fetch at level 3 pte addr = 0xf6058dc8, level = 3 wrong ctx/as ctx 0, as 0xf5914510 wrong ctx/as 2 ctx 0, as 0x11 pid=426, pc=0xf606ad08, sp=0xfc08b928, psr=0x44010c7, context=0 g1-g7: f026de48, 6391, f602e7f8, c00, 200, 1, f5f184a0 Begin traceback... sp = fc08b928 Called from f60630cc, fp=fc08b998, args=0 2a 600 5 fc08bad8 f000 00 Called from f00bd3ac, fp=fc08ba70, args=f00000 5 600 2a fc08bb08 f5bf1bb8 Called from f0068900, fp=fc08bb80, args=f593bbf8 f5c8d8c4 22 3 2 2 3 Called from 11f30, fp=effff8c0, args=1 600 3f53c0 5 24a70 24a80 End traceback... panic: Data fault syncing file systems... 2 done 2775 static and sysmap kernel pages 102 dynamic kernel data pages 490 kernel-pageable pages 0 segkmap kernel pages 0 segvn kernel pages 287 current user process pages 3654 total pages (3654 chunks) dumping to vp f59444dc, offset $q frc7v-cl1[38]% これまでと同じ症状。 camac_b()ルーチンで、cmn_err()を実行したところでエラーになっている。 ---xxxx ここまでやった。  (継続中) --- (6). セクション (6-1). サブセクション (6-1-1). サブサブセクション