Mar 15, 1999 frc7v-cl1: Server Solaris 2.6、cc ドライバのテスト --- クライアントシステム上での cc ドライバのデバッグ#01(その10) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ (http://www-online.kek.jp/~inoue/CAMAC/onl8v1-sol2.6-serv/ Cli1-CAMAC/debug-step10.txt) 高エネルギー加速器研究機構 素粒子原子核研究所 物理、オンライングループ 井上 栄二 (1). 現状確認 (A). 株式会社ロジックハウスの白田様より SPARC CPU-8VT と、VMEドライバ v2.3.1 を借用した。 (B). 株式会社ロジックハウスの白田様より Server Solaris 2.6 のシステム がインストールされているハードディスクを借用した。 (C). 借用したハードディスクのサーバ側のシステム設定を変更して、KEK の FP クラスタ上で立ち上げた。 (D). ファイルを直接修正する方法で、クライアント(その1)側のシステム 設定を変更したがクライアントは立ち上がれなかった。 (E). Solsticeを起動してホストマネージャを使って、frc7v-cl1ディスクレス クライアントの設定をやり直した。 (F). ディスクレス・クライアントのシステム、frc7v-cl1 が起動できること を確認した。 (G). frc7v-cl1 のシステムにVMEドライバ、FRCvme-2.3.1 をインストールし、 その後、frc7v-cl1 のシステム設定をやり直した。 (H). Solsticeを起動してホストマネージャを使って、frc7v-cl2ディスクレス クライアントの設定をやり直した。 (I). ディスクレス・クライアントのシステム、frc7v-cl2 が起動できること を確認した。 (J). frc7v-cl1、クライアントのシステムに ccドライバをインストールした。 (K). frc7v-cl1、クライアントのシステム上でサンプル・プログラムを実行 シングルアクションの 24ビットread/write は ok. LAM割り込み処理は、ok. ブロック転送 read/write は NG. (L). CPU-7Vのボードで FRCvme2.3.1 が正しく動作できることを確認した。 (M). frc8vt、サーバ・システムに ccドライバをインストールした。 (N). frc8vt、サーバ・システム上でンプル・プログラムを実行 シングルアクションの 24ビットread/write は ok. LAM割り込み処理は、ok. ブロック転送 read/write は 16 および 24ビットとも、ok. (O). 株式会社ロジックハウスの高橋様の修正された ccドライバを実行したが 状況に変化はなかった。 (P). 株式会社ロジックハウスの白田様の提案より、デスクレス・クライアント のシステムにローカル・ディスクをつなぎ、マウントした後で ccドライバ を実行したが状況に変化はなかった。 (Q). cam2 プログラムを実行すると、 cc.cプログラム中のどの命令を実行 した時にパニックを起こすのか調べた。 (R). 株式会社ロジックハウスの高橋様の提案より、savecore について調べる。 savecoreコマンドにより、vmcore.x および unix.x ファイルを入手した。 (S). ドライバ・プログラムが DMA完了の待ち状態のままになっているのを       確認 (T). cam2プログラムを frc8vt、frc7v-cl1上で実行して結果を調べた。    frc8vt上での実行: (1). cv_wait_sig()コールが入っていると、そこで待ち状態が続く。 (2). cv_wait_sig()コールが入っていないと、正常終了する。    frc7v-cl1上での実行: (1). cv_wait_sig()コールが入っていると、そこで待ち状態が続く。 (U). cv_wait_sig() を while文でループさせることで、シグナルを受け取れた (V). DMA 開始前に以前の割り込み信号が残って影響を与えていないことを 確認した。 (2). ここでやるべきこと バーチャル・アドレス・スペースの割り当てを追加して動作させてみる。 (3). cc.cファイルを修正する 高橋さんからのメール。 >> cc_sys_status = cc->bp->b_error; <--- この行の実行時? > > どうもありがとうございます。 ここでエラーになるということは > buf構造体のアドレスがおかしくなってしまっているということ > でしょうか。 > そういうことだと思います。 panic時の内容がData Fault の"kernel read fault" ですので 存在しないアドレスへ参照したことになります。 私の推測では、physio()が終了してcamac_b()へ戻ったあとに buf構造体を参照した為、buf構造体の領域がアロケーションされて いなくてData faultになっているのではないかと疑っています。 これは、cc_intr()、cc_timeout()、cc_strategy()にて ddi_dma_buf_unbind_handle()が実行されているのでbp(buf)の領域を 開放してしまっているのではないかということです。 あと、また試して頂きたいことがあります。 cc_strategy()ルーチン static int cc_strategy(struct buf *bp) { register struct cc_device *cc = &ccdevice[0]; register struct K_REG *k = cc->k; register u_long dma_addr; register mode = cc->mode; register naf = cc->naf; register int wc = (mode & CC_BIT16) ? cc->len : cc->len * 2; register u_int flags; /* E.Inoue: from */ cmn_err(CE_NOTE," cc_strategy: debug step03. --- enter cc_strategy()"); /* E.Inoue: end */ /* check DMA mode and set flags */ switch (cc->naf & 0x0018) { case 0x0000: /* CAMAC read */ /* E.Inoue: from */ cmn_err(CE_NOTE," cc_strategy: debug step04. --- found the camac read"); /* E.Inoue: end */ flags = DDI_DMA_READ; break; case 0x0010: /* CAMAC write */ flags = DDI_DMA_WRITE; break; default: cc->status = CC_STA_BLOCK_INVFUNC; return 0; } /* change logichouse */ /* setup DMA bufer */ if((ddi_dma_buf_bind_handle(cc->handle, bp , flags | DDI_DMA_CONSISTENT, DDI_DMA_SLEEP, (caddr_t)0, &cc->dma_cookie, &cc->ccount) != DDI_DMA_MAPPED)){ cmn_err(CE_WARN,"cc_strategy: ddi_dma_buf_bind_handle failed"); bp->b_flags |= B_ERROR; bp->b_error = EIO; return bp->b_flags; } /* if (ddi_dma_buf_setup(cc->dip, bp, flags, DDI_DMA_SLEEP, NULL, &dma_lim, &cc->handle) != DDI_DMA_MAPPED) { bp->b_error |= EIO; bp->b_flags |= B_ERROR; return bp->b_flags; } */ /* get a virtual address to hand to our device */ /* if (ddi_dma_htoc(cc->handle, NULL, &cc->dma_cookie) != DDI_SUCCESS) { bp->b_error |= EIO; bp->b_flags |= B_ERROR; return bp->b_flags; } */ /* end */ bp_mapin(bp); <--- この行を追加してください。 /* set up variables */ cc->bp = bp; dma_addr = cc->dma_cookie.dmac_address; /* count = cc->dma_cookie.dmac_size; */ /* E.Inoue: from */ cmn_err(CE_NOTE," cc_strategy: debug step04-1. --- dma_addr = 0x%x", dma_addr); /* E.Inoue: end */ /* */ /* uprintf("count in 32bit=%d\n", cc->dma_cookie.dmac_size); */ cmn_err(CE_NOTE,"count in 32bit=%d", cc->dma_cookie.dmac_size); /* */ cc->retlen = 0; /* k->csr = CC_RST; */ /* K2917 Reset */ if (cc->klist == CC_KLIST_NO) { k->cma = CC_CMA_INIT; /* Initialize memory pointer */ k->cmr = mode | (cc->cur_crate << 8); k->cmr = naf; k->cmr = -(cc->len & 0xFFFF); /* Max len = 1MWord */ k->cmr = 0xFFFF; k->cmr = CC_HALT; k->cma = CC_CMA_INIT; /* Reset memory pointer */ k->maclo = dma_addr & 0xFFFF; /* Set DMA base address */ k->machi = dma_addr >> 16; k->amr = CC_AMR_INIT; /* Set VME AM code */ k->mtc = wc; k->cser = CC_DMA_RESET; /* DMA reset */ switch (cc->naf & 0x0018) { case 0x0000: /* CAMAC read */ k->docr = CC_DOCR_INIT | CC_DMA_READ; k->sccr = CC_DMA_START; k->csr |= CC_DMA; /* DMA mode */ k->csr &= ~CC_WRITE; break; case 0x0010: /* CAMAC write */ k->docr = CC_DOCR_INIT | CC_DMA_WRITE; k->sccr = CC_DMA_START; k->csr |= CC_DMA; /* DMA mode */ k->csr |= CC_WRITE; break; default: /* ERROR */ cc->status = CC_STA_BLOCK_INVFUNC; return 0; } } /* Kinetic list-processing */ else { k->cma = now_cma; /* Initialize memory pointer */ k->maclo = dma_addr & 0xFFFF; /* Set DMA base address */ k->machi = dma_addr >> 16; k->amr = CC_AMR_INIT; /* Set VME AM code */ k->mtc = now_wc; k->cser = CC_DMA_RESET; /* DMA reset */ k->docr = CC_DOCR_INIT | CC_DMA_READ; k->sccr = CC_DMA_START; k->csr |= CC_DMA; /* DMA mode */ k->csr &= ~CC_WRITE; } /* E.Inoue: from */ cmn_err(CE_NOTE," cc_strategy: debug step05. --- start DMA"); /* E.Inoue: end */ /* start DMA */ cc->executing_dma_flag = 1; cc->timeout_id = timeout(cc_timeout, NULL, CC_TIMEOUT_DMA * hz); k->csr |= CC_GO; /* Go! */ k->donc = CC_INT_AUTO_CLEAR | CC_INT_ENABLE | intrpri; /* E.Inoue: from */ cmn_err(CE_NOTE," cc_strategy: debug step07. --- return DMA"); /* E.Inoue: end */ /* wait at physio() */ return 0; } cc.cファイルを修正。 frc7v-cl1[45]% vi cc.c : /* get a virtual address to hand to our device */ /* if (ddi_dma_htoc(cc->handle, NULL, &cc->dma_cookie) != DDI_SUCCESS) { bp->b_error |= EIO; bp->b_flags |= B_ERROR; return bp->b_flags; } */ /* end */ bp_mapin(bp); /* set up variables */ cc->bp = bp; dma_addr = cc->dma_cookie.dmac_address; /* count = cc->dma_cookie.dmac_size; */ /* E.Inoue: from */ cmn_err(CE_NOTE," cc_strategy: debug step04-1. --- dma_addr = 0x%x", dma_addr); "cc.c" 2772 lines, 68928 characters frc7v-cl1[46]% cc.cファイルをコンパイル。 frc7v-cl1[46]% make ./script/cc_build.sh [Building for sun4m] rm -f cc.o frc7v-cl1[47]% cc および cc.confファイルをコピー。 frc8vt# pwd /usr/kernel/drv frc8vt# ls -l cc* -rwxr-xr-x 1 root sys 57088 Mar 12 14:13 cc* -rwxr-xr-x 1 root sys 288 Mar 12 14:13 cc.conf* frc8vt# rcp frc7v-cl1:/export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5/cc . frc8vt# rcp frc7v-cl1:/export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5/cc.conf . frc8vt# ls -l cc* -rwxr-xr-x 1 root sys 57008 Mar 15 10:57 cc* -rwxr-xr-x 1 root sys 288 Mar 15 10:57 cc.conf* frc8vt# ccドライバをロードし直す。 frc7v-cl1# make unload ./script/cc_unload.sh [Removing CAMAC device driver] [Removing CAMAC device driver from system] [Deleting CAMAC device files] frc7v-cl1# make load ./script/cc_load.sh [Installing CAMAC device driver] cp: cannot create /usr/kernel/drv/cc: Read-only file system cp: cannot create /usr/kernel/drv/cc.conf: Read-only file system [Adding CAMAC device driver to system] [Configuring CAMAC device driver] [Making CAMAC device files] frc7v-cl1# ls -l /dev/cc lrwxrwxrwx 1 root other 69 Mar 15 1999 /dev/cc -> /devices/iommu@0,10000000/sbus@0,10001000/VME@5,ffffe00/cc@2d,ff00:cc frc7v-cl1# cam2プログラムを実行。 frc7v-cl1[52]% pwd /export/home/frc7v-cl1/inoue/CAMAC/Driver/FORCE-5V-sol2.5 frc7v-cl1[53]% cam2 Input transfer mode (1:word 2:long word) >1 Input loop >5 Input mode (0:QSTOP 1:QIGNORE 2:QREPEAT 3:QSCAN) >1 Input data counts >5 Input n a f >3 0 0 cam2プログラムはここでフリーズした。 システムはパニックを起こしてリブートしてしまった。 NOTICEBA caDac_b: debu step01T R--APn:er camactby) NOTpCE: ie:=0x3f53c0 10 1 34 0 09 N TICr: camac_bp d=fub stef82. -98 cael physi o() 1.O6I E: cc_strategr: dwb=g step01. -u- _funs the carac=3ead cam2: Data fault kernel read fault at addr=0xf61aff5c, pme=0x0 MMU sfsr=326: Invalid Address on supv data fetch at level 3 pte addr = 0xf60cf7bc, level = 3 wrong ctx/as ctx 0, as 0xf5914420 wrong ctx/as 2 ctx 0, as 0x6f pid=848, pc=0xf60de598, sp=0xfbf89930, psr=0x44010c3, context=0 g1-g7: f026de48, 1ad3b, f602a0f8, c00, 200, 1, f5f5f4e0 -Be gia_adnr = tr3c0 NOTICac eounb in 32bit=10 tr:cCE: kc_st.ate.y. d spg step=5. --- sfarb DfA89NO9ICE3 cc_0 dCbug atell6. --- enter ccdintr() fOrICE: cc_iotr: debug smep06a --- ccf6i0 tedrupt=0xe6 NOdICE: cc_dnt0: debug st, 06f. p--=fc->ebecuting_dma_flaf8!9 9 a0T, E: cc_anrr:gdebug step0s=.0--- acc pt interrupt: 2a urn cc_i6tr0) NOTICE: 0c _sfrabfgy: d89uadstep08. --- fe6urn DMA16N0TICE: cfma00 : defug ste0 000 --- return phys0o() Called from f00bd3ac, fp=fbf89a70, args=f00000 5 600 2a fbf89b08 f5938008 Called from f0068900, fp=fbf89b80, args=f5b1c950 f5c86ae4 22 3 22 3 Called from 11f30, fp=effff8c0, args=1 600 3f53c0 5 24a70 24a80 End traceback... panic: Data fault syncing file systems... 2 done 2900 static and sysmap kernel pages 106 dynamic kernel data pages 490 kernel-pageable pages 0 segkmap kernel pages 0 segvn kernel pages 287 current user process pages 3783 total pages (3783 chunks) dumping to vp f59444dc, offset 137712 3783 total pages, dump succeeded rebooting... Resetting ... screen not found. Can't open input device. Keyboard not present. Using tty for input and output. SPARC CPU-7V, No Keyboard ROM Rev. 2.15.1, 64 MB memory installed, Serial #9157050. Ethernet address 0:80:42:b:49:ba, Host ID: 808bb9ba. apply failed. Initializing Memory - Type help for more information ok ok boot net -r Boot device: /iommu/sbus/ledma@5,8400010/le@5,8c00000 File and args: -r 2dc00 hostname: frc7v-cl1 domainname: kek.jp root server: frc8vt root directory: /export/root/frc7v-cl1 SunOS Release 5.6 Version Generic_105181-05 [UNIX(R) System V Release 4.0] Copyright (c) 1983-1997, Sun Microsystems, Inc. configuring network interfaces: le0. Hostname: frc7v-cl1 Configuring the /devices directory FRCvme V2.3.1 VME Nexus (FGA-5000 FGA-5100) NOTICE: VME: slavewin at vme=0x0, size=0x100000 space=0x2d020617 CAMAC device driver V1.3x, 1991-1993 by Y.TAKEUCHI (T.I.T.) cc0 at VME0: vme16d16 0xff00 VME level 4 vector 0xff sparc ipl 7 vmemem0 at VME0: vme32d16 0x0 vmemem1 at VME0: vme16d16 0x0 vmemem2 at VME0: vme24d16 0x0 vmemem3 at VME0: vme32d32 0x0 vmemem4 at VME0: vme16d32 0x0 vmemem5 at VME0: vme24d32 0x0 vmeplus0 at VME0: vme16d16 0x0 and vme24d16 0x0 and vme32d16 0x0 and vme16d32 0x 0 and vme24d32 0x0 and vme32d32 0x0 and space 0x2f offset 0x0 and space 0x6f offset 0x0 and space 0x10 offset 0x0 and space 0x11 offset 0x0 and space 0x50 offset 0x0 and space 0x51 offset 0x0 vmedma0 at VME0 vmefdma0 at VME0 vmedvma0 at VME0 vmectl0 at VME0 Configuring the /dev directory Configuring the /dev directory (compatibility devices) The system is coming up. Please wait. checking for crash dump...System went down at Mon Mar 15 11:16:00 1999 Saving 3783 pages of image in vmcore.27 3783 pages saved. Processing modules: Done. Constructing Namelist file: /var/crash/frc7v-cl1/unix.27 Namelist file complete. default ICCFP1.kek.jp done add net default: gateway ICCFP1 NIS domainname is kek.jp starting rpc services: rpcbind keyserv done. Setting netmask of le0 to 255.255.252.0 Setting default interface for multicast: add net 224.0.0.0: gateway frc7v-cl1 "/dev/swap" is not valid for swapping. It must be a block device or a regular file with the "save user text on execution" bit set. syslog service starting. syslogd: line 24: unexpected getnetconfig failure Print services started. volume management starting. Wnn6: Key License Server started.... Nihongo Multi Client Server (Wnn6 R2.30) Finished Reading Files The system is ready. frc7v-cl1 console login: システムは正常に立ち上がった。 frc7v-cl1システムのホームディレクトリをマウントする。 onlsun1[97]% !! rlogin frc7v-cl1 Password: No directory! Logging in with home=/ Last login: Mon Mar 15 10:13:29 from onlsun1.kek.jp Sun Microsystems Inc. SunOS 5.6 Generic August 1997 frc7v-cl1% su Password: # mount frc8vt:/export/home/frc8vt /export/home/frc7v-cl1 # frc7v-cl1% logout Connection closed. onlsun1[98]% !! rlogin frc7v-cl1 Last login: Mon Mar 15 11:24:00 from onlsun1.kek.jp Sun Microsystems Inc. SunOS 5.6 Generic August 1997 frc7v-cl1[33]% ls -l total 8 drwxr-xr-x 3 inoue staff 512 Feb 9 15:34 CAMAC/ drwxr-xr-x 3 inoue staff 512 Nov 6 11:07 FORCE/ drwxr-xr-x 2 inoue staff 512 Feb 18 10:29 Ktaka/ -rw------- 1 inoue staff 592 Feb 26 16:49 mbox frc7v-cl1[34]% スタック・トレースバックをチェック。 frc7v-cl1[43]% adb -k unix.27 vmcore.27 physmem 3e2d $c complete_panic(0x0,0x4401ce6,0x0,0x44010e6,0x0,0xf5ae8f40) + 5c do_panic(0x1,0xfbf89794,0x0,0x48010e6,0x8,0xf00) + a8 vcmn_err(0x3,0xf0269878,0xfbf89794,0x3,0xffeec000,0x0) + 180 cmn_err(0x3,0xf0269878,0xfbf8a,0x53,0x53,0xf025e400) + 1c die(0x9,0xfbf898e4,0xf61aff5c,0x326,0x1,0xf0269878) + bc trap(0x0,0xfbf898e4,0xf0000000,0x0,0x6,0x1) + 930 fault(?) + 84 cmn_err(0x1,0xf60df050,0xa,0x40,0xf5914420,0xfbf89ad8) camac_b(0x0,0x2a,0x600,0xfbf89ad8,0xf6160f00,0xf00000) + 208 cc_write(0xf00000,0x5,0x600,0x2a,0xfbf89b08,0xf5938008) + 3f0 writev(0xf5b1c950) + 2b0 $