一次寻找Bug的“痛苦”旅程

最近在做一个数据量很大的程序，这个程序的功能就是采集互联网上的链接，供用户查询，专业俗语叫“反链查询”或“外链查询”。

比如http://www.cnblogs.com页面内有友情链接这么多

我要做的就是把这些链接保存到数据库里，其对应的域名就是http://www.cnblogs.com
当用户查询的时候，输入chinaz.com，就会列出www.cnblogs.com。
Demo地址：http://outlink.chinaz.com

中国互联网顶级域名的数量可能是200多万，加上常用二级、三级域名，数量可能在千万，如果平均每个域名上有10个链接的话，差不多会有上亿的数据，并且还要定期更新。数据库设计为两个数据库，OutUrls和OutLinks，OutUrls用来保存域名，及其上面对应的链接，链接的保存采用LinkId+表后缀，表后缀是按照域名的第一个字母。考虑到每个表的数据量不能太大，采用了水平分表，根据域名的第一个字母，相同字母的归到同一个数据表。

但当数据库文件达到10G，数据的select，insert，update就比较慢，性能监视器中显示Avg.Disk Queue Length的平均值达到20以上，程序日志记录里很多
Timeout expired. The timeout period elapsed prior to completion of the operation or the server is not responding. at System.Data.SqlClient.SqlConnection.OnError(SqlException exception, Boolean breakConnection)
select一条记录都要1分钟。

再说用户查询的性能，查询是通过查询视图，来获取数据，考虑到查询的性能，表的设计，字段出现了冗余，结果是每个域名第一次查询的时候很慢，像查询qq.com差不多要4s，第二次就比较快1s。这时数据量并不大，我想如果再大点的话，会更慢。
以前就听说过lucene.net，全文的搜索引擎，其实一开始并不想把程序做得很复杂，能简单点，就简单的。现在这种情况下，还是试一下lucene.net吧。所以，就开始使用lucene.net了，效果果然很棒，几乎每个查询都能在1s以内。
由于有些数据要先在数据库里更新，然后再更新到Lucene索引，所以，现在的做法是数据库保留，用户搜索是查询LuceneIndex里的数据，只要每天定时更新LuceneIndex就行了。

再回到Avg.Disk Queue Length持续很大这个问题。
由于服务器硬盘使用的是RAID，其实只有两个硬盘，同事建议说，可以把OutLinks数据库放到另外一个盘，我就按照他的建议做了，感觉并没有快多少。程序跑了一段时间，文件日志里记录，很多错误，形如：不能在具有唯一索引 'IX_Link1Q_Domain' 的对象 'dbo.Link1Q' 中插入重复键的行。

Link1Q表里有一个unique 索引，在insert之前，我已经判断是否存在，但是还是会报这个错误。
然后 DBCC CHECKDB (OutLinks) 爆出了一大堆的错误:

 1 消息 8978，级别 16，状态 1，第 1 行
 2 表错误: 对象 ID 1749581271，索引 ID 1，分区 ID 72057594148814848，分配单元 ID 72057594138525696 (类型为In-row data)。页 (1:54760) 缺少上一页 (1:563545) 对它的引用。可能是因为链链接有问题。
 3 消息 8935，级别 16，状态 1，第 1 行
 4 表错误: 对象 ID 1749581271，索引 ID 1，分区 ID 72057594148814848，分配单元 ID 72057594138525696 (类型为In-row data)。页 (1:60960) 上的上一页链接 (1:433433) 与父代 (1:50171) 槽 29 所预期的此页的上一页(1:655512) 不匹配。
 5 消息 8936，级别 16，状态 1，第 1 行
 6 表错误: 对象 ID 1749581271，索引 ID 1，分区 ID 72057594148814848，分配单元 ID 72057594138525696 (类型为In-row data)。B 树链链接不匹配。(1:655512)->next = (1:60960)，但 (1:60960)->Prev = (1:433433)。
 7 消息 2533，级别 16，状态 1，第 1 行
 8 表错误: 看不到分配给对象 ID 1749581271，索引 ID 1，分区 ID 72057594148814848，分配单元 ID72057594138525696 (类型为 In-row data)的页 (1:563544)。该页可能无效，或者页头中可能包含错误的分配单元 ID。
 9 消息 2533，级别 16，状态 1，第 1 行
10 表错误: 看不到分配给对象 ID 1749581271，索引 ID 1，分区 ID 72057594148814848，分配单元 ID72057594138525696 (类型为 In-row data)的页 (1:563545)。该页可能无效，或者页头中可能包含错误的分配单元 ID。
11 消息 8976，级别 16，状态 1，第 1 行
12 表错误: 对象 ID 1749581271，索引 ID 1，分区 ID 72057594148814848，分配单元 ID 72057594138525696 (类型为In-row data)。在扫描过程中未发现页 (1:563545)，但该页的父级 (1:489984) 和上一页 (1:113381) 都引用了它。请检查以前的错误消息。
13 消息 8978，级别 16，状态 1，第 1 行
14 表错误: 对象 ID 1749581271，索引 ID 1，分区 ID 72057594148814848，分配单元 ID 72057594138525696 (类型为In-row data)。页 (1:564660) 缺少上一页 (1:563544) 对它的引用。可能是因为链链接有问题。

CHECKDB 在表 'Link1P' (CHECKDB 在表 'Link1P' (对象 ID 1749581271)中发现 0 个分配错误和 8 个一致性错误。

为了这个问题，确实是寝食难安啊，本来做这个东西已经花费了很多时间，内心已有些焦急，上面的领导时不时的又来问你进度，面对这个以前从没碰到过的问题，就像一个人第一次孤零零地行走于沙漠，无助与凄凉。

不断的修复数据库：

use OutLinks
declare @dbname varchar(255)
set @dbname='OutLinks'
exec sp_dboption @dbname,'single user','true'
dbcc checkdb(dbname,REPAIR_ALLOW_DATA_LOSS)
dbcc checkdb(dbname,REPAIR_REBUILD)
exec sp_dboption @dbname,'single user','false'

只要程序运行了一会，还是会出现错误。
也怀疑是硬盘的问题，用硬盘检测工具，快速检测，没有发现问题，如果不那么急躁的话，舍得那一点时间的话，可能就找到问题了。

以前的经验告诉我，遇到事情总是先找自身的原因，并且经常也是自己的原因，如果你怀疑其他外界条件的话，好像你不能够搞定它，而把它归为外界因素。所以，有时候，走自己的路，让别人去说吧，不失为一种正确的选择，如果你坚信自己的怀疑是正确的话，就去实践吧。

由于程序同时也在优化中，以为是程序的问题，程序是分为服务器端和客服端，都是Console Application，采用WCF进行通信，工作过程是这样的。
一开始考虑到并发问题，以为是多个线程同时更新一张表造成的，为了解决这个问题，服务器端改用采用队列的方式，来更新数据。服务器端先从队列里取出一批待处理的Url，然后把相同表里的数据放到同一个集合，然后多线程的处理这批集合，一个线程负责处理一个集合，这样就可以控制一张表，同时只会有一个线程在操作。这样更改之后，程序运行一段时间之后，DBCC 命令还是会出现一堆的错误，希望又一次破灭，所剩的只是绝望。

此时，硬盘有问题的想法，再次闪过我的脑海，我决定把数据库放回到原来的位置。程序跑了2天之后，dbcc checkdb没有发现错误，欣喜若狂啊，原来不是程序的问题。

虽然这次的错误，花费了很多时间，寻找其中的bug，痛苦，纠结，失望，绝望，无奈。最终还是解决了，也很兴奋，更加自信啦。在解决问题的过程中，程序也不断的得到了优化与改进，也尝试了很多新的方法。因此，还是要感谢bug。