百度脚本笔试题3道

1、写脚本实现，可以用shell、perl等。在目录/tmp下找到100个以abc开头的文件，然后把这些文件的第一行保存到文件new中。
2、写脚本实现，可以用shell、perl等。把文件b中有的，但是文件a中没有的所有行，保存为文件c，并统计c的行数。
解答思路：

1：觉得用shell更好一些，代码如下

#!/bin/sh
for filename in `find /tmp -type f -name "abc*"|head -n 100`
do
sed -n '1p' $filename>>new
done

注释：第一，用到了find命令，其中-type f表示选取普通文件，-name用于设定文件名；第二，head -n 100命令用于取出前100项。第三，sed -n ‘1p’用于取出文件的第一行内容。第四，>>new表示追加到文件new中。
2：第二个题目还是用perl更方便一些，代码如下：
[rocrocket@wupengchong shellstudy]$ cat roc.pl

#!/usr/bin/perl -w
open B,"<b" or die "b error.($!)";
open C,">c" or die "c error.($!)";
my $find=0;
my ($myb,$mya);
while(<B>){
	$find=0;
	chomp($myb=$_);
	print "B ",$myb,"
";
	open A,"<a" or die "a error.($!)";
	while(<A>){
		chomp($mya=$_);
		print "A ",$mya,"
";
		if($mya=~/$myb/){
			$find=1;
			print "FIND!
";
		}
	}
	if($find==0){
		print C $myb,"
";
	}
}
close A;
close B;
close C;
$linenum=`cat c|wc -l`;
print "c line count:",$linenum;

3.百度文件数统计

一个文本有多行,每行为一个URL,请编写一代码,统计出URL中的文件名及出现的次数

a)文件名不包括域名,路径和URL参数.例如:http://www.ourday.cn/bbs/forumdisplay.pha?fid=18中

的文件名是:forumdisplay.php

b)部分URL可能无文件名.例如:http://www.ourday.cn/,这类统计为"空文件名".

c)出现在不同URL中的相同文件名视为相同文件名.

文件内容如下:

http://www.ourday.cn/bbs/index.php

http://www.ourday.cn/index.php

http://ftp.ourday.cn/index.html

http://www.ourday.cn/bbs/index.php?k=8

http://www.ourday.cn/bbs/forumdisplay.php?fid=16

http://www.ourday.cn/

http://www.ourday.com.cn/

以上url地址经修改,不影响内容

方法一:sed实现