抓取单词音节

抓取单词音节——用多台计算机加快抓取速度

新产品的单词拼写做了很大改动,这次加上了按照音节进行拼写练习的过程。所谓“按音节”,就是按照英文单词的发音规律把字母进行拆分。例如单词“construction”,发音为“康斯爪克深”,按照这个发音规律,可以把字母拆分为“con(康)”、“struc(斯爪克)”、“tion(深)”。这就是音节,按照这个规律可以很快记住并拼会一个单词。

现有的数据库中有存放单词的数据表all_word,这个表在一个月以前就加入了音节字段syllable,并且音节数据也都加进去了。音节数据是怎么加上的呢?是琛子写了一个PHP Shell脚本,到一个网站上去抓取音节文本,然后保存到数据库。这个网址是http://www.juiciobrennan.com/syllables/,在文本框里输入“construction”,单击提交按钮,就可以得到按音节拆分的结果“con-struc-tion”。这个网址可是省了研发部不少力气,因为按音节拆分单词的算法可是相当复杂的。

距离新产品上线时间越来越近了,Jin询问琛子数据是不是都已经准备好了?琛子说音节还需要再重新抓取一下。琛子是南方人,说话声音很轻,而且也不爱说话。琛子做事情非常谨慎,就算不在工作场合谈论工作话题时,也会左顾右盼的确定没有任何问题,才低声说一两句。Jin得知音节还需要再重新抓取感到有些不解,因为早在一个月前,音节数据就有了。琛子解释说,因为单词数据表添加了不少新内容。Jin同意让琛子重新抓取数据,最后还关切的问了一句:“大概什么时候能抓完?”,琛子说:“大概两天吧”。

Jin:“啊?用两天?!”

琛子:“上回抓数据,不也是用两天吗?”

琛子停顿了一会儿又说:“数据挺多的,8万多个单词”

Jin意识到抓取音节数据不能持续进行两天,这样会推迟测试时间导致项目无法如期上线!所以Jin向琛子提出了要求,希望能在两个小时内就完成抓取工作。

琛子目前也没有好的办法给程序提速,只能盼望自己的机器跑的快一点。Jin向琛子要来了音节抓取代码,源文件是用PHP写的,但是为了方便读者下载和调试,我使用C#语言进行复述。如下:

代码
using System;
using System.Collections.Generic;
using System.IO;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;

using MySql.Data.MySqlClient;

namespace DOSApp0
{
/// <summary>
/// 主应用程序类
/// </summary>
class MainApp
{
/// <summary>
/// 目标 URL
/// </summary>
private const String TARGET_URL = "http://www.juiciobrennan.com/syllables/";

/// <summary>
/// MySQL 连接字符串
/// </summary>
private const String MYSQL_CONN = "Database=temp_test;Data Source=127.0.0.1;User Id=root;Password=";

/// <summary>
/// 获取单词列表
/// </summary>
private const String SQL_GetWordList = "SELECT `english` FROM `all_word`";

/// <summary>
/// 更新单词音节
/// </summary>
private const String SQL_UpdateWord = "UPDATE `all_word` SET `syllable` = @syllable WHERE `english` = @word";

/// <summary>
/// 应用程序主函数
/// </summary>
/// <param name="args"></param>
static void Main(string[] args)
{
// 开始抓取
(new MainApp()).Start();

Console.WriteLine(
"press 'ENTER' exit");
Console.ReadLine();
}

/// <summary>
/// 开始运行
/// </summary>
public void Start()
{
IList
<String> wordList = this.GetWordList();

foreach (String word in wordList)
{
Console.Write(word);

if (!this.CanGrab(word))
{
Console.WriteLine(
" --> No");
continue;
}

// 获取相应文本
String responseText = this.PostWord(word);

if (String.IsNullOrEmpty(responseText))
{
Console.WriteLine(
" --> No");
continue;
}

// 提取音节
String syllable = this.ExtractSyllable(responseText);

if (String.IsNullOrEmpty(syllable))
{
Console.WriteLine(
" --> No");
continue;
}

// 更新音节
this.UpdateWord(word, syllable);
// 更新成功
Console.WriteLine(" --> Yes");
}
}

/// <summary>
/// 获取英文单词列表
/// </summary>
/// <returns></returns>
private IList<String> GetWordList()
{
// 创建连接
MySqlConnection sqlConn = new MySqlConnection(MainApp.MYSQL_CONN);
// 创建命令
MySqlCommand sqlCmd = new MySqlCommand(MainApp.SQL_GetWordList, sqlConn);

// 单词列表
List<String> wordList = new List<String>();

try
{
sqlConn.Open();

// 执行 SQL 查询
MySqlDataReader dr = sqlCmd.ExecuteReader();

while (dr.Read())
{
// 添加单词到列表
wordList.Add(Convert.ToString(dr["english"]));
}
}
catch
{
throw;
}
finally
{
sqlConn.Close();
}

return wordList;
}

/// <summary>
/// 是否可以抓取音节
/// </summary>
/// <param name="word"></param>
/// <returns></returns>
private bool CanGrab(String word)
{
return !(new Regex(@"[^(\w)]+")).IsMatch(word);
}

/// <summary>
/// 发送单词获取音节文本
/// </summary>
/// <param name="word"></param>
/// <returns></returns>
private String PostWord(String word)
{
if (String.IsNullOrEmpty(word))
{
return "";
}

// 创建 Web 请求
WebRequest request = WebRequest.Create(MainApp.TARGET_URL);

// 获取发送内容
byte[] postContent = Encoding.UTF8.GetBytes(String.Format("inputText={0}", word));

request.ContentType
= "application/x-www-form-urlencoded";
request.ContentLength
= postContent.LongLength;
request.Method
= "POST";

// 获取请求流对象
Stream requestStream = request.GetRequestStream();

// 设置 POST 参数
requestStream.Write(postContent, 0, postContent.Length);
requestStream.Flush();
requestStream.Close();

// 获取响应
HttpWebResponse response = request.GetResponse() as HttpWebResponse;

// 获取响应流对象
Stream responseStream = response.GetResponseStream();

// 创建文本读取流
StreamReader sr = new StreamReader(responseStream);

return sr.ReadToEnd();
}

/// <summary>
/// 获取音节字符串
/// </summary>
/// <param name="src"></param>
/// <returns></returns>
private String ExtractSyllable(String src)
{
if (String.IsNullOrEmpty(src))
{
return "";
}

// 创建提取音节正则表达式
Regex syllableRegex = new Regex(@"<textarea cols=""48"" rows=""10"" id=""inputText"" name=""inputText"">(.*)<\/textarea>");

// 匹配
Match syllableMatch = syllableRegex.Match(src);

if (syllableMatch == null)
{
return "";
}

String syllable
= syllableMatch.Value;

if (String.IsNullOrEmpty(syllable))
{
return "";
}

// 清除 html 标记
syllable = new Regex(@"<[^>]*>").Replace(syllable, "");

return syllable;
}

/// <summary>
/// 更新单词音节
/// </summary>
/// <param name="word"></param>
/// <param name="syllable"></param>
private void UpdateWord(String word, String syllable)
{
if (String.IsNullOrEmpty(word) || String.IsNullOrEmpty(syllable))
{
return;
}

// 创建连接
MySqlConnection sqlConn = new MySqlConnection(MainApp.MYSQL_CONN);
// 创建命令
MySqlCommand sqlCmd = new MySqlCommand(MainApp.SQL_UpdateWord, sqlConn);

// 音节
sqlCmd.Parameters.AddWithValue("@syllable", syllable);
// 单词
sqlCmd.Parameters.AddWithValue("@word", word);

try
{
sqlConn.Open();
sqlCmd.ExecuteNonQuery();
}
catch
{
throw;
}
finally
{
sqlConn.Close();
}
}
}
}

Jin看到这个代码后,第一感觉是逻辑很清晰。总共就以下几步:

  1. 从数据库中取出所有单词,存入一个列表;
  2. 从列表中读取一个单词,到指定网址抓音节;
  3. 利用正则表达式提取音节字符串;
  4. 更新数据库;
  5. 重复第2步到第4步,直到所有单词全部抓取完;

流程图如图1所示:

(图1)音节抓取程序流程图

虽然流程上很清晰没什么问题,但是Jin觉得这里面还是存在问题的。首先第一步,从数据库中取出所有单词,就不是一个很好的做法。all_word数据表里一共有8万多条记录,将这些记录全部读取出来,会占用很大内存,甚至是内存溢出。Jin刚出道的时候,就犯过这个错误。其次是第二步,从列表中读取一个单词,到指定网址抓音节。Jin考察了一下http://www.juiciobrennan.com/syllables/这个地址,这个地址允许提交多个单词。也就是说,可以在输入框里输入多个单词,用回车区分。换成程序方式就用WebRequest发送这样的数据“inputText=construction\r\nenglish\r\nchinese”。将数据积攒在一起批量发送,性能上要高于频繁发送零散数据,因为进行一次HTTP连接是相当昂贵的!

减少远程请求次数是提高系统性能的重要手段!但即便这样,还是无法满足Jin要求的两个小时内抓取完所有数据。对于要完成的任务不仅仅要考虑编码上的优化,还要考虑从部署上进行优化。琛子自己的机器负责跑程序抓取单词,而数据库是放在另外一个服务器上,部署视图如图2所示:

(图2)部署视图

琛子不明白,抓音节怎么又扯到部署上?Jin解释说,如果摆在你面前一个大水缸,里面装的不是水都是米饭,现在我要求你两个小时内把米饭都吃光!让一个人在一个月左右吃光一缸米饭,应该很容易做到。但是让一个人在两个小时内吃完,那是根本不可能做到的,人早就被撑死了。要达到这样苛刻的要求,难道就一点办法都没有吗?当然是有!你不要真的傻到一个人去吃,要发动更多的人来帮你一起吃,人越多,吃的就越快越干净。正所谓人多力量大,众人吃饭热情高。再例如某个写字楼里的保洁人员,如果让一个保洁人员清扫整个大楼,那会被累死的。而实际情况是,每一个保洁负责一个楼层,甚至是多个保洁负责一个楼层。其核心思想就是将一个大块任务,分解成多个小任务,分派给多个执行单元同时进行处理。

那么回到音节抓取这个真实案例中,我们可以多启动几个程序,多找几台机器同时抓取。我们将数据分成几区段,不同的机器负责不同的区段,如图3所示:

(图3)部署视图

Jin快速重构了代码,重构结果如下:

Word.cs

代码
using System;

namespace DOSApp1
{
/// <summary>
/// 单词
/// </summary>
public class Word
{
/// <summary>
/// 获取或设置 ID
/// </summary>
public int ID
{
get;
set;
}

/// <summary>
/// 获取或设置英文
/// </summary>
public String English
{
get;
set;
}

/// <summary>
/// 获取或设置音节
/// </summary>
public String Syllable
{
get;
set;
}
}
}

Grabber.cs

代码
using System;
using System.Collections.Generic;
using System.Configuration;
using System.IO;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;

using MySql.Data.MySqlClient;

namespace DOSApp1
{
/// <summary>
/// 音节抓取者
/// </summary>
public class Grabber
{
/// <summary>
/// 目标 URL
/// </summary>
private const String TARGET_URL = "http://www.juiciobrennan.com/syllables/";

/// <summary>
/// 获取单词列表
/// </summary>
private const String SQL_GetWordList = "SELECT `id`, `english` FROM `all_word` WHERE `id` >= @startID AND `id` <= @overID ORDER BY `id` ASC";

/// <summary>
/// 更新单词音节
/// </summary>
private const String SQL_UpdateWordList = "UPDATE `all_word` SET `syllable` = @syllable WHERE `id` = @id";

#region 类构造器
/// <summary>
/// 类参数构造器
/// </summary>
/// <param name="startID"></param>
/// <param name="overID"></param>
public Grabber(int startID, int overID)
{
this.StartID = startID;
this.OverID = overID;
}
#endregion

/// <summary>
/// 获取开始 ID
/// </summary>
public int StartID
{
get;
protected set;
}

/// <summary>
/// 获取结束 ID
/// </summary>
public int OverID
{
get;
protected set;
}

/// <summary>
/// 开始抓取
/// </summary>
public void StartGrab()
{
for (int i = this.StartID; i <= this.OverID; i += 20)
{
// 开始 ID
int startID = i;
// 结束 ID
int overID = i + 20;

// 获取单词列表
IList<Word> wordList = this.GetWordList(startID, overID);

if (wordList == null || wordList.Count <= 0)
{
continue;
}

// 发送单词列表并获取响应文本
String responseText = this.PostWord(wordList);

if (String.IsNullOrEmpty(responseText))
{
continue;
}

// 获取音节列表
IList<String> syllableList = this.ExtractSyllable(responseText);

// 设置单词音节
this.PutWordSyllable(wordList, syllableList);
// 更新单词列表
this.UpdateWordList(wordList);
// 屏幕打印结果
this.PrintResult(wordList);
}
}

/// <summary>
/// 获取英文单词列表
/// </summary>
/// <param name="startID"></param>
/// <param name="overID"></param>
/// <returns></returns>
private IList<Word> GetWordList(int startID, int overID)
{
// 创建连接
MySqlConnection sqlConn = new MySqlConnection(ConfigurationManager.ConnectionStrings["MySQL5"].ConnectionString);
// 创建命令
MySqlCommand sqlCmd = new MySqlCommand(Grabber.SQL_GetWordList, sqlConn);

// 开始 ID
sqlCmd.Parameters.AddWithValue("@startID", startID);
// 结束 ID
sqlCmd.Parameters.AddWithValue("@overID", overID);

// 单词列表
List<Word> wordList = new List<Word>();

try
{
sqlConn.Open();

// 执行 SQL 查询
MySqlDataReader dr = sqlCmd.ExecuteReader();

while (dr.Read())
{
Word w
= new Word();

// ID
w.ID = Convert.ToInt32(dr["id"]);
// 英文
w.English = Convert.ToString(dr["english"]);

wordList.Add(w);
}
}
catch
{
throw;
}
finally
{
sqlConn.Close();
}

return wordList;
}

/// <summary>
/// 发送单词获取音节文本
/// </summary>
/// <param name="wordList"></param>
/// <returns></returns>
private String PostWord(IList<Word> wordList)
{
if (wordList == null || wordList.Count <= 0)
{
return "";
}

String text
= "";

// 是否为词组
Regex isPhrase = new Regex(@"[^(\w)]+");

foreach (Word w in wordList)
{
// 不是词组才可以抓取音节
if (isPhrase.IsMatch(w.English) == false)
{
text
+= w.English + "\r\n";
}
}

// 创建 Web 请求
WebRequest request = WebRequest.Create(Grabber.TARGET_URL);

// 获取发送内容
byte[] postContent = Encoding.UTF8.GetBytes(String.Format("inputText={0}", text));

request.ContentType
= "application/x-www-form-urlencoded";
request.ContentLength
= postContent.LongLength;
request.Method
= "POST";

// 获取请求流对象
Stream requestStream = request.GetRequestStream();

// 设置 POST 参数
requestStream.Write(postContent, 0, postContent.Length);
requestStream.Flush();
requestStream.Close();

// 获取响应
HttpWebResponse response = request.GetResponse() as HttpWebResponse;

// 获取响应流对象
Stream responseStream = response.GetResponseStream();

// 创建文本读取流
StreamReader sr = new StreamReader(responseStream);

return sr.ReadToEnd();
}

/// <summary>
/// 获取音节字符串
/// </summary>
/// <param name="src"></param>
/// <returns></returns>
private IList<String> ExtractSyllable(String src)
{
if (String.IsNullOrEmpty(src))
{
return null;
}

// 创建提取音节正则表达式
Regex syllableRegex = new Regex(@"<textarea cols=""48"" rows=""10"" id=""inputText"" name=""inputText"">.*?<\/textarea>", RegexOptions.Singleline);

// 匹配
Match syllableMatch = syllableRegex.Match(src);

if (syllableMatch == null)
{
return null;
}

String syllable
= syllableMatch.Value;

if (String.IsNullOrEmpty(syllable))
{
return null;
}

// 清除 html 标记
syllable = new Regex(@"<[^>]*>").Replace(syllable, "");
syllable
= syllable.Replace("\r\n", ";");

return syllable.Split(';');
}

/// <summary>
/// 设置单词音节
/// </summary>
/// <param name="wordList"></param>
/// <param name="syllableList"></param>
private void PutWordSyllable(IList<Word> wordList, IList<String> syllableList)
{
if (wordList == null || wordList.Count <= 0)
{
return;
}

if (syllableList == null || syllableList.Count <= 0)
{
return;
}

Dictionary
<String, Word> tempDict = new Dictionary<string, Word>();

// 将单词列表加入到临时字典
foreach (Word w in wordList)
{
if (tempDict.ContainsKey(w.English) == false)
{
tempDict.Add(w.English, w);
}
}

// 查找单词并更新音节
foreach (String syllable in syllableList)
{
String english
= syllable.Replace("-", "");

if (tempDict.ContainsKey(english))
{
tempDict[english].Syllable
= syllable;
}
}
}

/// <summary>
/// 更新单词列表
/// </summary>
/// <param name="wordList"></param>
/// <param name="syllable"></param>
private void UpdateWordList(IList<Word> wordList)
{
if (wordList == null || wordList.Count <= 0)
{
return;
}

// 创建连接
MySqlConnection sqlConn = new MySqlConnection(ConfigurationManager.ConnectionStrings["MySQL5"].ConnectionString);
// 创建命令
MySqlCommand sqlCmd = new MySqlCommand(Grabber.SQL_UpdateWordList, sqlConn);

// 音节
sqlCmd.Parameters.AddWithValue("@syllable", "");
// ID
sqlCmd.Parameters.AddWithValue("@id", "");

try
{
sqlConn.Open();

foreach (Word w in wordList)
{
// ID
sqlCmd.Parameters["@id"].Value = w.ID;
// 音节
sqlCmd.Parameters["@syllable"].Value = w.Syllable;

sqlCmd.ExecuteNonQuery();
}
}
catch
{
throw;
}
finally
{
sqlConn.Close();
}
}

/// <summary>
/// 屏幕打印结果
/// </summary>
/// <param name="wordList"></param>
private void PrintResult(IList<Word> wordList)
{
if (wordList == null || wordList.Count <= 0)
{
return;
}

foreach (Word w in wordList)
{
Console.WriteLine(
"{0} => {1}", w.English, String.IsNullOrEmpty(w.Syllable) ? "No" : "Yes");
}
}
}
}

MainApp.cs

代码
using System;
using System.Configuration;
using System.Threading;

namespace DOSApp1
{
/// <summary>
/// 主应用程序类
/// </summary>
class MainApp
{
/// <summary>
/// 应用程序主函数
/// </summary>
/// <param name="args"></param>
static void Main(string[] args)
{
// 开始抓取
(new MainApp()).Start();

Console.WriteLine(
"press 'ENTER' exit");
Console.ReadLine();
}

/// <summary>
/// 开始运行
/// </summary>
public void Start()
{
// 获取开始 ID
int startID = this.GetStartID();
// 获取结束 ID
int overID = this.GetOverID();

if (overID < startID)
{
return;
}

// 获取线程数
int threadNum = this.GetThreadNum();
// 最大记录数
int maxRecord = (overID - startID) / threadNum;

for (int i = 1; i <= threadNum; i++)
{
Grabber g
= null;

if (i == threadNum)
{
g
= new Grabber(startID, overID);
}
else
{
g
= new Grabber(startID, startID + maxRecord - 1);
}

// 创建线程
Thread t = new Thread(new ThreadStart(g.StartGrab));

// 启动线程
t.Start();

startID
+= maxRecord;
}
}

/// <summary>
/// 获取开始 ID
/// </summary>
/// <returns></returns>
private int GetStartID()
{
return Convert.ToInt32(ConfigurationManager.AppSettings["StartID"]);
}

/// <summary>
/// 获取结束 ID
/// </summary>
/// <returns></returns>
private int GetOverID()
{
return Convert.ToInt32(ConfigurationManager.AppSettings["OverID"]);
}

/// <summary>
/// 获取线程数
/// </summary>
/// <returns></returns>
private int GetThreadNum()
{
return Convert.ToInt32(ConfigurationManager.AppSettings["ThreadNum"]);
}
}
}

App.config

代码
<?xml version="1.0" encoding="utf-8" ?>
<configuration>
<appSettings>
<add key="StartID" value="40001" />
<add key="OverID" value="70000" />
<add key="ThreadNum" value="5" />
</appSettings>
<connectionStrings>
<add name="MySQL5" connectionString="Database=temp_test;Data Source=192.168.1.6;User Id=root;Password=" />
</connectionStrings>
</configuration>

Jin从测试部临时借来了一台闲置的机器,加上自己和琛子的机器,一共三台机器同时抓取。短短半个小时就完成了任务。接下来,Jin就要提交测试申请到测试部。

本文程序代码可以通过https://files.cnblogs.com/afritxia2008/SyllableGrabber.rar下载。

原文地址:https://www.cnblogs.com/afritxia2008/p/1685383.html