【大数据】字符串、文件操作，英文词频统计预处理

作业要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646

1.字符串操作：

解析身份证号：生日、性别、出生地等。

add_num = {'440116':'罗岗区','440106':'天河区','440103':'荔湾区','440104':'越秀区','440105':'海珠区','440111':'白云区',
           '440183':'增城区','440112':'黄埔区','440113':'番禺区','440114':'花都区','440115':'南沙区'}
id = input('请输入身份证号码：')
birth_year = id[6:10]
birth_month = id[10:12]
birth_day = id[12:14]
sex = id[16]
if int(sex)%2 == 0:
    sex='女'
else:
    sex='男'
print('您输入的身份证号码是（广州市）：{}'.format(id))
print('出生地编码：{}
出生时间：{}年{}月{}日
性别：{}'.format(add_num[id[0:6]],birth_year,birth_month,birth_day,sex))

ps：这是一个乱编的身份证号码

凯撒密码编码与解码

在密码学中，恺撒密码是一种最简单且最广为人知的加密技术。它是一种替换加密的技术，明文中的所有字母都在字母表上向后（或向前）按照一个固定数目进行偏移后被替换成密文。例，当偏移量是3的时候，所有的字母A将被替换成D，B变成E，以此类推。

text =input('输入需要加密的单词：')
str=''
text = text.lower()
for i in range(len(text)):
    text.split()
    if(ord(text[i]) >= 97 and ord(text[i]) <= 122):
        str = str + (chr(ord(text[i])+3))
    else:
        str = str + text[i]
print(str)

网址观察与批量生成

for i in range(2,6):
    url='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
    print(url)

2.英文词频统计预处理

下载一首英文的歌词或文章或小说，保存为utf8文件。
从文件读出字符串。
将所有大写转换为小写
将所有其他做分隔符（,.？！）替换为空格
分隔出一个一个的单词
并统计单词出现的次数。

f = open('MyFather.txt',mode='r',encoding='utf-8')
text = f.read()
f.close()
text = text.lower()
sep = ',.?!;:_'
for s in sep:
    text = text.replace(s,' ')
print(text.split())
print(text.count('father'),text.count('he'))