huggingdace tokenizer踩坑

tokenizer有个私有方法_convert_token_to_id,但这个方法是不会考虑added的词表的,如果用这个函数获取额外添加的词,会返回unk的id,正确的方法是采用_convert_token_to_id_with_added_voc这个函数。

原文地址:https://www.cnblogs.com/LukeStepByStep/p/14887081.html