deepset-ai · Timoeller · Aug 31, 2020 · Aug 9, 2020 · Aug 17, 2020 · Aug 29, 2020
diff --git a/farm/modeling/language_model.py b/farm/modeling/language_model.py
@@ -134,6 +134,11 @@ def load(cls, pretrained_model_name_or_path, n_added_tokens=0, language_model_cl
                     language_model_class = 'XLMRoberta'
                 elif 'roberta' in pretrained_model_name_or_path:
                     language_model_class = 'Roberta'
+                elif 'codebert' in pretrained_model_name_or_path.lower():
+                    if "mlm" in pretrained_model_name_or_path.lower():
+                        raise NotImplementedError("MLM part of codebert is currently not supported in FARM")
+                    else:
+                        language_model_class = 'Roberta'
                 elif 'camembert' in pretrained_model_name_or_path or 'umberto' in pretrained_model_name_or_path:
                     language_model_class = "Camembert"
                 elif 'albert' in pretrained_model_name_or_path:

diff --git a/farm/modeling/tokenization.py b/farm/modeling/tokenization.py
@@ -70,6 +70,11 @@ def load(cls, pretrained_model_name_or_path, tokenizer_class=None, **kwargs):
                 tokenizer_class = "XLMRobertaTokenizer"
             elif "roberta" in pretrained_model_name_or_path.lower():
                 tokenizer_class = "RobertaTokenizer"
+            elif 'codebert' in pretrained_model_name_or_path.lower():
+                    if "mlm" in pretrained_model_name_or_path.lower():
+                        raise NotImplementedError("MLM part of codebert is currently not supported in FARM")
+                    else:
+                        tokenizer_class = "RobertaTokenizer"
             elif "camembert" in pretrained_model_name_or_path.lower() or "umberto" in pretrained_model_name_or_path:
                 tokenizer_class = "CamembertTokenizer"
             elif "distilbert" in pretrained_model_name_or_path.lower():