Examples¶

Elsevier Full Pipeline (OpenAlex → Elsevier → Detection → Azure → Dataset)¶

from matmmextract.preprocess.pipeline import load_csvs
from matmmextract.inference.detector import detect
from matmmextract.inference.cropper import crop
from matmmextract.inference.crop_csv_builder import build_crop_csv
from matmmextract.inference.captioner_azure import captioner as azure_caption
from matmmextract.inference.dataset_builder import build
from matmmextract.openalex.fetcher import fetch_elsevier
from matmmextract.elsevier.extractor import extract_all as elsevier_extract
from matmmextract.elsevier.downloader import download_all as elsevier_download
from matmmextract.elsevier.fetcher import fetch_all as elsevier_fetch


elsevier_result = fetch_elsevier(
    license_="cc-by",
    keywords=["titanium"],
    from_year=2020, to_year=2024,
    max_results=1,
    output_csv="output/elsevier_papers.csv",
    api_key="",
)

elsevier_df = load_csvs(["output/elsevier_papers.csv"])

elsevier_fetch(
    df=elsevier_df,
    api_key="",
    inst_token="",
    output_dir="_elsevier",
)

elsevier_figs, _ = elsevier_extract(
    "_elsevier",
    output_csv="output/elsevier_figures.csv",
)

elsevier_download(
    csv_path="output/elsevier_figures.csv",
    output_dir="images/elsevier",
    api_key="",
    inst_token="",
)


# Step 8: detect
detect(
    image_dir="images/elsevier",
    output_dir="inference_results",
    checkpoint="https://huggingface.co/CMEG-IITR/yolo12_unique_multimat",
    conf=0.6, iou=0.4, imgsz=1024,
)

# Step 9: crop
crop(
    image_dir="images/elsevier",
    json_dir="inference_results",
    output_dir="crops",
)

# Step 9.5: build captioning CSV
build_crop_csv(
    crops_dir="crops",
    figures_csv="output/elsevier_figures.csv",
    output_csv="output/crops_for_captioning.csv",
)

# Step 10: generate sub-captions via Azure
azure_caption(
    csv_path="output/crops_for_captioning.csv",
    output_dir="subcaptions",
    api_key="",
    azure_endpoint="",
    model_name="Mistral-Large-3",
    image_name_col="downloaded_image_name",   # matches crops_for_captioning.csv
    caption_col="caption",
    reference_col="reference_sentences",
)

# Step 11: link crops + captions → final dataset
build(
    images_dir="crops",
    json_dir="subcaptions",
    output_csv="elsevier_linked_dataset.csv",
)

Elsevier from Scopus Export (Scopus → Elsevier)¶

from matmmextract.preprocess import (
    load_csvs,
    drop_duplicate_dois,
    filter_open_access,
    save_csv,
)

from matmmextract.preprocess import (
    scan_directory,
    filter_figures_cc_by,
)

from matmmextract.elsevier import (
    fetch_all as elsevier_fetch,
    extract_all as elsevier_extract,
    download_all as elsevier_download,
)


# ── Step 1: Load CSVs ────────────────────────────────────────────────────────
elsevier_df = load_csvs(["scopus.csv"])
elsevier_df = drop_duplicate_dois(elsevier_df)

elsevier_oa = filter_open_access(elsevier_df)

save_csv(elsevier_df, "output/elsevier_papers.csv")


# ── Step 2: Fetch Elsevier XMLs ──────────────────────────────────────────────
elsevier_fetch(
    df=elsevier_df,
    api_key="",
    inst_token="",
    output_dir="_elsevier",
)


# ── Step 3: Extract figures ──────────────────────────────────────────────────
elsevier_figs, _ = elsevier_extract(
    "_elsevier",
    output_csv="output/elsevier_figures.csv",
)


# ── Step 4: CC-BY filtering ──────────────────────────────────────────────────
cc_df, _ = scan_directory(
    "_elsevier",
    output_csv="output/elsevier_cc.csv",
)

elsevier_figs_ccby = filter_figures_cc_by(
    elsevier_figs,
    cc_df,
    output_csv="output/elsevier_figures_ccby.csv",
)


# ── Step 5: Download images ──────────────────────────────────────────────────
elsevier_download(
    csv_path="output/elsevier_figures_ccby.csv",
    output_dir="images/elsevier",
    api_key="",
    inst_token="",
)

Springer Full Pipeline (OpenAlex → Springer → Detection (model checkpoint from Hugging Face Hub) → Gemini → Dataset)¶

from matmmextract.openalex import fetch_springer
from matmmextract.preprocess import load_csvs

from matmmextract.springer import (
    fetch_all as springer_fetch,
    extract_all as springer_extract,
    download_all as springer_download,
)

from matmmextract.inference import (
    detect,
    crop,
    build_crop_csv,
    gemini_captioner as gemini_caption,
    build,
)

springer_result = fetch_springer(
    license_=["cc-by", "cc-by-nc"],
    keywords=["alloy"],
    max_results=1,
    output_csv="output/springer_papers.csv",
    api_key="",
)

springer_df = load_csvs(["output/springer_papers.csv"])

springer_fetch(
    df=springer_df,
    api_key="",
    output_dir="_springer",
    use_open_access=True,
)


# ── Step 3: Extract figures from XMLs ────────────────────────────────────────
springer_figs, _ = springer_extract(
    "_springer",
    output_csv="output/springer_figures.csv",
)


# ── Step 4: Download figure images ───────────────────────────────────────────
springer_download(
    csv_path="output/springer_figures.csv",
    output_dir="images/springer",
)

detect(
    image_dir="images/springer",
    output_dir="inference_results",
    checkpoint="https://huggingface.co/CMEG-IITR/yolo12_unique_multimat",
    conf=0.6, iou=0.4, imgsz=1024,
)

# Step 9: crop
crop(
    image_dir="images/springer",
    json_dir="inference_results",
    output_dir="crops",
)

# Step 9.5: build captioning CSV
build_crop_csv(
    crops_dir="crops",
    figures_csv="output/springer_figures.csv",
    output_csv="output/crops_for_captioning.csv",
)

# Step 10: generate sub-captions via gemini
gemini_caption(
    csv_path="output/crops_for_captioning.csv",
    output_dir="subcaptions",
    api_key="",
)

# Step 11: link crops + captions → final dataset
build(
    images_dir="crops",
    json_dir="subcaptions",
    output_csv="springer_linked_dataset.csv",
)

Springer from Scopus Export (Scopus → Springer)¶

from matmmextract.preprocess import (
    load_csvs,
    drop_duplicate_dois,
    save_csv,
)

from matmmextract.springer import (
    fetch_all as springer_fetch,
    extract_all as springer_extract,
    download_all as springer_download,
)


# ── Step 1: Load CSVs ────────────────────────────────────────────────────────
springer_df = load_csvs(["scopus.csv"])
springer_df = drop_duplicate_dois(springer_df)

springer_df = filter_by_publisher(df, pattern=r"\bSpringer\b")

save_csv(springer_df, "output/springer_papers.csv")


# ── Step 2: Fetch Springer XMLs ──────────────────────────────────────────────
springer_fetch(
    df=springer_df,
    api_key="",
    output_dir="_springer",
    use_open_access=True,
)


# ── Step 3: Extract figures from XMLs ────────────────────────────────────────
springer_figs, _ = springer_extract(
    "_springer",
    output_csv="output/springer_figures.csv",
)


# ── Step 4: Download figure images ───────────────────────────────────────────
springer_download(
    csv_path="output/springer_figures.csv",
    output_dir="images/springer",
)

Cleanup Intermediate Files¶

from matmmextract.inference import clean

clean(dry_run=True)
# clean()