mastodon.world is one of the many independent Mastodon servers you can use to participate in the fediverse.
Generic Mastodon server for anyone to use.

Server stats:

8.1K
active users

#duckdb

5 posts4 participants1 post today

My talks at @useR_conf is here defuneste.codeberg.page/useR_2

tldr: I think storing "big" data as a parquet files, stored in s3 accessed with duckDB and wrapped in an R package is a nice way to save some of your sanity.

Now that we know that DuckDB is great let start showing how R can make it in production! 😉

Side notes: loved using {litedown} and codeberg for the prez. Mermai.js you are also great but I am not rdy!

defuneste.codeberg.pageData as Code
Continued thread

@duckdb Future of this new package is unknown, but maybe I will implement a few more functions from {sf} and {areal} in {ducksf} in the coming months. It is also not unlikely that the devs of #DuckDB Spatial extension (github.com/duckdb/duckdb-spati) will just implement areal interpolation themselves, but then my job will only be easier, I will just wrap their function in {𝐝𝐮𝐜𝐤𝐬𝐟} instead of implementing it in SQL right now.

Get 9-30x speed doing areal-weighted interpolation with my new {𝐝𝐮𝐜𝐤𝐬𝐟} #rstats package compared to {sf}/{areal}. Experimental, but tested against both {areal} and {sf}. github.com/e-kotov/ducksf . Despite the costs of moving data between R and #DuckDB, the performance of {𝐝𝐮𝐜𝐤𝐬𝐟} is impressive, thanks to #DuckDB . Look at the attached benchmark results. And be sure to read the recent post of @duckdb about the performance improvements of their spatial joins here: duckdb.org/2025/08/08/spatial-

I’ve always known that the #DuckDB appender interface was the way to go for bulk loading data. But today I had reason to write a #Golang benchmark to see just how much faster it is and discovered it’s at least 250x faster (on my laptop) at inserting a bigint into a table.

I tested both in-memory and on-disk as well as testing INSERT with auto-commit and with batched commits at various batch sizes.

gist.github.com/rkennedy-argus

I suppose I should test INSERTs with prepared statements, too. But I doubt they’ll put much of a dent in that difference.

Go DuckDB bulk loading benchmark. GitHub Gist: instantly share code, notes, and snippets.
GistGo DuckDB bulk loading benchmarkGo DuckDB bulk loading benchmark. GitHub Gist: instantly share code, notes, and snippets.

🌘 Xorq:以 Python 簡潔性實現 SQL 規模的機器學習目錄、組合與部署
➤ 打造具備 Python 簡潔性與 SQL 擴展能力的下一代 ML 管道
github.com/xorq-labs/xorq
Xorq 是一個新穎的機器學習框架,旨在簡化並標準化 ML 管道的建置、分享與部署流程。它透過結合 Python 的易用性與 SQL 的強大擴展性,讓開發者能夠以聲明式的方式跨多個計算引擎(如 DuckDB、Snowflake 和 DataFusion)建立可重複使用的 ML 管道。Xorq 的核心技術包括使用 Apache Arrow 進行零拷貝資料傳輸,以及利用 Ibis 和 DataFusion 實現高效運算。其特點包括:支援 pandas 風格語法與 Ibis 的多引擎聲明式表達;將 Python 運算式定義為 YAML 格式,確保可重複性;提供可移植的 UDF 與 UDAF,並支援自動序
#機器學習 #資料工程 #管道 #Python #SQL #Ibis #DuckDB #Snowflake #DataFusion #Apache Arrow

Catalog, compose, and ship ML—Python simplicity, SQL scale. - xorq-labs/xorq
GitHubGitHub - xorq-labs/xorq: Catalog, compose, and ship ML—Python simplicity, SQL scale.Catalog, compose, and ship ML—Python simplicity, SQL scale. - xorq-labs/xorq

This week, I learned how to create and explore a data lake with duckdb, using its new ducklake extension. It was surprisingly easy to hand over the creation and management of parquet files with larg(ish) tables to ducklake. I loved being able to explore the data using R, python or plain SQL - even within the same Quarto document! tomsing1.github.io/blog/posts/ #RStats #python #duckdb #ducklake #quarto

tomsing1.github.ioDipping my toes into the ducklake: Exploring gene expression data with R and python – Thomas Sandmann’s blog

Работа с данными в DuckDB или не pandas’ом единым сыт DS

В проектах по разработке ML-моделей я регулярно сталкиваюсь с тем, что значительная часть времени уходит не на саму модель, а на приведение данных в нужный формат: очистку, трансформацию, агрегацию. Этот этап требует не только времени, но и вычислительных ресурсов, особенно когда речь идет о больших объемах информации. В этой статье я расскажу о своем небольшом исследовании DuckDB — инструменте, который может значительно упростить и ускорить работу с данными.

habr.com/ru/companies/cinimex/

ХабрРабота с данными в DuckDB или не pandas’ом единым сыт DSПриветствую вас, уважаемые хабровчане. Меня зовут Глеб Дрейман, я аналитик данных в компании «Синимекс». В проектах по разработке ML-моделей я регулярно сталкиваюсь с тем, что значительная часть...

Что в чёрной коробочке? Выясняем самостоятельно, не привлекая внимания коллег

Всем привет, меня зовут Миша, и я разрабатываю платформу Яндекс Еды. Первые компоненты были написаны почти 10 лет назад (когда Еда ещё была стартапом Foodfox), и у нас накопилось много кода, который просто хорошо работает, а иногда даже «работает — не трогай». Но в процессе развития и устоявшиеся части системы нужно трогать, про что мои коллеги уже писали — как мы повышали версию PHP , пилили монолит и снимали нагрузку с БД . Наконец настал черёд рассказать про процессинг заказов доставки еды из кафе и ресторанов (а также продуктов из магазинов и многого другого). За годы эволюционного развития он значительно разросся, что стало заметно затруднять дальнейшее развитие — например, изменения, связанные с выходом на новые рынки, — а также влиять на надёжность. Поэтому мы решили вынести процессинг заказа в отдельный специализированный сервис. Чтобы определить, что выносить, а что оставлять, нужно было составить исчерпывающий и актуальный список процессов, которые происходят с заказом. И здесь мы столкнулись с вызовом: это знание распределено по многим людям и документам, поскольку на протяжении долгого времени в процессинг заказов вносили изменения многие команды. И перед нами встал вопрос — как собрать нужную информацию о системе с заметной долей легаси быстро, да так, чтобы информация была актуальна?

habr.com/ru/companies/yandex/a

ХабрЧто в чёрной коробочке? Выясняем самостоятельно, не привлекая внимания коллегВсем привет, меня зовут Миша, и я разрабатываю платформу Яндекс Еды. Первые компоненты были написаны почти 10 лет назад (когда Еда ещё была стартапом Foodfox), и у нас накопилось...