Okay, Back of the napkin math:
- There are probably 100 million sites and 1.5 billion pages worth indexing in a #search engine
- It takes about 1TB to #index 30 million pages.
- We only care about text on a page.
I define a page as worth indexing if:
- It is not a FAANG site
- It has at least one referrer (no DD Web)
- It's active
So, this means we need 40TB of fast data to make a good index for the internet. That's not "runs locally" sized, but it is nonprofit sized.
My size assumptions are basically as follows:
- #URL
- #TFIDF information
- Text #Embeddings
- Snippet
We can store an index for 30kb. So, for 40TB we can store an full internet index. That's about $500 in storage.
Access time becomes a problem. TFIDF for the whole internet can easily fit in ram. Even with #quantized embeddings, you can only fit 2 million per GB in ram.
Assuming you had enough RAM it could be fast: TF-IDF to get 100 million candidated, #FAISS to sort those, load snippets dynamically, potentially modify rank by referers etc.
6 128 MG #Framework #desktops each with 5tb HDs (plus one raspberry pi to sort the final condidates from the six machines) is enough to replace #Google. That's about $15k.
In two to three years this will be doable on a single machine for around $3k.
By the end of the decade it should be able to be run as an app on a powerful desktop
Three years after that it can run on a #laptop.
Three years after that it can run on a #cellphone.
By #2040 it's a background process on your cellphone.
#Clonely #AI is an #AI #machine that #allows #one to #duplicate any #webpages #such as a #blog, #online #store, or #sales #funnel #based on the user #simply #providing #them #with #the #respective #webpage’s #URL. #The #tool #recreates the #layout, #content and #design #elements of the #site #which can #then be #further #customized
https://rb.gy/44mszp
naked-science.ru — Сломать сеть за 15 секунд: что вызвало блэкаут в Испании
Кратко: вместо отключения лишних солнечных батарей — заглушили АЭС, после чего из-за отсутствия инерции турбин стала колебаться частота сети. ПО тех батарей не было рассчитано на такие колебания, отчего вначале колебания частоты усилились, а потом пошло отключение генерации.
"""
[...]
Если вы выводите стабильные виды генерации, чтобы дать возможность больше вырабатывать нестабильным, то вас не должно удивлять, что в определенный момент нестабильности станет слишком много.
[...]
""" #URL
PHP may be the first language to correctly support RFC3986 and WHATWG URL at the same time if https://wiki.php.net/rfc/url_parsing_api passes.
Any URI user should read this RFC. It is a big step in the right direction. Good job by @kocsismate90 .
If the RFC is too long I created a polyfill for testing which works on PHP8.1+ https://github.com/bakame-php/aide-uri It will get tagged as stable once the RFC has passed.
*url
habr.com — Халява уходит из программирования
"""
[...]
Главное заблуждение вайб-кодера
Вайб-кодер думает, что наступили времена, когда за неумение писать код и незнание основ computer science компании будут платить деньги.
Жестокая правда такова, что эти времена как раз закончились с появлением LLM.
[...]
Никакого волшебства с LLM не произошло, только поиск стал быстрее и нудная рутина ушла. Если речь идет о задаче, которую не решили в интернете, то и LLM не поможет. [...]
"""
UPD: всё ж неправильно он термин выбрал. Не "халява" таки. #URL
lexa.livejournal.com — память и фантазия
"""
Как говорил товарищ Ленин, из всех попов для нас важнейшим является науч.поп. В честь дня рождения Ильича я последовал его завету — и пошёл почитать известного науч. попа Панчина. И прочёл там статью “Как живут люди без фантазии?".
Статья является пересказом новомодной теории психолога Адама Земана, который в 2015 году назвал способность к визуализации "фантазией", а для отсутствия такой способности придумал ещё более странное слово "афантазия". И я очень удивляюсь, почему все повторяют эти неудачные термины.
Ну, с попом Панчиным дело ясное. Он просто сделал подстрочный гуглоперевод этой самой "афантазии", и дальше уже поскакал на автомате, говоря о "людях без фантазии" и "людях, которые не наделены воображением". Но как сам Земан перепутал визуализацию и фантазию?
У меня есть одна гипотеза насчёт этого Земана. Но прежде я расскажу, в чём тут косяк вообще.
[...]
""" #URL
(vraie) #question : pourquoi en 2025 il y a des sites Internet qui sont inaccessibles si on ne met pas le www dans l'url ?
Ca me semble la base de faire une redirection d'url mais qu'avec ou sans, ça soit accessible... (et ça m'énerve quand ce n'est pas le cas sur des sites web culturels publics)
#web #siteinternet #url
https://www.europesays.com/uk/26659/ Chrome for Android’s bottom-mounted address bar is finally rolling out #Android #bar #bottom #Chrome #Mobile #Technology #UK #UnitedKingdom #URL
Google Search: domini nazionali reindirizzati a google.com
#Aggiornamenti #ccTLD #DominiWeb #Google #GoogleSearch #Internet #Notizie #Novità #RicercaLocale #SEO #TechNews #Tecnologia #URL #UserExperience #Web
https://www.ceotech.it/google-search-domini-nazionali-reindirizzati-google-com/
ich bekam ein Anschreiben eines größeren deutschen Verlags, da geht es um Werbung und login-Möglichkeiten. Auf dem Anschreiben ist ein #QRCode, damit ich schneller auf der website navigiert werde - daneben steht eine URL, kann ich abtippen. Ich scanne den stinknormal aussehenden Code. Es ist nicht die #URL sondern eine bei qr-code-generator.com - in einem #Verlag ist niemand eine Lage mit Bordmitteln einen statischen QRCode in ein Anschreiben zu pflegen? Tjooo.
telegra.ph — Интеллектуальное ограбление #URL
Google Discover modifica i link condivisi: cosa sapere
#Aggiornamenti #Android #App #Discover #Google #GoogleDiscover #Link #Notizie #Novità #TechNews #Tecnologia #URL
https://www.ceotech.it/google-discover-modifica-i-link-condivisi-cosa-sapere/
LittleLink Server - Déploiement Docker